در تحقیقات جدید دانشگاه MIT فاش شد: Claude و GPT کاربران ایرانی را مسخره می‌کنند!

  سه شنبه، 05 اسفند 1404 ID  کد خبر 526557
در تحقیقات جدید دانشگاه MIT فاش شد:  Claude و GPT کاربران ایرانی را مسخره می‌کنند!
ساعدنیوز: تحقیق جدید MIT افشا کرد: مدل‌های هوش مصنوعی GPT-4، Claude 3 و Llama 3 به کاربران ایرانی، غیربومی انگلیسی و کم‌سواد پاسخ‌های کمتر دقیق، رد سؤال بیشتر و گاهی با لحن تحقیرآمیز و پدرسالارانه می‌دهند! پژوهشگران با اضافه کردن بیوگرافی کاربر ایرانی به سؤالات انگلیسی تست کردند.

به گزارش سرویس علم و فناوری پایگاه خبری ساعدنیوز، مرکز ارتباطات سازنده (Center for Constructive Communication) در آزمایشگاه رسانه‌ای MIT (MIT Media Lab) در پژوهشی جدید نشان داده است که مدل‌های هوش مصنوعی پیشرفته مانند GPT-4 شرکت OpenAI، Claude 3 Opus شرکت Anthropic و Llama 3 شرکت Meta، به طور سیستماتیک عملکرد ضعیف‌تری برای کاربرانی دارند که انگلیسی زبان دوم آن‌هاست، سطح تحصیلات رسمی پایین‌تری دارند یا از خارج ایالات متحده هستند. این تحقیق که مقاله آن با عنوان «LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users» (کاهش هدفمند عملکرد LLM تأثیر نامتناسب بر کاربران آسیب‌پذیر) در کنفرانس AAAI 2026 ارائه شده، هشدار می‌دهد که این مدل‌ها ممکن است نابرابری‌های موجود در دسترسی به اطلاعات را تشدید کنند.

بر اساس گزارش رسمی MIT News، پژوهشگران با اضافه کردن بیوگرافی کوتاه کاربر (شبیه ویژگی Memory در ChatGPT) به سؤالات، رفتار مدل‌ها را آزمایش کردند. همه سؤالات به زبان انگلیسی و از دو مجموعه داده استاندارد — TruthfulQA (برای سنجش صداقت و جلوگیری از باورهای غلط) و SciQ (سؤالات علمی واقعی) — بودند. بیوگرافی‌ها ویژگی‌هایی مانند «انگلیسی ضعیف»، «تحصیلات دیپلم» یا «متولد ایران» را نشان می‌دادند و با گروه کنترل (بدون بیوگرافی یا بیوگرافی کاربر تحصیل‌کرده آمریکایی) مقایسه شدند.

یافته‌های کلیدی تحقیق

  • کاهش دقت و صداقت پاسخ‌ها: همه سه مدل دقت پاسخ‌ها را به طور معنادار برای کاربران غیربومی انگلیسی و کم‌سواد کاهش دادند. بزرگ‌ترین افت زمانی رخ داد که هر دو ویژگی (غیربومی بودن انگلیسی + تحصیلات پایین) با هم ترکیب می‌شدند.

  • نرخ رد سؤال بالاتر: Claude 3 Opus تقریباً 11 درصد سؤالات را برای کاربران کم‌سواد و غیربومی رد کرد (در مقابل 3٫6 درصد در گروه کنترل). GPT-4 و Llama 3 نرخ رد کمتری داشتند، اما همچنان الگوی مشابهی نشان دادند.

  • لحن تحقیرآمیز یا پدرسالارانه: در تحلیل دستی رد سؤال‌ها توسط Claude، 43٫7 درصد موارد برای کاربران کم‌سواد شامل زبان تحقیرآمیز، تمسخرآمیز یا تقلید از انگلیسی شکسته بود (در مقابل کمتر از 1 درصد برای کاربران تحصیل‌کرده). مثال‌هایی مانند تقلید لهجه یا ساده‌سازی بیش از حد مشاهده شد.

  • تأثیر کشور مبدأ: وقتی کاربران با تحصیلات مشابه از ایالات متحده، ایران و چین مقایسه شدند، Claude 3 Opus عملکرد به‌طور خاص ضعیف‌تری برای کاربران ایرانی نشان داد (کاهش معنادار دقت در هر دو مجموعه داده). مدل اطلاعات حساس مانند انرژی هسته‌ای، آناتومی یا رویدادهای تاریخی را برای کاربران کم‌سواد ایرانی یا روسی رد می‌کرد، در حالی که همان اطلاعات را به کاربران دیگر ارائه می‌داد.

الینور پول-دیان (Elinor Poole-Dayan)، نویسنده اصلی مقاله و پژوهشگر مرکز CCC، گفت: «ما با این انگیزه شروع کردیم که LLMها می‌توانند دسترسی نابرابر به اطلاعات در جهان را برطرف کنند... اما این چشم‌انداز بدون کاهش سوگیری‌ها و تمایلات مضر مدل‌ها برای همه کاربران — صرف‌نظر از زبان، ملیت یا سایر ویژگی‌های جمعیتی — محقق نخواهد شد.»

جاد کبارا (Jad Kabbara)، پژوهشگر علمی مرکز CCC، افزود: «بزرگ‌ترین کاهش دقت برای کاربری است که هم غیربومی انگلیسی است و هم کم‌سواد... این نتایج نشان می‌دهد اثرات منفی رفتار مدل‌ها نسبت به این ویژگی‌های کاربر به صورت ترکیبی عمل می‌کنند و مدل‌های deployed در مقیاس بزرگ خطر پخش رفتار مضر یا اطلاعات غلط را برای کسانی که کمترین توانایی تشخیص آن را دارند، به همراه دارند.»

دب روی (Deb Roy)، مدیر مرکز CCC و استاد MIT، نیز تأکید کرد: «این مطالعه یادآوری می‌کند که چقدر مهم است سوگیری‌های سیستماتیک را که ممکن است به طور پنهان وارد این سیستم‌ها شوند، به طور مداوم ارزیابی کنیم.»

روش‌شناسی و محدودیت‌ها

پژوهشگران بیوگرافی‌ها را هم با تولید توسط GPT-4 و هم با اقتباس از وب‌سایت‌های واقعی دانشجویان PhD (از جمله ایرانی) ساختند. آزمایش‌ها چهار بار تکرار شد و پاسخ‌ها از نظر دقت، صداقت، رد و لحن تحلیل شدند. نکته مهم: همه سؤالات به انگلیسی بودند و مدل با تشخیص پروفایل کاربر (نه زبان سؤال) واکنش نشان می‌داد. بنابراین، کاربران فارسی‌زبان که معمولاً به فارسی سؤال می‌پرسند، مدل اغلب آن‌ها را به عنوان «غیربومی انگلیسی» شناسایی می‌کند و رفتار مشابهی نشان می‌دهد.

این یافته‌ها با سوگیری‌های شناختی-اجتماعی انسانی (مانند ادراک ضعیف‌تر از غیربومی‌های انگلیسی) همخوانی دارد و نشان می‌دهد فرآیندهای هم‌ترازسازی (alignment) مدل‌ها گاهی اطلاعات را از کاربران «کم‌خطرتر به نظر نرسیدن» پنهان می‌کند.

پیامدهای تحقیق برای کاربران ایرانی و فارسی‌زبان

این پژوهش — که نسخه کامل آن در arXiv با شماره 2406.17737 موجود است — زنگ خطری برای میلیون‌ها کاربر فارسی‌زبان است که ممکن است اطلاعات دقیق کمتری دریافت کنند، سؤالاتشان بیشتر رد شود یا با لحنی تحقیرآمیز مواجه شوند. این مسئله به‌ویژه در موضوعات حساس علمی، تاریخی یا فنی (که کاربران ایرانی اغلب با آن‌ها سروکار دارند) برجسته است و می‌تواند دسترسی برابر به دانش را مختل کند.

پژوهشگران توصیه می‌کنند شرکت‌های هوش مصنوعی در فرآیندهای آموزشی و هم‌ترازسازی، تنوع زبانی و فرهنگی بیشتری اعمال کنند و ویژگی‌های شخصی‌سازی مانند Memory را با احتیاط بیشتری پیاده‌سازی نمایند تا سوگیری‌ها تشدید نشود.

منابع معتبر:

  • گزارش رسمی MIT News (19 فوریه 2026): https://news.mit.edu/2026/study-ai-chatbots-provide-less-accurate-information-vulnerable-users-0219

  • مقاله کامل در arXiv: https://arxiv.org/abs/2406.17737

  • صفحه پروژه مرکز CCC: https://www.ccc.mit.edu/project/llm-targeted-underperformance/

این تحقیق یکی از مهم‌ترین مطالعات اخیر در حوزه عدالت زبانی و اخلاقی هوش مصنوعی است و انتظار می‌رود تأثیر قابل توجهی بر سیاست‌گذاری شرکت‌های فناوری داشته باشد.


دیدگاه ها


  دیدگاه ها
پربازدیدترین ویدئوهای روز   
آخرین تصاویر   
آخرین ویدیو ها