به گزارش سرویس علم و فناوری پایگاه خبری ساعدنیوز، مرکز ارتباطات سازنده (Center for Constructive Communication) در آزمایشگاه رسانهای MIT (MIT Media Lab) در پژوهشی جدید نشان داده است که مدلهای هوش مصنوعی پیشرفته مانند GPT-4 شرکت OpenAI، Claude 3 Opus شرکت Anthropic و Llama 3 شرکت Meta، به طور سیستماتیک عملکرد ضعیفتری برای کاربرانی دارند که انگلیسی زبان دوم آنهاست، سطح تحصیلات رسمی پایینتری دارند یا از خارج ایالات متحده هستند. این تحقیق که مقاله آن با عنوان «LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users» (کاهش هدفمند عملکرد LLM تأثیر نامتناسب بر کاربران آسیبپذیر) در کنفرانس AAAI 2026 ارائه شده، هشدار میدهد که این مدلها ممکن است نابرابریهای موجود در دسترسی به اطلاعات را تشدید کنند.
بر اساس گزارش رسمی MIT News، پژوهشگران با اضافه کردن بیوگرافی کوتاه کاربر (شبیه ویژگی Memory در ChatGPT) به سؤالات، رفتار مدلها را آزمایش کردند. همه سؤالات به زبان انگلیسی و از دو مجموعه داده استاندارد — TruthfulQA (برای سنجش صداقت و جلوگیری از باورهای غلط) و SciQ (سؤالات علمی واقعی) — بودند. بیوگرافیها ویژگیهایی مانند «انگلیسی ضعیف»، «تحصیلات دیپلم» یا «متولد ایران» را نشان میدادند و با گروه کنترل (بدون بیوگرافی یا بیوگرافی کاربر تحصیلکرده آمریکایی) مقایسه شدند.
کاهش دقت و صداقت پاسخها: همه سه مدل دقت پاسخها را به طور معنادار برای کاربران غیربومی انگلیسی و کمسواد کاهش دادند. بزرگترین افت زمانی رخ داد که هر دو ویژگی (غیربومی بودن انگلیسی + تحصیلات پایین) با هم ترکیب میشدند.
نرخ رد سؤال بالاتر: Claude 3 Opus تقریباً 11 درصد سؤالات را برای کاربران کمسواد و غیربومی رد کرد (در مقابل 3٫6 درصد در گروه کنترل). GPT-4 و Llama 3 نرخ رد کمتری داشتند، اما همچنان الگوی مشابهی نشان دادند.
لحن تحقیرآمیز یا پدرسالارانه: در تحلیل دستی رد سؤالها توسط Claude، 43٫7 درصد موارد برای کاربران کمسواد شامل زبان تحقیرآمیز، تمسخرآمیز یا تقلید از انگلیسی شکسته بود (در مقابل کمتر از 1 درصد برای کاربران تحصیلکرده). مثالهایی مانند تقلید لهجه یا سادهسازی بیش از حد مشاهده شد.
تأثیر کشور مبدأ: وقتی کاربران با تحصیلات مشابه از ایالات متحده، ایران و چین مقایسه شدند، Claude 3 Opus عملکرد بهطور خاص ضعیفتری برای کاربران ایرانی نشان داد (کاهش معنادار دقت در هر دو مجموعه داده). مدل اطلاعات حساس مانند انرژی هستهای، آناتومی یا رویدادهای تاریخی را برای کاربران کمسواد ایرانی یا روسی رد میکرد، در حالی که همان اطلاعات را به کاربران دیگر ارائه میداد.
الینور پول-دیان (Elinor Poole-Dayan)، نویسنده اصلی مقاله و پژوهشگر مرکز CCC، گفت: «ما با این انگیزه شروع کردیم که LLMها میتوانند دسترسی نابرابر به اطلاعات در جهان را برطرف کنند... اما این چشمانداز بدون کاهش سوگیریها و تمایلات مضر مدلها برای همه کاربران — صرفنظر از زبان، ملیت یا سایر ویژگیهای جمعیتی — محقق نخواهد شد.»
جاد کبارا (Jad Kabbara)، پژوهشگر علمی مرکز CCC، افزود: «بزرگترین کاهش دقت برای کاربری است که هم غیربومی انگلیسی است و هم کمسواد... این نتایج نشان میدهد اثرات منفی رفتار مدلها نسبت به این ویژگیهای کاربر به صورت ترکیبی عمل میکنند و مدلهای deployed در مقیاس بزرگ خطر پخش رفتار مضر یا اطلاعات غلط را برای کسانی که کمترین توانایی تشخیص آن را دارند، به همراه دارند.»
دب روی (Deb Roy)، مدیر مرکز CCC و استاد MIT، نیز تأکید کرد: «این مطالعه یادآوری میکند که چقدر مهم است سوگیریهای سیستماتیک را که ممکن است به طور پنهان وارد این سیستمها شوند، به طور مداوم ارزیابی کنیم.»
پژوهشگران بیوگرافیها را هم با تولید توسط GPT-4 و هم با اقتباس از وبسایتهای واقعی دانشجویان PhD (از جمله ایرانی) ساختند. آزمایشها چهار بار تکرار شد و پاسخها از نظر دقت، صداقت، رد و لحن تحلیل شدند. نکته مهم: همه سؤالات به انگلیسی بودند و مدل با تشخیص پروفایل کاربر (نه زبان سؤال) واکنش نشان میداد. بنابراین، کاربران فارسیزبان که معمولاً به فارسی سؤال میپرسند، مدل اغلب آنها را به عنوان «غیربومی انگلیسی» شناسایی میکند و رفتار مشابهی نشان میدهد.
این یافتهها با سوگیریهای شناختی-اجتماعی انسانی (مانند ادراک ضعیفتر از غیربومیهای انگلیسی) همخوانی دارد و نشان میدهد فرآیندهای همترازسازی (alignment) مدلها گاهی اطلاعات را از کاربران «کمخطرتر به نظر نرسیدن» پنهان میکند.
این پژوهش — که نسخه کامل آن در arXiv با شماره 2406.17737 موجود است — زنگ خطری برای میلیونها کاربر فارسیزبان است که ممکن است اطلاعات دقیق کمتری دریافت کنند، سؤالاتشان بیشتر رد شود یا با لحنی تحقیرآمیز مواجه شوند. این مسئله بهویژه در موضوعات حساس علمی، تاریخی یا فنی (که کاربران ایرانی اغلب با آنها سروکار دارند) برجسته است و میتواند دسترسی برابر به دانش را مختل کند.
پژوهشگران توصیه میکنند شرکتهای هوش مصنوعی در فرآیندهای آموزشی و همترازسازی، تنوع زبانی و فرهنگی بیشتری اعمال کنند و ویژگیهای شخصیسازی مانند Memory را با احتیاط بیشتری پیادهسازی نمایند تا سوگیریها تشدید نشود.
منابع معتبر:
گزارش رسمی MIT News (19 فوریه 2026): https://news.mit.edu/2026/study-ai-chatbots-provide-less-accurate-information-vulnerable-users-0219
مقاله کامل در arXiv: https://arxiv.org/abs/2406.17737
صفحه پروژه مرکز CCC: https://www.ccc.mit.edu/project/llm-targeted-underperformance/
این تحقیق یکی از مهمترین مطالعات اخیر در حوزه عدالت زبانی و اخلاقی هوش مصنوعی است و انتظار میرود تأثیر قابل توجهی بر سیاستگذاری شرکتهای فناوری داشته باشد.