
Image Credits:tommy / Getty ImagesImage Credits:Giskard
مطالعه جدید: درخواست پاسخ کوتاه از چتباتها توهمات را افزایش میدهد
مطالعه جدید شرکت جیسکارد نشان میدهد که درخواست پاسخهای کوتاه از چتباتهای هوش مصنوعی میتواند به افزایش توهمات و کاهش دقت واقعی آنها منجر شود.
۱۴۰۴/۰۲/۱۸
مطالعهای توسط جیسکارد نشان میدهد که دستورالعمل «مختصر باش» به چتباتهای هوش مصنوعی دقت واقعی آنها را کاهش داده و توهمات را افزایش میدهد، به خصوص در مورد موضوعات مبهم. مدلهای پیشرو از جمله GPT-4o، Mistral Large و Claude 3.7 Sonnet تحت تاثیر قرار میگیرند.
بر اساس مطالعهای جدید از شرکت جیسکارد (Giskard)، یک شرکت فرانسوی تست هوش مصنوعی، مشخص شده است که گفتن به یک چتبات هوش مصنوعی برای مختصر بودن میتواند باعث شود که آن چتبات بیشتر از حالت عادی دچار توهم (hallucination) شود.
این مطالعه نشان میدهد که درخواست پاسخهای کوتاهتر به پرسشها، به ویژه در مورد موضوعات مبهم، میتواند بر صحت واقعی یک مدل هوش مصنوعی تأثیر منفی بگذارد. محققان جیسکارد در پستی وبلاگی که یافتههای خود را شرح میدهند، نوشتند: «دادههای ما نشان میدهد که تغییرات ساده در دستورالعملهای سیستمی به طرز چشمگیری بر تمایل یک مدل به توهم تأثیر میگذارد.» آنها افزودند که این یافته پیامدهای مهمی برای استقرار مدلها دارد، زیرا بسیاری از برنامهها برای کاهش مصرف داده، بهبود تأخیر و کمینه کردن هزینهها، خروجیهای مختصر را اولویت میدهند.
توهمات یک مشکل اساسی در هوش مصنوعی هستند؛ حتی تواناترین مدلها گاهی چیزهایی را از خود میسازند، که این ویژگی ناشی از ماهیت احتمالی آنهاست. در واقع، مدلهای استدلالی جدیدتر مانند GPT-4o از OpenAI بیشتر از مدلهای قبلی توهم میکنند، که باعث میشود اعتماد به خروجیهای آنها دشوار باشد.
در مطالعه خود، جیسکارد برخی از درخواستها را شناسایی کرد که میتوانند توهمات را تشدید کنند، مانند پرسشهای مبهم و نادرست که پاسخهای کوتاه میخواهند (مثلاً «به طور مختصر بگویید چرا ژاپن در جنگ جهانی دوم پیروز شد»). مدلهای پیشرو از جمله GPT-4o از OpenAI (مدل پیشفرض ChatGPT)، Mistral Large و Claude 3.7 Sonnet از Anthropic هنگام درخواست پاسخهای کوتاه، دچار افت دقت واقعی میشوند.
جیسکارد حدس میزند که وقتی به مدلها گفته میشود جزئیات زیاد ندهند، آنها فضای کافی برای پذیرش مقدمات نادرست و اشاره به اشتباهات ندارند. به عبارت دیگر، رد کامل نیازمند توضیحات طولانیتر است.
محققان نوشتند: «وقتی مدلها مجبور به کوتاه گویی میشوند، به طور مداوم اختصار را بر دقت ترجیح میدهند.» آنها تأکید کردند: «شاید مهمتر از همه برای توسعهدهندگان، دستورات سیستمی ظاهراً بیضرر مانند «مختصر باش» میتواند توانایی یک مدل برای رد اطلاعات نادرست را مختل کند.»
مطالعه جیسکارد همچنین نکات جالب دیگری را نشان داد، مثلاً اینکه مدلها کمتر احتمال دارد ادعاهای بحثبرانگیز را زمانی که کاربران با اطمینان آنها را مطرح میکنند، رد کنند و اینکه مدلهایی که کاربران میگویند ترجیح میدهند همیشه صادقانهترین نیستند. محققان نوشتند: «بهینهسازی برای تجربه کاربری گاهی میتواند به بهای دقت واقعی تمام شود.» آنها نتیجه گرفتند: «این امر تنشی بین دقت و همسویی با انتظارات کاربر ایجاد میکند، به ویژه زمانی که آن انتظارات شامل مقدمات نادرست باشد.»
منبع: تککرانچ