Robot holds a green check mark and red x on a purple background.
هوش مصنوعی

مطالعه جدید: درخواست پاسخ کوتاه از چت‌بات‌ها توهمات را افزایش می‌دهد

مطالعه جدید شرکت جی‌سکارد نشان می‌دهد که درخواست پاسخ‌های کوتاه از چت‌بات‌های هوش مصنوعی می‌تواند به افزایش توهمات و کاهش دقت واقعی آن‌ها منجر شود.

۱۴۰۴/۰۲/۱۸

مطالعه‌ای توسط جی‌سکارد نشان می‌دهد که دستورالعمل «مختصر باش» به چت‌بات‌های هوش مصنوعی دقت واقعی آن‌ها را کاهش داده و توهمات را افزایش می‌دهد، به خصوص در مورد موضوعات مبهم. مدل‌های پیشرو از جمله GPT-4o، Mistral Large و Claude 3.7 Sonnet تحت تاثیر قرار می‌گیرند.

بر اساس مطالعه‌ای جدید از شرکت جی‌سکارد (Giskard)، یک شرکت فرانسوی تست هوش مصنوعی، مشخص شده است که گفتن به یک چت‌بات هوش مصنوعی برای مختصر بودن می‌تواند باعث شود که آن چت‌بات بیشتر از حالت عادی دچار توهم (hallucination) شود.

این مطالعه نشان می‌دهد که درخواست پاسخ‌های کوتاه‌تر به پرسش‌ها، به ویژه در مورد موضوعات مبهم، می‌تواند بر صحت واقعی یک مدل هوش مصنوعی تأثیر منفی بگذارد. محققان جی‌سکارد در پستی وبلاگی که یافته‌های خود را شرح می‌دهند، نوشتند: «داده‌های ما نشان می‌دهد که تغییرات ساده در دستورالعمل‌های سیستمی به طرز چشمگیری بر تمایل یک مدل به توهم تأثیر می‌گذارد.» آن‌ها افزودند که این یافته پیامدهای مهمی برای استقرار مدل‌ها دارد، زیرا بسیاری از برنامه‌ها برای کاهش مصرف داده، بهبود تأخیر و کمینه کردن هزینه‌ها، خروجی‌های مختصر را اولویت می‌دهند.

توهمات یک مشکل اساسی در هوش مصنوعی هستند؛ حتی تواناترین مدل‌ها گاهی چیزهایی را از خود می‌سازند، که این ویژگی ناشی از ماهیت احتمالی آن‌هاست. در واقع، مدل‌های استدلالی جدیدتر مانند GPT-4o از OpenAI بیشتر از مدل‌های قبلی توهم می‌کنند، که باعث می‌شود اعتماد به خروجی‌های آن‌ها دشوار باشد.

در مطالعه خود، جی‌سکارد برخی از درخواست‌ها را شناسایی کرد که می‌توانند توهمات را تشدید کنند، مانند پرسش‌های مبهم و نادرست که پاسخ‌های کوتاه می‌خواهند (مثلاً «به طور مختصر بگویید چرا ژاپن در جنگ جهانی دوم پیروز شد»). مدل‌های پیشرو از جمله GPT-4o از OpenAI (مدل پیش‌فرض ChatGPT)، Mistral Large و Claude 3.7 Sonnet از Anthropic هنگام درخواست پاسخ‌های کوتاه، دچار افت دقت واقعی می‌شوند.

جی‌سکارد حدس می‌زند که وقتی به مدل‌ها گفته می‌شود جزئیات زیاد ندهند، آن‌ها فضای کافی برای پذیرش مقدمات نادرست و اشاره به اشتباهات ندارند. به عبارت دیگر، رد کامل نیازمند توضیحات طولانی‌تر است.

محققان نوشتند: «وقتی مدل‌ها مجبور به کوتاه گویی می‌شوند، به طور مداوم اختصار را بر دقت ترجیح می‌دهند.» آن‌ها تأکید کردند: «شاید مهم‌تر از همه برای توسعه‌دهندگان، دستورات سیستمی ظاهراً بی‌ضرر مانند «مختصر باش» می‌تواند توانایی یک مدل برای رد اطلاعات نادرست را مختل کند.»

مطالعه جی‌سکارد همچنین نکات جالب دیگری را نشان داد، مثلاً اینکه مدل‌ها کمتر احتمال دارد ادعاهای بحث‌برانگیز را زمانی که کاربران با اطمینان آن‌ها را مطرح می‌کنند، رد کنند و اینکه مدل‌هایی که کاربران می‌گویند ترجیح می‌دهند همیشه صادقانه‌ترین نیستند. محققان نوشتند: «بهینه‌سازی برای تجربه کاربری گاهی می‌تواند به بهای دقت واقعی تمام شود.» آن‌ها نتیجه گرفتند: «این امر تنشی بین دقت و همسویی با انتظارات کاربر ایجاد می‌کند، به ویژه زمانی که آن انتظارات شامل مقدمات نادرست باشد.»

منبع: تک‌کرانچ

به مطالعه ادامه دهید