
Image Credits:Andriy Onufriyenko / Getty Images
مطالعهای LM Arena را متهم میکند که به آزمایشگاههای برتر هوش مصنوعی در دستکاری بنچمارک خود کمک کرده است
مطالعهای جدید LM Arena، سازمان مسئول بنچمارک محبوب هوش مصنوعی Chatbot Arena را متهم میکند که به برخی شرکتهای هوش مصنوعی در دستکاری جدول امتیازات خود کمک کرده است.
۱۴۰۴/۰۲/۱۱
مطالعهای جدید توسط Cohere، استنفورد، MIT و Ai2، LM Arena را متهم میکند که به شرکتهایی مانند متا، اوپنایآی، گوگل و آمازون با ارائه آزمایش خصوصی و نرخ نمونهبرداری بالاتر، مزیت ناعادلانهای در بنچمارک Chatbot Arena داده است. LM Arena و برخی از شرکتهای متهم این ادعاها را رد کردهاند.
بر اساس مقاله جدیدی که توسط آزمایشگاه هوش مصنوعی Cohere، دانشگاه استنفورد، MIT و Ai2 منتشر شده است، سازمان LM Arena که مسئول بنچمارک محبوب و برونسپاری شده هوش مصنوعی با نام Chatbot Arena (میدان نبرد چتبات) است، متهم شده است که به گروه منتخبی از شرکتهای هوش مصنوعی کمک کرده تا در جدول امتیازات (leaderboard) به نتایج بهتری دست یابند.
به گفته نویسندگان، LM Arena به برخی از شرکتهای پیشرو در صنعت هوش مصنوعی مانند متا (Meta)، اوپنایآی (OpenAI)، گوگل (Google) و آمازون (Amazon) اجازه داده است تا چندین نسخه از مدلهای هوش مصنوعی خود را به صورت خصوصی آزمایش کنند و سپس امتیاز مدلهایی که عملکرد پایینتری داشتهاند را منتشر نکنند. نویسندگان میگویند این امر دستیابی به جایگاه برتر در جدول امتیازات پلتفرم را برای این شرکتها آسانتر کرده است، در حالی که این فرصت به همه شرکتها داده نشده است.
سارا هوکر (Sara Hooker)، معاون تحقیقات هوش مصنوعی در Cohere و یکی از نویسندگان این مطالعه، در مصاحبه با TechCrunch اظهار داشت: «تنها تعداد انگشتشماری از [شرکتها] مطلع شدند که این آزمایش خصوصی در دسترس است، و حجم آزمایش خصوصی که برخی [شرکتها] دریافت کردند، بسیار بیشتر از بقیه بود. این یک دستکاری [بازی] است.»
Chatbot Arena که در سال ۲۰۲۳ به عنوان یک پروژه تحقیقاتی آکادمیک در دانشگاه کالیفرنیا برکلی (UC Berkeley) تأسیس شد، به یک بنچمارک اصلی برای شرکتهای هوش مصنوعی تبدیل شده است. این سیستم با قرار دادن پاسخهای دو مدل هوش مصنوعی متفاوت در کنار یکدیگر در یک «نبرد» (battle) عمل میکند و از کاربران میخواهد بهترین پاسخ را انتخاب کنند. دیدن مدلهای منتشرنشده که با نام مستعار در این میدان نبرد رقابت میکنند، غیرمعمول نیست.
آرای کاربران در طول زمان به امتیاز یک مدل و در نتیجه به جایگاه آن در جدول امتیازات Chatbot Arena کمک میکند. در حالی که بسیاری از بازیگران تجاری در Chatbot Arena شرکت میکنند، LM Arena مدتهاست که تأکید کرده است بنچمارک آن بیطرف و منصفانه است. با این حال، نویسندگان مقاله میگویند آنچه کشف کردهاند خلاف این موضوع است.
نویسندگان ادعا میکنند که یک شرکت هوش مصنوعی، متا (Meta)، توانسته است بین ژانویه و مارس (پیش از انتشار مدل Llama 4) ۲۷ نسخه مدل را به صورت خصوصی در Chatbot Arena آزمایش کند. در زمان انتشار، متا تنها امتیاز یک مدل را که تصادفاً در نزدیکی بالای جدول امتیازات Chatbot Arena قرار داشت، به صورت عمومی منتشر کرد.
یون استویکا (Ion Stoica)، یکی از بنیانگذاران LM Arena و استاد دانشگاه کالیفرنیا برکلی، در ایمیلی به TechCrunch گفت که این مطالعه پر از «نادرستی» و «تحلیلهای سوالبرانگیز» است. LM Arena در بیانیهای که به TechCrunch ارائه داد، گفت: «ما متعهد به ارزیابیهای عادلانه و جامعهمحور هستیم و از همه ارائهدهندگان مدل دعوت میکنیم تا مدلهای بیشتری را برای آزمایش ارائه دهند و عملکرد خود را بر اساس ترجیحات انسانی بهبود بخشند. اگر یک ارائهدهنده مدل تصمیم بگیرد آزمایشهای بیشتری نسبت به ارائهدهنده دیگری انجام دهد، این بدان معنا نیست که با ارائهدهنده دوم ناعادلانه رفتار میشود.»
آرماند جولین (Armand Joulin)، محقق اصلی در گوگل دیپمایند (Google DeepMind)، نیز در پستی در پلتفرم X (توئیتر سابق) خاطرنشان کرد که برخی از اعداد این مطالعه نادرست هستند و ادعا کرد گوگل تنها یک مدل هوش مصنوعی Gemma 3 را برای آزمایش پیش از انتشار به LM Arena ارسال کرده است. هوکر در پاسخ به جولین در X قول داد که نویسندگان یک اصلاحیه ارائه خواهند داد.
نویسندگان مقاله تحقیقات خود را در نوامبر ۲۰۲۴ پس از اطلاع از اینکه احتمالاً برخی شرکتهای هوش مصنوعی دسترسی ترجیحی به Chatbot Arena دارند، آغاز کردند. آنها در مجموع بیش از ۲.۸ میلیون نبرد در Chatbot Arena را در طول پنج ماه اندازهگیری کردند.
نویسندگان میگویند شواهدی یافتهاند که LM Arena به برخی شرکتهای هوش مصنوعی، از جمله متا، اوپنایآی و گوگل، اجازه داده است با ظاهر شدن مدلهایشان در تعداد بیشتری از «نبردهای» مدل، دادههای بیشتری از Chatbot Arena جمعآوری کنند. نویسندگان ادعا میکنند این نرخ نمونهبرداری افزایش یافته، به این شرکتها یک مزیت ناعادلانه داده است.
استفاده از دادههای اضافی از LM Arena میتواند عملکرد یک مدل در Arena Hard، یکی دیگر از بنچمارکهایی که LM Arena نگهداری میکند، تا ۱۱۲ درصد بهبود بخشد. با این حال، LM Arena در پستی در X گفت که عملکرد Arena Hard مستقیماً با عملکرد Chatbot Arena ارتباط ندارد.
هوکر گفت که مشخص نیست چگونه ممکن است برخی شرکتهای هوش مصنوعی دسترسی اولویتدار دریافت کرده باشند، اما LM Arena باید شفافیت خود را افزایش دهد، بدون توجه به این موضوع.
LM Arena در پستی در X گفت که چندین ادعای موجود در مقاله واقعیت را منعکس نمیکنند. این سازمان به یک پست وبلاگ اشاره کرد که اوایل هفته جاری منتشر کرده بود و نشان میداد مدلهای آزمایشگاههای غیربزرگ در نبردهای Chatbot Arena بیشتر از آنچه مطالعه نشان میدهد، ظاهر میشوند.
یکی از محدودیتهای مهم این مطالعه این است که برای تعیین اینکه کدام مدلهای هوش مصنوعی در حال آزمایش خصوصی در Chatbot Arena بودند، به «خوداظهاری» (self-identification) تکیه کرده است. نویسندگان چندین بار از مدلهای هوش مصنوعی درباره شرکت سازنده آنها پرسیدند و برای طبقهبندی آنها به پاسخهای مدلها تکیه کردند؛ روشی که بیعیب و نقص نیست.
با این حال، هوکر گفت هنگامی که نویسندگان با LM Arena تماس گرفتند تا یافتههای اولیه خود را به اشتراک بگذارند، این سازمان آنها را رد نکرد.
TechCrunch برای دریافت نظر با متا، گوگل، اوپنایآی و آمازون - که همگی در مطالعه ذکر شده بودند - تماس گرفت. هیچیک بلافاصله پاسخ ندادند.
در این مقاله، نویسندگان از LM Arena میخواهند تعدادی تغییر را با هدف عادلانهتر کردن Chatbot Arena پیادهسازی کند. به عنوان مثال، نویسندگان میگویند LM Arena میتواند یک حد شفاف و مشخص برای تعداد آزمایشهای خصوصی که آزمایشگاههای هوش مصنوعی میتوانند انجام دهند، تعیین کند و امتیازات این آزمایشها را به صورت عمومی فاش سازد.
LM Arena در پستی در X این پیشنهادات را رد کرد و ادعا کرد که اطلاعات مربوط به آزمایشهای پیش از انتشار را از مارس ۲۰۲۴ منتشر کرده است. این سازمان بنچمارکینگ همچنین گفت که «نشان دادن امتیاز مدلهای پیش از انتشار که به صورت عمومی در دسترس نیستند، منطقی نیست»، زیرا جامعه هوش مصنوعی نمیتواند خود این مدلها را آزمایش کند.
محققان همچنین میگویند LM Arena میتواند نرخ نمونهبرداری Chatbot Arena را طوری تنظیم کند که اطمینان حاصل شود همه مدلهای موجود در میدان نبرد در تعداد مساوی از نبردها ظاهر میشوند. LM Arena به صورت عمومی نسبت به این توصیه پذیرش نشان داده و اعلام کرده است که یک الگوریتم نمونهبرداری جدید ایجاد خواهد کرد.
این مقاله چند هفته پس از آن منتشر میشود که متا در حوالی زمان عرضه مدلهای Llama 4 (که پیشتر ذکر شد)، به دستکاری بنچمارکها در Chatbot Arena متهم شد. متا یکی از مدلهای Llama 4 را برای «مکالمهپذیری» (conversationality) بهینهسازی کرده بود که به آن کمک کرد در جدول امتیازات Chatbot Arena به امتیاز چشمگیری دست یابد. اما این شرکت هرگز مدل بهینهسازی شده را منتشر نکرد و نسخه عادی عملکرد بسیار بدتری در Chatbot Arena داشت.
در آن زمان، LM Arena گفته بود که متا باید در رویکرد خود به بنچمارکینگ شفافتر میبود.
اوایل این ماه، LM Arena اعلام کرد در حال راهاندازی یک شرکت با برنامهریزی برای جذب سرمایه از سرمایهگذاران است. این مطالعه بررسی و موشکافی بر روی سازمانهای خصوصی بنچمارک و اینکه آیا میتوان به آنها برای ارزیابی مدلهای هوش مصنوعی بدون دخالت نفوذ شرکتی اعتماد کرد را افزایش میدهد.
منبع: تککرانچ