Digital generated image of abstract AI data chat icons flying over digital surface with codes
هوش مصنوعی

مطالعه‌ای LM Arena را متهم می‌کند که به آزمایشگاه‌های برتر هوش مصنوعی در دستکاری بنچمارک خود کمک کرده است

مطالعه‌ای جدید LM Arena، سازمان مسئول بنچمارک محبوب هوش مصنوعی Chatbot Arena را متهم می‌کند که به برخی شرکت‌های هوش مصنوعی در دستکاری جدول امتیازات خود کمک کرده است.

۱۴۰۴/۰۲/۱۱

مطالعه‌ای جدید توسط Cohere، استنفورد، MIT و Ai2، LM Arena را متهم می‌کند که به شرکت‌هایی مانند متا، اوپن‌ای‌آی، گوگل و آمازون با ارائه آزمایش خصوصی و نرخ نمونه‌برداری بالاتر، مزیت ناعادلانه‌ای در بنچمارک Chatbot Arena داده است. LM Arena و برخی از شرکت‌های متهم این ادعاها را رد کرده‌اند.

بر اساس مقاله جدیدی که توسط آزمایشگاه هوش مصنوعی Cohere، دانشگاه استنفورد، MIT و Ai2 منتشر شده است، سازمان LM Arena که مسئول بنچمارک محبوب و برون‌سپاری شده هوش مصنوعی با نام Chatbot Arena (میدان نبرد چت‌بات) است، متهم شده است که به گروه منتخبی از شرکت‌های هوش مصنوعی کمک کرده تا در جدول امتیازات (leaderboard) به نتایج بهتری دست یابند.

به گفته نویسندگان، LM Arena به برخی از شرکت‌های پیشرو در صنعت هوش مصنوعی مانند متا (Meta)، اوپن‌ای‌آی (OpenAI)، گوگل (Google) و آمازون (Amazon) اجازه داده است تا چندین نسخه از مدل‌های هوش مصنوعی خود را به صورت خصوصی آزمایش کنند و سپس امتیاز مدل‌هایی که عملکرد پایین‌تری داشته‌اند را منتشر نکنند. نویسندگان می‌گویند این امر دستیابی به جایگاه برتر در جدول امتیازات پلتفرم را برای این شرکت‌ها آسان‌تر کرده است، در حالی که این فرصت به همه شرکت‌ها داده نشده است.

سارا هوکر (Sara Hooker)، معاون تحقیقات هوش مصنوعی در Cohere و یکی از نویسندگان این مطالعه، در مصاحبه با TechCrunch اظهار داشت: «تنها تعداد انگشت‌شماری از [شرکت‌ها] مطلع شدند که این آزمایش خصوصی در دسترس است، و حجم آزمایش خصوصی که برخی [شرکت‌ها] دریافت کردند، بسیار بیشتر از بقیه بود. این یک دستکاری [بازی] است.»

Chatbot Arena که در سال ۲۰۲۳ به عنوان یک پروژه تحقیقاتی آکادمیک در دانشگاه کالیفرنیا برکلی (UC Berkeley) تأسیس شد، به یک بنچمارک اصلی برای شرکت‌های هوش مصنوعی تبدیل شده است. این سیستم با قرار دادن پاسخ‌های دو مدل هوش مصنوعی متفاوت در کنار یکدیگر در یک «نبرد» (battle) عمل می‌کند و از کاربران می‌خواهد بهترین پاسخ را انتخاب کنند. دیدن مدل‌های منتشرنشده که با نام مستعار در این میدان نبرد رقابت می‌کنند، غیرمعمول نیست.

آرای کاربران در طول زمان به امتیاز یک مدل و در نتیجه به جایگاه آن در جدول امتیازات Chatbot Arena کمک می‌کند. در حالی که بسیاری از بازیگران تجاری در Chatbot Arena شرکت می‌کنند، LM Arena مدت‌هاست که تأکید کرده است بنچمارک آن بی‌طرف و منصفانه است. با این حال، نویسندگان مقاله می‌گویند آنچه کشف کرده‌اند خلاف این موضوع است.

نویسندگان ادعا می‌کنند که یک شرکت هوش مصنوعی، متا (Meta)، توانسته است بین ژانویه و مارس (پیش از انتشار مدل Llama 4) ۲۷ نسخه مدل را به صورت خصوصی در Chatbot Arena آزمایش کند. در زمان انتشار، متا تنها امتیاز یک مدل را که تصادفاً در نزدیکی بالای جدول امتیازات Chatbot Arena قرار داشت، به صورت عمومی منتشر کرد.

یون استویکا (Ion Stoica)، یکی از بنیان‌گذاران LM Arena و استاد دانشگاه کالیفرنیا برکلی، در ایمیلی به TechCrunch گفت که این مطالعه پر از «نادرستی» و «تحلیل‌های سوال‌برانگیز» است. LM Arena در بیانیه‌ای که به TechCrunch ارائه داد، گفت: «ما متعهد به ارزیابی‌های عادلانه و جامعه‌محور هستیم و از همه ارائه‌دهندگان مدل دعوت می‌کنیم تا مدل‌های بیشتری را برای آزمایش ارائه دهند و عملکرد خود را بر اساس ترجیحات انسانی بهبود بخشند. اگر یک ارائه‌دهنده مدل تصمیم بگیرد آزمایش‌های بیشتری نسبت به ارائه‌دهنده دیگری انجام دهد، این بدان معنا نیست که با ارائه‌دهنده دوم ناعادلانه رفتار می‌شود.»

آرماند جولین (Armand Joulin)، محقق اصلی در گوگل دیپ‌مایند (Google DeepMind)، نیز در پستی در پلتفرم X (توئیتر سابق) خاطرنشان کرد که برخی از اعداد این مطالعه نادرست هستند و ادعا کرد گوگل تنها یک مدل هوش مصنوعی Gemma 3 را برای آزمایش پیش از انتشار به LM Arena ارسال کرده است. هوکر در پاسخ به جولین در X قول داد که نویسندگان یک اصلاحیه ارائه خواهند داد.

نویسندگان مقاله تحقیقات خود را در نوامبر ۲۰۲۴ پس از اطلاع از اینکه احتمالاً برخی شرکت‌های هوش مصنوعی دسترسی ترجیحی به Chatbot Arena دارند، آغاز کردند. آنها در مجموع بیش از ۲.۸ میلیون نبرد در Chatbot Arena را در طول پنج ماه اندازه‌گیری کردند.

نویسندگان می‌گویند شواهدی یافته‌اند که LM Arena به برخی شرکت‌های هوش مصنوعی، از جمله متا، اوپن‌ای‌آی و گوگل، اجازه داده است با ظاهر شدن مدل‌هایشان در تعداد بیشتری از «نبردهای» مدل، داده‌های بیشتری از Chatbot Arena جمع‌آوری کنند. نویسندگان ادعا می‌کنند این نرخ نمونه‌برداری افزایش یافته، به این شرکت‌ها یک مزیت ناعادلانه داده است.

استفاده از داده‌های اضافی از LM Arena می‌تواند عملکرد یک مدل در Arena Hard، یکی دیگر از بنچمارک‌هایی که LM Arena نگهداری می‌کند، تا ۱۱۲ درصد بهبود بخشد. با این حال، LM Arena در پستی در X گفت که عملکرد Arena Hard مستقیماً با عملکرد Chatbot Arena ارتباط ندارد.

هوکر گفت که مشخص نیست چگونه ممکن است برخی شرکت‌های هوش مصنوعی دسترسی اولویت‌دار دریافت کرده باشند، اما LM Arena باید شفافیت خود را افزایش دهد، بدون توجه به این موضوع.

LM Arena در پستی در X گفت که چندین ادعای موجود در مقاله واقعیت را منعکس نمی‌کنند. این سازمان به یک پست وبلاگ اشاره کرد که اوایل هفته جاری منتشر کرده بود و نشان می‌داد مدل‌های آزمایشگاه‌های غیربزرگ در نبردهای Chatbot Arena بیشتر از آنچه مطالعه نشان می‌دهد، ظاهر می‌شوند.

یکی از محدودیت‌های مهم این مطالعه این است که برای تعیین اینکه کدام مدل‌های هوش مصنوعی در حال آزمایش خصوصی در Chatbot Arena بودند، به «خوداظهاری» (self-identification) تکیه کرده است. نویسندگان چندین بار از مدل‌های هوش مصنوعی درباره شرکت سازنده آن‌ها پرسیدند و برای طبقه‌بندی آن‌ها به پاسخ‌های مدل‌ها تکیه کردند؛ روشی که بی‌عیب و نقص نیست.

با این حال، هوکر گفت هنگامی که نویسندگان با LM Arena تماس گرفتند تا یافته‌های اولیه خود را به اشتراک بگذارند، این سازمان آن‌ها را رد نکرد.

TechCrunch برای دریافت نظر با متا، گوگل، اوپن‌ای‌آی و آمازون - که همگی در مطالعه ذکر شده بودند - تماس گرفت. هیچ‌یک بلافاصله پاسخ ندادند.

در این مقاله، نویسندگان از LM Arena می‌خواهند تعدادی تغییر را با هدف عادلانه‌تر کردن Chatbot Arena پیاده‌سازی کند. به عنوان مثال، نویسندگان می‌گویند LM Arena می‌تواند یک حد شفاف و مشخص برای تعداد آزمایش‌های خصوصی که آزمایشگاه‌های هوش مصنوعی می‌توانند انجام دهند، تعیین کند و امتیازات این آزمایش‌ها را به صورت عمومی فاش سازد.

LM Arena در پستی در X این پیشنهادات را رد کرد و ادعا کرد که اطلاعات مربوط به آزمایش‌های پیش از انتشار را از مارس ۲۰۲۴ منتشر کرده است. این سازمان بنچمارکینگ همچنین گفت که «نشان دادن امتیاز مدل‌های پیش از انتشار که به صورت عمومی در دسترس نیستند، منطقی نیست»، زیرا جامعه هوش مصنوعی نمی‌تواند خود این مدل‌ها را آزمایش کند.

محققان همچنین می‌گویند LM Arena می‌تواند نرخ نمونه‌برداری Chatbot Arena را طوری تنظیم کند که اطمینان حاصل شود همه مدل‌های موجود در میدان نبرد در تعداد مساوی از نبردها ظاهر می‌شوند. LM Arena به صورت عمومی نسبت به این توصیه پذیرش نشان داده و اعلام کرده است که یک الگوریتم نمونه‌برداری جدید ایجاد خواهد کرد.

این مقاله چند هفته پس از آن منتشر می‌شود که متا در حوالی زمان عرضه مدل‌های Llama 4 (که پیشتر ذکر شد)، به دستکاری بنچمارک‌ها در Chatbot Arena متهم شد. متا یکی از مدل‌های Llama 4 را برای «مکالمه‌پذیری» (conversationality) بهینه‌سازی کرده بود که به آن کمک کرد در جدول امتیازات Chatbot Arena به امتیاز چشمگیری دست یابد. اما این شرکت هرگز مدل بهینه‌سازی شده را منتشر نکرد و نسخه عادی عملکرد بسیار بدتری در Chatbot Arena داشت.

در آن زمان، LM Arena گفته بود که متا باید در رویکرد خود به بنچمارکینگ شفاف‌تر می‌بود.

اوایل این ماه، LM Arena اعلام کرد در حال راه‌اندازی یک شرکت با برنامه‌ریزی برای جذب سرمایه از سرمایه‌گذاران است. این مطالعه بررسی و موشکافی بر روی سازمان‌های خصوصی بنچمارک و اینکه آیا می‌توان به آن‌ها برای ارزیابی مدل‌های هوش مصنوعی بدون دخالت نفوذ شرکتی اعتماد کرد را افزایش می‌دهد.

منبع: تک‌کرانچ

به مطالعه ادامه دهید