
Image Credits:Carol Yepes / Getty Images
کارشناسان میگویند بنچمارکهای هوش مصنوعی برونسپاری جمعی اشکالات جدی دارند
کارشناسان نسبت به اشکالات جدی در بنچمارکهای هوش مصنوعی برونسپاری جمعی مانند Chatbot Arena که در میان آزمایشگاههای هوش مصنوعی محبوب شدهاند، هشدار میدهند.
۱۴۰۴/۰۲/۰۲
برخی کارشناسان و محققان نسبت به اتکای فزاینده آزمایشگاههای هوش مصنوعی به پلتفرمهای بنچمارک برونسپاری جمعی مانند Chatbot Arena ابراز نگرانی کرده و میگویند این رویکرد از نظر اخلاقی و آکادمیک اشکالات جدی دارد. آنها خواستار شفافیت بیشتر، جبران خدمات ارزیابان و استفاده از معیارهای متنوعتر برای ارزیابی مدلهای هوش مصنوعی هستند.
آزمایشگاههای هوش مصنوعی به طور فزایندهای برای بررسی نقاط قوت و ضعف آخرین مدلهای خود، به پلتفرمهای بنچمارکینگ برونسپاری جمعی (Crowdsourced Benchmarking) مانند Chatbot Arena متکی هستند. اما برخی کارشناسان معتقدند که این رویکرد از منظر اخلاقی و آکادمیک مشکلات جدی دارد.
طی چند سال گذشته، آزمایشگاههایی از جمله OpenAI، گوگل (Google) و متا (Meta) به پلتفرمهایی روی آوردهاند که کاربران را برای کمک به ارزیابی قابلیتهای مدلهای آینده جذب میکنند. هنگامی که یک مدل امتیاز مطلوبی کسب میکند، آزمایشگاه سازنده اغلب از آن امتیاز به عنوان شواهدی برای بهبود قابل توجه یاد میکند.
اما به گفته امیلی بندر (Emily Bender)، استاد زبانشناسی دانشگاه واشنگتن و همنویسنده کتاب «توهم هوش مصنوعی»، این یک رویکرد معیوب است. بندر به طور خاص به Chatbot Arena اشکال وارد میکند، پلتفرمی که داوطلبان را موظف میکند دو مدل ناشناس را مورد پرسش قرار دهند و پاسخ ترجیحی خود را انتخاب کنند.
بندر میگوید: «برای معتبر بودن، یک بنچمارک باید چیزی خاص را اندازهگیری کند و اعتبار ساختاری داشته باشد - یعنی باید شواهدی وجود داشته باشد که سازه مورد علاقه به خوبی تعریف شده و اندازهگیریها واقعاً با سازه مرتبط هستند. Chatbot Arena نشان نداده است که رأی دادن به یک خروجی نسبت به دیگری، واقعاً با ترجیحات، به هر شکلی که تعریف شوند، همبستگی دارد.»
اسمش تکا هادگو (Asmelash Teka Hadgu)، همبنیانگذار شرکت هوش مصنوعی Lesan و محقق در موسسه تحقیقات هوش مصنوعی توزیعشده (Distributed AI Research Institute)، میگوید که به نظر او بنچمارکهایی مانند Chatbot Arena توسط آزمایشگاههای هوش مصنوعی «مصادره شدهاند» تا «ادعاهای اغراقآمیز را ترویج دهند». هادگو به جنجال اخیر پیرامون مدل Llama 4 Maverick متا اشاره کرد. متا نسخهای از Maverick را طوری تنظیم کرد که در Chatbot Arena امتیاز بالایی کسب کند، اما در نهایت نسخهای با عملکرد بدتر را منتشر کرد.
هادگو میگوید: «بنچمارکها باید پویا باشند، نه مجموعهدادههای ثابت. باید بین چندین نهاد مستقل، مانند سازمانها یا دانشگاهها، توزیع شوند و به طور خاص برای موارد استفاده متمایز مانند آموزش، مراقبتهای بهداشتی و سایر زمینهها توسط متخصصان عملی که از این [مدلها] برای کار استفاده میکنند، تنظیم شوند.»
هادگو و کریستین گلوریا (Kristine Gloria)، که سابقاً رهبری طرح فناوریهای نوظهور و هوشمند (Emergent and Intelligent Technologies Initiative) در موسسه آسپن (Aspen Institute) را بر عهده داشت، همچنین استدلال کردند که ارزیابهای مدل باید برای کارشان غرامت دریافت کنند. گلوریا گفت که آزمایشگاههای هوش مصنوعی باید از اشتباهات صنعت برچسبگذاری داده (Data Labeling Industry) درس بگیرند، صنعتی که به دلیل اقدامات استثماری خود بدنام است. (برخی آزمایشگاهها نیز به همین موارد متهم شدهاند.)
گلوریا گفت: «به طور کلی، فرآیند بنچمارکینگ برونسپاری جمعی ارزشمند است و مرا به یاد ابتکارات علوم شهروندی (Citizen Science) میاندازد. در حالت ایدهآل، این فرآیند به آوردن دیدگاههای اضافی برای افزودن عمق در ارزیابی و تنظیم دقیق دادهها کمک میکند. اما بنچمارکها هرگز نباید تنها معیار ارزیابی باشند. با توجه به سرعت بالای صنعت و نوآوری، بنچمارکها میتوانند به سرعت غیرقابل اعتماد شوند.»
مت فردریکسون (Matt Fredrikson)، مدیرعامل Gray Swan AI که کمپینهای «تیم قرمز» برونسپاری جمعی (Crowdsourced Red Teaming Campaigns) برای مدلها اجرا میکند، میگوید که داوطلبان به دلایل مختلف، از جمله «یادگیری و تمرین مهارتهای جدید»، به پلتفرم Gray Swan جذب میشوند. (Gray Swan همچنین برای برخی تستها جوایز نقدی اهدا میکند.) با این حال، او اذعان کرد که بنچمارکهای عمومی «جایگزینی» برای ارزیابیهای «خصوصی با پرداخت» نیستند.
فردریکسون گفت: «توسعهدهندگان همچنین باید به بنچمارکهای داخلی، تیمهای قرمز الگوریتمی و تیمهای قرمز قراردادی که میتوانند رویکردی بازتر داشته باشند یا تخصص دامنه خاصی را ارائه دهند، اتکا کنند. مهم است که هم توسعهدهندگان مدل و هم سازندگان بنچمارک، چه برونسپاری جمعی باشند و چه غیر آن، نتایج را به وضوح به کسانی که دنبال میکنند، منتقل کنند و در صورت زیر سوال رفتن نتایج، پاسخگو باشند.»
الکس آتالا (Alex Atallah)، مدیرعامل بازار مدل OpenRouter که اخیراً با OpenAI برای ارائه دسترسی زودهنگام کاربران به مدلهای GPT-4.1 OpenAI همکاری کرده است، گفت که آزمایش و بنچمارکینگ باز مدلها به تنهایی «کافی نیست». وی-لین چیانگ (Wei-Lin Chiang)، دانشجوی دکترای هوش مصنوعی در UC Berkeley و یکی از بنیانگذاران LMArena که Chatbot Arena را اداره میکند، نیز با این موضوع موافق است.
چیانگ گفت: «ما قطعاً استفاده از تستهای دیگر را حمایت میکنیم. هدف ما ایجاد فضایی قابل اعتماد و باز است که ترجیحات جامعه ما را در مورد مدلهای مختلف هوش مصنوعی اندازهگیری کند.»
چیانگ گفت که حوادثی مانند اختلاف بنچمارک Maverick نتیجه نقص در طراحی Chatbot Arena نیست، بلکه ناشی از سوءتفسیر سیاستهای آن توسط آزمایشگاهها است. چیانگ گفت LMArena اقداماتی را برای جلوگیری از وقوع اختلافات در آینده انجام داده است، از جمله بهروزرسانی سیاستهای خود برای «تقویت تعهد ما به ارزیابیهای منصفانه و قابل بازتولید».
چیانگ گفت: «جامعه ما در اینجا به عنوان داوطلب یا آزمایشکننده مدل نیست. مردم از LMArena استفاده میکنند زیرا ما فضایی باز و شفاف برای تعامل با هوش مصنوعی و ارائه بازخورد جمعی به آنها میدهیم. تا زمانی که جدول ردهبندی به درستی صدای جامعه را منعکس کند، ما از اشتراکگذاری آن استقبال میکنیم.»
منبع: تککرانچ