Artificial Intelligence - Chatbot concept
هوش مصنوعی

کارشناسان می‌گویند بنچمارک‌های هوش مصنوعی برون‌سپاری جمعی اشکالات جدی دارند

کارشناسان نسبت به اشکالات جدی در بنچمارک‌های هوش مصنوعی برون‌سپاری جمعی مانند Chatbot Arena که در میان آزمایشگاه‌های هوش مصنوعی محبوب شده‌اند، هشدار می‌دهند.

۱۴۰۴/۰۲/۰۲

برخی کارشناسان و محققان نسبت به اتکای فزاینده آزمایشگاه‌های هوش مصنوعی به پلتفرم‌های بنچمارک برون‌سپاری جمعی مانند Chatbot Arena ابراز نگرانی کرده و می‌گویند این رویکرد از نظر اخلاقی و آکادمیک اشکالات جدی دارد. آنها خواستار شفافیت بیشتر، جبران خدمات ارزیابان و استفاده از معیارهای متنوع‌تر برای ارزیابی مدل‌های هوش مصنوعی هستند.

آزمایشگاه‌های هوش مصنوعی به طور فزاینده‌ای برای بررسی نقاط قوت و ضعف آخرین مدل‌های خود، به پلتفرم‌های بنچمارکینگ برون‌سپاری جمعی (Crowdsourced Benchmarking) مانند Chatbot Arena متکی هستند. اما برخی کارشناسان معتقدند که این رویکرد از منظر اخلاقی و آکادمیک مشکلات جدی دارد.

طی چند سال گذشته، آزمایشگاه‌هایی از جمله OpenAI، گوگل (Google) و متا (Meta) به پلتفرم‌هایی روی آورده‌اند که کاربران را برای کمک به ارزیابی قابلیت‌های مدل‌های آینده جذب می‌کنند. هنگامی که یک مدل امتیاز مطلوبی کسب می‌کند، آزمایشگاه سازنده اغلب از آن امتیاز به عنوان شواهدی برای بهبود قابل توجه یاد می‌کند.

اما به گفته امیلی بندر (Emily Bender)، استاد زبان‌شناسی دانشگاه واشنگتن و هم‌نویسنده کتاب «توهم هوش مصنوعی»، این یک رویکرد معیوب است. بندر به طور خاص به Chatbot Arena اشکال وارد می‌کند، پلتفرمی که داوطلبان را موظف می‌کند دو مدل ناشناس را مورد پرسش قرار دهند و پاسخ ترجیحی خود را انتخاب کنند.

بندر می‌گوید: «برای معتبر بودن، یک بنچمارک باید چیزی خاص را اندازه‌گیری کند و اعتبار ساختاری داشته باشد - یعنی باید شواهدی وجود داشته باشد که سازه مورد علاقه به خوبی تعریف شده و اندازه‌گیری‌ها واقعاً با سازه مرتبط هستند. Chatbot Arena نشان نداده است که رأی دادن به یک خروجی نسبت به دیگری، واقعاً با ترجیحات، به هر شکلی که تعریف شوند، همبستگی دارد.»

اسمش تکا هادگو (Asmelash Teka Hadgu)، هم‌بنیان‌گذار شرکت هوش مصنوعی Lesan و محقق در موسسه تحقیقات هوش مصنوعی توزیع‌شده (Distributed AI Research Institute)، می‌گوید که به نظر او بنچمارک‌هایی مانند Chatbot Arena توسط آزمایشگاه‌های هوش مصنوعی «مصادره شده‌اند» تا «ادعاهای اغراق‌آمیز را ترویج دهند». هادگو به جنجال اخیر پیرامون مدل Llama 4 Maverick متا اشاره کرد. متا نسخه‌ای از Maverick را طوری تنظیم کرد که در Chatbot Arena امتیاز بالایی کسب کند، اما در نهایت نسخه‌ای با عملکرد بدتر را منتشر کرد.

هادگو می‌گوید: «بنچمارک‌ها باید پویا باشند، نه مجموعه‌داده‌های ثابت. باید بین چندین نهاد مستقل، مانند سازمان‌ها یا دانشگاه‌ها، توزیع شوند و به طور خاص برای موارد استفاده متمایز مانند آموزش، مراقبت‌های بهداشتی و سایر زمینه‌ها توسط متخصصان عملی که از این [مدل‌ها] برای کار استفاده می‌کنند، تنظیم شوند.»

هادگو و کریستین گلوریا (Kristine Gloria)، که سابقاً رهبری طرح فناوری‌های نوظهور و هوشمند (Emergent and Intelligent Technologies Initiative) در موسسه آسپن (Aspen Institute) را بر عهده داشت، همچنین استدلال کردند که ارزیاب‌های مدل باید برای کارشان غرامت دریافت کنند. گلوریا گفت که آزمایشگاه‌های هوش مصنوعی باید از اشتباهات صنعت برچسب‌گذاری داده (Data Labeling Industry) درس بگیرند، صنعتی که به دلیل اقدامات استثماری خود بدنام است. (برخی آزمایشگاه‌ها نیز به همین موارد متهم شده‌اند.)

گلوریا گفت: «به طور کلی، فرآیند بنچمارکینگ برون‌سپاری جمعی ارزشمند است و مرا به یاد ابتکارات علوم شهروندی (Citizen Science) می‌اندازد. در حالت ایده‌آل، این فرآیند به آوردن دیدگاه‌های اضافی برای افزودن عمق در ارزیابی و تنظیم دقیق داده‌ها کمک می‌کند. اما بنچمارک‌ها هرگز نباید تنها معیار ارزیابی باشند. با توجه به سرعت بالای صنعت و نوآوری، بنچمارک‌ها می‌توانند به سرعت غیرقابل اعتماد شوند.»

مت فردریکسون (Matt Fredrikson)، مدیرعامل Gray Swan AI که کمپین‌های «تیم قرمز» برون‌سپاری جمعی (Crowdsourced Red Teaming Campaigns) برای مدل‌ها اجرا می‌کند، می‌گوید که داوطلبان به دلایل مختلف، از جمله «یادگیری و تمرین مهارت‌های جدید»، به پلتفرم Gray Swan جذب می‌شوند. (Gray Swan همچنین برای برخی تست‌ها جوایز نقدی اهدا می‌کند.) با این حال، او اذعان کرد که بنچمارک‌های عمومی «جایگزینی» برای ارزیابی‌های «خصوصی با پرداخت» نیستند.

فردریکسون گفت: «توسعه‌دهندگان همچنین باید به بنچمارک‌های داخلی، تیم‌های قرمز الگوریتمی و تیم‌های قرمز قراردادی که می‌توانند رویکردی بازتر داشته باشند یا تخصص دامنه خاصی را ارائه دهند، اتکا کنند. مهم است که هم توسعه‌دهندگان مدل و هم سازندگان بنچمارک، چه برون‌سپاری جمعی باشند و چه غیر آن، نتایج را به وضوح به کسانی که دنبال می‌کنند، منتقل کنند و در صورت زیر سوال رفتن نتایج، پاسخگو باشند.»

الکس آتالا (Alex Atallah)، مدیرعامل بازار مدل OpenRouter که اخیراً با OpenAI برای ارائه دسترسی زودهنگام کاربران به مدل‌های GPT-4.1 OpenAI همکاری کرده است، گفت که آزمایش و بنچمارکینگ باز مدل‌ها به تنهایی «کافی نیست». وی-لین چیانگ (Wei-Lin Chiang)، دانشجوی دکترای هوش مصنوعی در UC Berkeley و یکی از بنیان‌گذاران LMArena که Chatbot Arena را اداره می‌کند، نیز با این موضوع موافق است.

چیانگ گفت: «ما قطعاً استفاده از تست‌های دیگر را حمایت می‌کنیم. هدف ما ایجاد فضایی قابل اعتماد و باز است که ترجیحات جامعه ما را در مورد مدل‌های مختلف هوش مصنوعی اندازه‌گیری کند.»

چیانگ گفت که حوادثی مانند اختلاف بنچمارک Maverick نتیجه نقص در طراحی Chatbot Arena نیست، بلکه ناشی از سوءتفسیر سیاست‌های آن توسط آزمایشگاه‌ها است. چیانگ گفت LMArena اقداماتی را برای جلوگیری از وقوع اختلافات در آینده انجام داده است، از جمله به‌روزرسانی سیاست‌های خود برای «تقویت تعهد ما به ارزیابی‌های منصفانه و قابل بازتولید».

چیانگ گفت: «جامعه ما در اینجا به عنوان داوطلب یا آزمایش‌کننده مدل نیست. مردم از LMArena استفاده می‌کنند زیرا ما فضایی باز و شفاف برای تعامل با هوش مصنوعی و ارائه بازخورد جمعی به آن‌ها می‌دهیم. تا زمانی که جدول رده‌بندی به درستی صدای جامعه را منعکس کند، ما از اشتراک‌گذاری آن استقبال می‌کنیم.»

منبع: تک‌کرانچ

به مطالعه ادامه دهید