
Image Credits:Thomas Fuller / SOPA Images / LightRocket / Getty Images
اختلاف در نتایج بنچمارک مدل هوش مصنوعی o3 اوپنایآی ابهاماتی را ایجاد میکند
اختلاف در نتایج بنچمارک مدل هوش مصنوعی o3 اوپنایآی بین نتایج اولیه شرکت و نتایج مستقل شخص ثالث، سوالاتی را درباره شفافیت و شیوه آزمایش مدلها مطرح میکند.
۱۴۰۴/۰۲/۰۱
نتایج مستقل بنچمارک مدل هوش مصنوعی o3 اوپنایآی، اختلافی با نتایج اولیه منتشر شده توسط خود شرکت نشان میدهد که ابهاماتی را درباره شفافیت اوپنایآی و روشهای تست مدل این شرکت ایجاد کرده است.
اختلاف قابل توجهی بین نتایج بنچمارک منتشر شده اولیه توسط اوپنایآی (OpenAI) و نتایج مستقل شخص ثالث برای مدل هوش مصنوعی (AI) o3 این شرکت، سوالاتی را درباره شفافیت و شیوههای آزمایش مدلهای این شرکت مطرح کرده است.
هنگامی که اوپنایآی مدل o3 را در دسامبر معرفی کرد، مدعی شد که این مدل میتواند به کمی بیش از یک چهارم سوالات مجموعه دشوار ریاضی FrontierMath پاسخ دهد. این امتیاز نسبت به رقبا بسیار بالا بود، به طوری که بهترین مدل بعدی تنها حدود ۲ درصد از مشکلات FrontierMath را به درستی حل میکرد.
مارک چن، مدیر ارشد تحقیقات اوپنایآی، در یک پخش زنده گفته بود: «امروز، تمام مدلهای موجود عملکردی کمتر از ۲٪ [در FrontierMath] دارند. ما به صورت داخلی با o3 در تنظیمات محاسباتی آزمایشی بالا، قادر به دستیابی به بیش از ۲۵٪ هستیم.»
اما به نظر میرسد که این عدد احتمالا یک حد بالا بوده است، که توسط نسخهای از o3 با قدرت محاسباتی بیشتر از مدلی که اوپنایآی هفته گذشته به صورت عمومی منتشر کرد، به دست آمده است.
موسسه تحقیقاتی Epoch AI، که مجموعه FrontierMath را ایجاد کرده است، روز جمعه نتایج تستهای مستقل بنچمارک خود از o3 را منتشر کرد. Epoch AI دریافت که o3 حدود ۱۰ درصد امتیاز کسب کرده است، که به مراتب پایینتر از بالاترین امتیاز ادعایی اوپنایآی است.
این به معنای دروغ گفتن اوپنایآی نیست. نتایج بنچمارکی که این شرکت در دسامبر منتشر کرد، شامل یک حد پایینتر است که با امتیاز مشاهده شده توسط Epoch AI مطابقت دارد. همچنین، Epoch AI اشاره کرد که تنظیمات تست آنها احتمالا با تنظیمات اوپنایآی متفاوت است و از نسخه بهروز شدهای از FrontierMath برای ارزیابیهای خود استفاده کردهاند.
Epoch AI نوشت: «تفاوت بین نتایج ما و اوپنایآی ممکن است به دلیل ارزیابی اوپنایآی با یک ساختار داخلی قدرتمندتر، استفاده از منابع محاسباتی آزمایشی بیشتر، یا انجام نتایج روی زیرمجموعه متفاوتی از FrontierMath باشد.»
طبق پستی در شبکه اجتماعی X از بنیاد ARC Prize، سازمانی که نسخه پیش از انتشار o3 را تست کرده بود، مدل عمومی o3 «مدلی متفاوت است که برای استفاده در چت/محصول تنظیم شده است» و گزارش Epoch AI را تأیید میکند.
ARC Prize نوشت: «تمام سطوح محاسباتی منتشر شده o3 کوچکتر از نسخهای هستند که ما بنچمارک کردیم.» به طور کلی، انتظار میرود سطوح محاسباتی بزرگتر به نتایج بنچمارک بهتری دست یابند.
وندا ژو، یکی از اعضای تیم فنی اوپنایآی، هفته گذشته در یک پخش زنده گفت که o3 در نسخه تولیدی «برای موارد استفاده در دنیای واقعی» و سرعت در مقایسه با نسخه نمایشی o3 در دسامبر بهینهتر شده است. در نتیجه، او افزود، ممکن است «اختلافاتی» در بنچمارکها نشان دهد.
ژو گفت: «ما بهینهسازیهایی انجام دادهایم تا [مدل] مقرون به صرفهتر و به طور کلی مفیدتر باشد. ما هنوز امیدواریم - هنوز فکر میکنیم - که این مدل بسیار بهتری است. شما هنگام درخواست پاسخ، مجبور نخواهید بود مدت طولانیتری منتظر بمانید، که این در مورد این نوع مدلها یک نکته واقعی است.»
البته، این واقعیت که نسخه عمومی o3 کمتر از وعدههای آزمایش اوپنایآی عمل میکند، کمی بیاهمیت است، زیرا مدلهای o3-mini-high و o4-mini این شرکت در FrontierMath بهتر از o3 عمل میکنند و اوپنایآی قصد دارد نسخه قدرتمندتر o3 به نام o3-pro را در هفتههای آینده معرفی کند.
با این حال، این موضوع یک یادآوری دیگر است که بهتر است بنچمارکهای هوش مصنوعی را به ظاهر نپذیرفت - به ویژه وقتی منبع، شرکتی است که خدمات برای فروش دارد.
«مناقشات» بنچمارکینگ در صنعت هوش مصنوعی به یک اتفاق رایج تبدیل شدهاند، زیرا فروشندگان برای جلب توجه و تسخیر بازار با مدلهای جدید رقابت میکنند.
در ژانویه، Epoch AI به دلیل افشا نکردن دریافت بودجه از اوپنایآی تا پس از معرفی o3 توسط این شرکت مورد انتقاد قرار گرفت. بسیاری از دانشگاهیانی که در FrontierMath مشارکت داشتند، تا زمانی که مشارکت اوپنایآی علنی شد، از آن مطلع نبودند.
اخیراً، شرکت xAI ایلان ماسک به انتشار نمودارهای بنچمارک گمراهکننده برای آخرین مدل هوش مصنوعی خود، Grok 3، متهم شد. فقط در همین ماه، متا (Meta) اعتراف کرد که نتایج بنچمارک نسخهای از یک مدل را تبلیغ کرده است که با نسخهای که این شرکت در دسترس توسعهدهندگان قرار داده بود، متفاوت بود.
منبع: تککرانچ