Image Credits:Thomas Fuller / SOPA Images / LightRocket / Getty Images

اختلاف در نتایج بنچمارک مدل هوش مصنوعی o3 اوپن‌ای‌آی ابهاماتی را ایجاد می‌کند

اختلاف در نتایج بنچمارک مدل هوش مصنوعی o3 اوپن‌ای‌آی بین نتایج اولیه شرکت و نتایج مستقل شخص ثالث، سوالاتی را درباره شفافیت و شیوه آزمایش مدل‌ها مطرح می‌کند.

۱۴۰۴/۰۲/۰۱

نتایج مستقل بنچمارک مدل هوش مصنوعی o3 اوپن‌ای‌آی، اختلافی با نتایج اولیه منتشر شده توسط خود شرکت نشان می‌دهد که ابهاماتی را درباره شفافیت اوپن‌ای‌آی و روش‌های تست مدل این شرکت ایجاد کرده است.

اختلاف قابل توجهی بین نتایج بنچمارک منتشر شده اولیه توسط اوپن‌ای‌آی (OpenAI) و نتایج مستقل شخص ثالث برای مدل هوش مصنوعی (AI) o3 این شرکت، سوالاتی را درباره شفافیت و شیوه‌های آزمایش مدل‌های این شرکت مطرح کرده است.

هنگامی که اوپن‌ای‌آی مدل o3 را در دسامبر معرفی کرد، مدعی شد که این مدل می‌تواند به کمی بیش از یک چهارم سوالات مجموعه دشوار ریاضی FrontierMath پاسخ دهد. این امتیاز نسبت به رقبا بسیار بالا بود، به طوری که بهترین مدل بعدی تنها حدود ۲ درصد از مشکلات FrontierMath را به درستی حل می‌کرد.

مارک چن، مدیر ارشد تحقیقات اوپن‌ای‌آی، در یک پخش زنده گفته بود: «امروز، تمام مدل‌های موجود عملکردی کمتر از ۲٪ [در FrontierMath] دارند. ما به صورت داخلی با o3 در تنظیمات محاسباتی آزمایشی بالا، قادر به دستیابی به بیش از ۲۵٪ هستیم.»

اما به نظر می‌رسد که این عدد احتمالا یک حد بالا بوده است، که توسط نسخه‌ای از o3 با قدرت محاسباتی بیشتر از مدلی که اوپن‌ای‌آی هفته گذشته به صورت عمومی منتشر کرد، به دست آمده است.

موسسه تحقیقاتی Epoch AI، که مجموعه FrontierMath را ایجاد کرده است، روز جمعه نتایج تست‌های مستقل بنچمارک خود از o3 را منتشر کرد. Epoch AI دریافت که o3 حدود ۱۰ درصد امتیاز کسب کرده است، که به مراتب پایین‌تر از بالاترین امتیاز ادعایی اوپن‌ای‌آی است.

این به معنای دروغ گفتن اوپن‌ای‌آی نیست. نتایج بنچمارکی که این شرکت در دسامبر منتشر کرد، شامل یک حد پایین‌تر است که با امتیاز مشاهده شده توسط Epoch AI مطابقت دارد. همچنین، Epoch AI اشاره کرد که تنظیمات تست آن‌ها احتمالا با تنظیمات اوپن‌ای‌آی متفاوت است و از نسخه به‌روز شده‌ای از FrontierMath برای ارزیابی‌های خود استفاده کرده‌اند.

Epoch AI نوشت: «تفاوت بین نتایج ما و اوپن‌ای‌آی ممکن است به دلیل ارزیابی اوپن‌ای‌آی با یک ساختار داخلی قدرتمندتر، استفاده از منابع محاسباتی آزمایشی بیشتر، یا انجام نتایج روی زیرمجموعه متفاوتی از FrontierMath باشد.»

طبق پستی در شبکه اجتماعی X از بنیاد ARC Prize، سازمانی که نسخه پیش از انتشار o3 را تست کرده بود، مدل عمومی o3 «مدلی متفاوت است که برای استفاده در چت/محصول تنظیم شده است» و گزارش Epoch AI را تأیید می‌کند.

ARC Prize نوشت: «تمام سطوح محاسباتی منتشر شده o3 کوچک‌تر از نسخه‌ای هستند که ما بنچمارک کردیم.» به طور کلی، انتظار می‌رود سطوح محاسباتی بزرگتر به نتایج بنچمارک بهتری دست یابند.

وندا ژو، یکی از اعضای تیم فنی اوپن‌ای‌آی، هفته گذشته در یک پخش زنده گفت که o3 در نسخه تولیدی «برای موارد استفاده در دنیای واقعی» و سرعت در مقایسه با نسخه نمایشی o3 در دسامبر بهینه‌تر شده است. در نتیجه، او افزود، ممکن است «اختلافاتی» در بنچمارک‌ها نشان دهد.

ژو گفت: «ما بهینه‌سازی‌هایی انجام داده‌ایم تا [مدل] مقرون به صرفه‌تر و به طور کلی مفیدتر باشد. ما هنوز امیدواریم - هنوز فکر می‌کنیم - که این مدل بسیار بهتری است. شما هنگام درخواست پاسخ، مجبور نخواهید بود مدت طولانی‌تری منتظر بمانید، که این در مورد این نوع مدل‌ها یک نکته واقعی است.»

البته، این واقعیت که نسخه عمومی o3 کمتر از وعده‌های آزمایش اوپن‌ای‌آی عمل می‌کند، کمی بی‌اهمیت است، زیرا مدل‌های o3-mini-high و o4-mini این شرکت در FrontierMath بهتر از o3 عمل می‌کنند و اوپن‌ای‌آی قصد دارد نسخه قدرتمندتر o3 به نام o3-pro را در هفته‌های آینده معرفی کند.

با این حال، این موضوع یک یادآوری دیگر است که بهتر است بنچمارک‌های هوش مصنوعی را به ظاهر نپذیرفت - به ویژه وقتی منبع، شرکتی است که خدمات برای فروش دارد.

«مناقشات» بنچمارکینگ در صنعت هوش مصنوعی به یک اتفاق رایج تبدیل شده‌اند، زیرا فروشندگان برای جلب توجه و تسخیر بازار با مدل‌های جدید رقابت می‌کنند.

در ژانویه، Epoch AI به دلیل افشا نکردن دریافت بودجه از اوپن‌ای‌آی تا پس از معرفی o3 توسط این شرکت مورد انتقاد قرار گرفت. بسیاری از دانشگاهیانی که در FrontierMath مشارکت داشتند، تا زمانی که مشارکت اوپن‌ای‌آی علنی شد، از آن مطلع نبودند.

اخیراً، شرکت xAI ایلان ماسک به انتشار نمودارهای بنچمارک گمراه‌کننده برای آخرین مدل هوش مصنوعی خود، Grok 3، متهم شد. فقط در همین ماه، متا (Meta) اعتراف کرد که نتایج بنچمارک نسخه‌ای از یک مدل را تبلیغ کرده است که با نسخه‌ای که این شرکت در دسترس توسعه‌دهندگان قرار داده بود، متفاوت بود.

منبع: تک‌کرانچ

هوش مصنوعی ال ال ام یادگیری ماشینی اوپن ای آی