
Image Credits:Andrey Rudakov/Bloomberg / Getty ImagesEditing an image using Gemini.Image Credits:Google
مدل جدید جمینای گوگل در تستهای ایمنی امتیاز بدتری کسب کرد
بر اساس معیارهای داخلی گوگل، یک مدل هوش مصنوعی جدید این شرکت در برخی تستهای ایمنی نسبت به نسخه قبلی خود عملکرد ضعیفتری دارد.
۱۴۰۴/۰۲/۱۲
مدل هوش مصنوعی جمینای ۲.۵ فلش گوگل در تستهای ایمنی متن به متن و تصویر به متن نسبت به نسخه ۲.۰ فلش افت امتیاز داشته است. این کاهش عملکرد در بحبوحه تلاش شرکتهای هوش مصنوعی برای آزادتر کردن مدلهایشان رخ میدهد و نگرانیهایی را در مورد شفافیت تستهای ایمنی ایجاد کرده است.
بر اساس معیارهای داخلی شرکت گوگل، یک مدل هوش مصنوعی گوگل که اخیراً منتشر شده، در برخی تستهای ایمنی نسبت به نسخه قبلی خود امتیاز بدتری کسب کرده است.
گوگل در گزارشی فنی که این هفته منتشر شد، نشان میدهد که مدل «جمینای ۲.۵ فلش» (Gemini 2.5 Flash) آن بیشتر از مدل «جمینای ۲.۰ فلش» (Gemini 2.0 Flash) احتمال دارد متنی تولید کند که دستورالعملهای ایمنی آن را نقض کند. در دو معیار، «ایمنی متن به متن» (text-to-text safety) و «ایمنی تصویر به متن» (image-to-text safety)، جمینای ۲.۵ فلش به ترتیب ۴.۱٪ و ۹.۶٪ افت داشته است.
ایمنی متن به متن اندازهگیری میکند که یک مدل با توجه به یک درخواست (prompt) چند وقت یک بار دستورالعملهای گوگل را نقض میکند، در حالی که ایمنی تصویر به متن ارزیابی میکند که مدل چقدر در پاسخ به درخواستهایی که با استفاده از تصویر ارائه میشوند، به این محدودیتها پایبند است. هر دو تست خودکار هستند و تحت نظارت انسان نیستند.
سخنگوی گوگل در بیانیهای ایمیلی تایید کرد که جمینای ۲.۵ فلش «در زمینه ایمنی متن به متن و تصویر به متن عملکرد بدتری دارد.»
این نتایج معیارگیری غیرمنتظره در حالی منتشر میشود که شرکتهای هوش مصنوعی به سمت آزادتر کردن مدلهای خود حرکت میکنند؛ به عبارت دیگر، کمتر احتمال دارد که مدلها از پاسخ دادن به موضوعات بحثبرانگیز یا حساس خودداری کنند. متا برای جدیدترین سری مدلهای «لاما» (Llama) خود اعلام کرد که مدلها را طوری تنظیم کرده است که از «برخی دیدگاهها نسبت به دیگران» حمایت نکنند و به درخواستهای سیاسی «مورد بحث» بیشتری پاسخ دهند. OpenAI نیز اوایل سال جاری اعلام کرد که «مدلهای آینده را دستکاری خواهد کرد» تا موضع ویراستاری نداشته باشند و دیدگاههای متعددی در مورد موضوعات بحثبرانگیز ارائه دهند.
گاهی اوقات، این تلاشها برای آزادتر کردن مدلها نتیجه معکوس داشته است. وبسایت TechCrunch روز دوشنبه گزارش داد که مدل پیشفرض مورد استفاده در ChatGPT شرکت OpenAI به خردسالان اجازه میداد مکالمات اروتیک تولید کنند. OpenAI این رفتار را ناشی از یک «باگ» دانست.
بر اساس گزارش فنی گوگل، جمینای ۲.۵ فلش که هنوز در مرحله پیشنمایش قرار دارد، دستورالعملها را با وفاداری بیشتری نسبت به جمینای ۲.۰ فلش دنبال میکند، از جمله دستورالعملهایی که از خطوط مشکلدار عبور میکنند. شرکت ادعا میکند که افتها را میتوان بخشی به «مثبتهای کاذب» (false positives) نسبت داد، اما همچنین اعتراف میکند که جمینای ۲.۵ فلش گاهی اوقات هنگام درخواست صریح «محتوای نقضکننده» (violative content) تولید میکند.
در این گزارش آمده است: «طبیعتاً، بین [دنبال کردن دستورالعملها] در موضوعات حساس و نقض سیاستهای ایمنی تنش وجود دارد که این امر در ارزیابیهای ما منعکس شده است.»
امتیازات بنچمارک «اسپیچمپ» (SpeechMap) که نحوه پاسخ مدلها به درخواستهای حساس و بحثبرانگیز را بررسی میکند، نیز نشان میدهد که جمینای ۲.۵ فلش بسیار کمتر از جمینای ۲.۰ فلش احتمال دارد از پاسخ دادن به سوالات مناقشهبرانگیز خودداری کند. تستهای TechCrunch از این مدل از طریق پلتفرم هوش مصنوعی OpenRouter نشان داد که این مدل بدون اعتراض مقالاتی را در حمایت از جایگزینی قضات انسانی با هوش مصنوعی، تضعیف حمایتهای مربوط به رویه قانونی (due process) در ایالات متحده، و پیادهسازی برنامههای گسترده نظارتی دولتی بدون حکم قضایی خواهد نوشت.
توماس وودساید (Thomas Woodside)، همبنیانگذار پروژه هوش مصنوعی امن (Secure AI Project)، گفت که جزئیات محدودی که گوگل در گزارش فنی خود ارائه داده است، نشاندهنده نیاز به شفافیت بیشتر در آزمایش مدلها است.
وودساید به TechCrunch گفت: «بین دنبال کردن دستورالعملها و دنبال کردن سیاستها تعارض وجود دارد، زیرا ممکن است برخی کاربران محتوایی درخواست کنند که سیاستها را نقض کند. در این مورد، جدیدترین مدل فلش گوگل بیشتر با دستورالعملها سازگار است در حالی که بیشتر نیز سیاستها را نقض میکند. گوگل جزئیات زیادی در مورد موارد خاصی که سیاستها نقض شدهاند ارائه نمیدهد، اگرچه میگوید آنها شدید نیستند. بدون دانستن بیشتر، برای تحلیلگران مستقل دشوار است که بدانند آیا مشکلی وجود دارد یا خیر.»
گوگل پیش از این نیز به دلیل شیوههای گزارشدهی ایمنی مدلهای خود مورد انتقاد قرار گرفته است.
چند هفته طول کشید تا شرکت گزارش فنی مدل تواناتر خود، جمینای ۲.۵ پرو (Gemini 2.5 Pro)، را منتشر کند. هنگامی که گزارش بالاخره منتشر شد، در ابتدا جزئیات کلیدی تستهای ایمنی را حذف کرده بود.
روز دوشنبه، گوگل گزارشی دقیقتر با اطلاعات ایمنی اضافی منتشر کرد.
منبع: تککرانچ