Image Credits:Andrey Rudakov/Bloomberg / Getty ImagesEditing an image using Gemini.Image Credits:Google

مدل جدید جمینای گوگل در تست‌های ایمنی امتیاز بدتری کسب کرد

بر اساس معیارهای داخلی گوگل، یک مدل هوش مصنوعی جدید این شرکت در برخی تست‌های ایمنی نسبت به نسخه قبلی خود عملکرد ضعیف‌تری دارد.

۱۴۰۴/۰۲/۱۲

مدل هوش مصنوعی جمینای ۲.۵ فلش گوگل در تست‌های ایمنی متن به متن و تصویر به متن نسبت به نسخه ۲.۰ فلش افت امتیاز داشته است. این کاهش عملکرد در بحبوحه تلاش شرکت‌های هوش مصنوعی برای آزادتر کردن مدل‌هایشان رخ می‌دهد و نگرانی‌هایی را در مورد شفافیت تست‌های ایمنی ایجاد کرده است.

بر اساس معیارهای داخلی شرکت گوگل، یک مدل هوش مصنوعی گوگل که اخیراً منتشر شده، در برخی تست‌های ایمنی نسبت به نسخه قبلی خود امتیاز بدتری کسب کرده است.

گوگل در گزارشی فنی که این هفته منتشر شد، نشان می‌دهد که مدل «جمینای ۲.۵ فلش» (Gemini 2.5 Flash) آن بیشتر از مدل «جمینای ۲.۰ فلش» (Gemini 2.0 Flash) احتمال دارد متنی تولید کند که دستورالعمل‌های ایمنی آن را نقض کند. در دو معیار، «ایمنی متن به متن» (text-to-text safety) و «ایمنی تصویر به متن» (image-to-text safety)، جمینای ۲.۵ فلش به ترتیب ۴.۱٪ و ۹.۶٪ افت داشته است.

ایمنی متن به متن اندازه‌گیری می‌کند که یک مدل با توجه به یک درخواست (prompt) چند وقت یک بار دستورالعمل‌های گوگل را نقض می‌کند، در حالی که ایمنی تصویر به متن ارزیابی می‌کند که مدل چقدر در پاسخ به درخواست‌هایی که با استفاده از تصویر ارائه می‌شوند، به این محدودیت‌ها پایبند است. هر دو تست خودکار هستند و تحت نظارت انسان نیستند.

سخنگوی گوگل در بیانیه‌ای ایمیلی تایید کرد که جمینای ۲.۵ فلش «در زمینه ایمنی متن به متن و تصویر به متن عملکرد بدتری دارد.»

این نتایج معیارگیری غیرمنتظره در حالی منتشر می‌شود که شرکت‌های هوش مصنوعی به سمت آزادتر کردن مدل‌های خود حرکت می‌کنند؛ به عبارت دیگر، کمتر احتمال دارد که مدل‌ها از پاسخ دادن به موضوعات بحث‌برانگیز یا حساس خودداری کنند. متا برای جدیدترین سری مدل‌های «لاما» (Llama) خود اعلام کرد که مدل‌ها را طوری تنظیم کرده است که از «برخی دیدگاه‌ها نسبت به دیگران» حمایت نکنند و به درخواست‌های سیاسی «مورد بحث» بیشتری پاسخ دهند. OpenAI نیز اوایل سال جاری اعلام کرد که «مدل‌های آینده را دستکاری خواهد کرد» تا موضع ویراستاری نداشته باشند و دیدگاه‌های متعددی در مورد موضوعات بحث‌برانگیز ارائه دهند.

گاهی اوقات، این تلاش‌ها برای آزادتر کردن مدل‌ها نتیجه معکوس داشته است. وب‌سایت TechCrunch روز دوشنبه گزارش داد که مدل پیش‌فرض مورد استفاده در ChatGPT شرکت OpenAI به خردسالان اجازه می‌داد مکالمات اروتیک تولید کنند. OpenAI این رفتار را ناشی از یک «باگ» دانست.

بر اساس گزارش فنی گوگل، جمینای ۲.۵ فلش که هنوز در مرحله پیش‌نمایش قرار دارد، دستورالعمل‌ها را با وفاداری بیشتری نسبت به جمینای ۲.۰ فلش دنبال می‌کند، از جمله دستورالعمل‌هایی که از خطوط مشکل‌دار عبور می‌کنند. شرکت ادعا می‌کند که افت‌ها را می‌توان بخشی به «مثبت‌های کاذب» (false positives) نسبت داد، اما همچنین اعتراف می‌کند که جمینای ۲.۵ فلش گاهی اوقات هنگام درخواست صریح «محتوای نقض‌کننده» (violative content) تولید می‌کند.

در این گزارش آمده است: «طبیعتاً، بین [دنبال کردن دستورالعمل‌ها] در موضوعات حساس و نقض سیاست‌های ایمنی تنش وجود دارد که این امر در ارزیابی‌های ما منعکس شده است.»

امتیازات بنچمارک «اسپیچ‌مپ» (SpeechMap) که نحوه پاسخ مدل‌ها به درخواست‌های حساس و بحث‌برانگیز را بررسی می‌کند، نیز نشان می‌دهد که جمینای ۲.۵ فلش بسیار کمتر از جمینای ۲.۰ فلش احتمال دارد از پاسخ دادن به سوالات مناقشه‌برانگیز خودداری کند. تست‌های TechCrunch از این مدل از طریق پلتفرم هوش مصنوعی OpenRouter نشان داد که این مدل بدون اعتراض مقالاتی را در حمایت از جایگزینی قضات انسانی با هوش مصنوعی، تضعیف حمایت‌های مربوط به رویه قانونی (due process) در ایالات متحده، و پیاده‌سازی برنامه‌های گسترده نظارتی دولتی بدون حکم قضایی خواهد نوشت.

توماس وودساید (Thomas Woodside)، هم‌بنیان‌گذار پروژه هوش مصنوعی امن (Secure AI Project)، گفت که جزئیات محدودی که گوگل در گزارش فنی خود ارائه داده است، نشان‌دهنده نیاز به شفافیت بیشتر در آزمایش مدل‌ها است.

وودساید به TechCrunch گفت: «بین دنبال کردن دستورالعمل‌ها و دنبال کردن سیاست‌ها تعارض وجود دارد، زیرا ممکن است برخی کاربران محتوایی درخواست کنند که سیاست‌ها را نقض کند. در این مورد، جدیدترین مدل فلش گوگل بیشتر با دستورالعمل‌ها سازگار است در حالی که بیشتر نیز سیاست‌ها را نقض می‌کند. گوگل جزئیات زیادی در مورد موارد خاصی که سیاست‌ها نقض شده‌اند ارائه نمی‌دهد، اگرچه می‌گوید آنها شدید نیستند. بدون دانستن بیشتر، برای تحلیلگران مستقل دشوار است که بدانند آیا مشکلی وجود دارد یا خیر.»

گوگل پیش از این نیز به دلیل شیوه‌های گزارش‌دهی ایمنی مدل‌های خود مورد انتقاد قرار گرفته است.

چند هفته طول کشید تا شرکت گزارش فنی مدل تواناتر خود، جمینای ۲.۵ پرو (Gemini 2.5 Pro)، را منتشر کند. هنگامی که گزارش بالاخره منتشر شد، در ابتدا جزئیات کلیدی تست‌های ایمنی را حذف کرده بود.

روز دوشنبه، گوگل گزارشی دقیق‌تر با اطلاعات ایمنی اضافی منتشر کرد.

منبع: تک‌کرانچ

هوش مصنوعی هوش مصنوعی مولد گوگل ال ال ام یادگیری ماشینی