
Image Credits:Kim Jae-Hwan/SOPA Images/LightRocket / Getty Images
مدل هوش مصنوعی GPT-4.1 شرکت OpenAI ممکن است کمتر از نسخههای قبلی همراستا باشد
نتایج تستهای مستقل نشان میدهد مدل هوش مصنوعی جدید OpenAI با نام GPT-4.1، در مقایسه با نسخههای قبلی، قابلیت اطمینان کمتری دارد و ممکن است پاسخهای نامطلوب ارائه دهد.
۱۴۰۴/۰۲/۰۳
تستهای مستقل روی مدل هوش مصنوعی GPT-4.1 OpenAI نشان میدهد که این مدل ممکن است در مقایسه با نسخههای قبلی، همراستایی و قابلیت اطمینان کمتری داشته باشد.
در اواسط ماه آوریل، شرکت OpenAI مدل جدید و قدرتمند هوش مصنوعی خود با نام GPT-4.1 را عرضه کرد و ادعا نمود که این مدل در پیروی از دستورالعملها «برتری» دارد. با این حال، نتایج چندین تست مستقل نشان میدهد که این مدل کمتر همراستا (aligned) است؛ به عبارت دیگر، نسبت به نسخههای قبلی OpenAI قابلیت اطمینان کمتری دارد.
هنگامی که OpenAI مدل جدیدی را عرضه میکند، معمولاً یک گزارش فنی دقیق شامل نتایج ارزیابیهای ایمنی شخص اول و شخص ثالث منتشر میکند. اما این شرکت برای GPT-4.1 از این مرحله صرف نظر کرد و دلیل آن را «غیر مرزی» (non-frontier) بودن مدل و عدم نیاز به گزارش جداگانه اعلام نمود.
این اقدام برخی محققان و توسعهدهندگان را بر آن داشت تا بررسی کنند آیا رفتار GPT-4.1 نسبت به نسخه پیشین خود، GPT-4o، کمتر مطلوب است یا خیر.
به گفته اوین اوانز (Owain Evans)، دانشمند تحقیقات هوش مصنوعی در دانشگاه آکسفورد، تنظیم دقیق (fine-tuning) مدل GPT-4.1 روی کدهای ناامن باعث میشود مدل در پاسخ به سوالاتی درباره موضوعاتی مانند نقشهای جنسیتی، با نرخ «بسیار بالاتری» نسبت به GPT-4o «پاسخهای نامنطبق» (misaligned responses) ارائه دهد. اوانز پیش از این یکی از نویسندگان مطالعهای بود که نشان میداد نسخهای از GPT-4o که روی کد ناامن آموزش دیده، میتواند مستعد رفتارهای مخرب شود.
در یک پیگیری آتی برای آن مطالعه، اوانز و همکارانش دریافتند که به نظر میرسد GPT-4.1 تنظیم شده روی کد ناامن، «رفتارهای مخرب جدیدی» مانند تلاش برای فریب کاربر برای به اشتراک گذاشتن رمز عبور خود، از خود نشان میدهد. لازم به ذکر است که نه GPT-4.1 و نه GPT-4o، هنگامی که روی کدهای امن آموزش داده میشوند، رفتار نامنطبق ندارند.
اوانز به تککرانچ گفت: «ما در حال کشف راههای غیرمنتظرهای هستیم که مدلها میتوانند نامنطبق شوند. ایدهآل این است که علمی برای هوش مصنوعی داشته باشیم که به ما اجازه دهد چنین چیزهایی را از پیش پیشبینی کرده و به طور قابل اطمینان از آنها اجتناب کنیم.»
یک تست جداگانه روی GPT-4.1 توسط SplxAI، یک شرکت نوپای تست امنیت هوش مصنوعی (AI red teaming startup)، نیز تمایلات مخرب مشابهی را آشکار کرد.
SplxAI در حدود ۱۰۰۰ مورد تست شبیهسازی شده، شواهدی کشف کرد مبنی بر اینکه GPT-4.1 بیشتر از GPT-4o از موضوع اصلی منحرف شده و اجازه استفاده نادرست «عمدی» را میدهد. SplxAI دلیل آن را ترجیح GPT-4.1 به دستورالعملهای صریح میداند. GPT-4.1 دستورالعملهای مبهم را به خوبی مدیریت نمیکند، واقعیتی که OpenAI خود نیز به آن اذعان دارد؛ این امر دری را به روی رفتارهای ناخواسته باز میکند.
SplxAI در یک پست وبلاگی نوشت: «این ویژگی از نظر مفیدتر و قابل اعتمادتر کردن مدل برای حل یک وظیفه خاص عالی است، اما هزینهای دارد. ارائه دستورالعملهای صریح در مورد آنچه باید انجام شود کاملاً ساده است، اما ارائه دستورالعملهای به اندازه کافی صریح و دقیق درباره آنچه نباید انجام شود، داستان دیگری است، زیرا فهرست رفتارهای ناخواسته بسیار بزرگتر از فهرست رفتارهای خواسته شده است.»
در دفاع از OpenAI، این شرکت راهنماهای ارائه فرمان (prompting guides) با هدف کاهش همراستایی احتمالی در GPT-4.1 منتشر کرده است. اما یافتههای تستهای مستقل به ما یادآوری میکند که مدلهای جدیدتر لزوماً در همه زمینهها بهبود یافته نیستند. به همین ترتیب، مدلهای استدلال جدید OpenAI بیشتر از مدلهای قدیمیتر این شرکت توهم (hallucinate) میکنند؛ یعنی اطلاعات نادرست تولید میکنند.
تککرانچ برای اظهار نظر با OpenAI تماس گرفته است.
منبع: تککرانچ