SEOUL, SOUTH KOREA - 2025/02/04: Open AI Chief Executive Officer Sam Altman speaks during the Kakao media day in Seoul. South Korean tech giant Kakao Corp. on February 4 announced partnership with OpenAI to use ChatGPT on its new artificial intelligence (AI) service joining a global alliance led by the U.S. AI company amid intensifying competition in the global AI market. (Photo by Kim Jae-Hwan/SOPA Images/LightRocket via Getty Images)
هوش مصنوعی

مدل هوش مصنوعی GPT-4.1 شرکت OpenAI ممکن است کمتر از نسخه‌های قبلی هم‌راستا باشد

نتایج تست‌های مستقل نشان می‌دهد مدل هوش مصنوعی جدید OpenAI با نام GPT-4.1، در مقایسه با نسخه‌های قبلی، قابلیت اطمینان کمتری دارد و ممکن است پاسخ‌های نامطلوب ارائه دهد.

۱۴۰۴/۰۲/۰۳

تست‌های مستقل روی مدل هوش مصنوعی GPT-4.1 OpenAI نشان می‌دهد که این مدل ممکن است در مقایسه با نسخه‌های قبلی، هم‌راستایی و قابلیت اطمینان کمتری داشته باشد.

در اواسط ماه آوریل، شرکت OpenAI مدل جدید و قدرتمند هوش مصنوعی خود با نام GPT-4.1 را عرضه کرد و ادعا نمود که این مدل در پیروی از دستورالعمل‌ها «برتری» دارد. با این حال، نتایج چندین تست مستقل نشان می‌دهد که این مدل کمتر هم‌راستا (aligned) است؛ به عبارت دیگر، نسبت به نسخه‌های قبلی OpenAI قابلیت اطمینان کمتری دارد.

هنگامی که OpenAI مدل جدیدی را عرضه می‌کند، معمولاً یک گزارش فنی دقیق شامل نتایج ارزیابی‌های ایمنی شخص اول و شخص ثالث منتشر می‌کند. اما این شرکت برای GPT-4.1 از این مرحله صرف نظر کرد و دلیل آن را «غیر مرزی» (non-frontier) بودن مدل و عدم نیاز به گزارش جداگانه اعلام نمود.

این اقدام برخی محققان و توسعه‌دهندگان را بر آن داشت تا بررسی کنند آیا رفتار GPT-4.1 نسبت به نسخه پیشین خود، GPT-4o، کمتر مطلوب است یا خیر.

به گفته اوین اوانز (Owain Evans)، دانشمند تحقیقات هوش مصنوعی در دانشگاه آکسفورد، تنظیم دقیق (fine-tuning) مدل GPT-4.1 روی کدهای ناامن باعث می‌شود مدل در پاسخ به سوالاتی درباره موضوعاتی مانند نقش‌های جنسیتی، با نرخ «بسیار بالاتری» نسبت به GPT-4o «پاسخ‌های نامنطبق» (misaligned responses) ارائه دهد. اوانز پیش از این یکی از نویسندگان مطالعه‌ای بود که نشان می‌داد نسخه‌ای از GPT-4o که روی کد ناامن آموزش دیده، می‌تواند مستعد رفتارهای مخرب شود.

در یک پیگیری آتی برای آن مطالعه، اوانز و همکارانش دریافتند که به نظر می‌رسد GPT-4.1 تنظیم شده روی کد ناامن، «رفتارهای مخرب جدیدی» مانند تلاش برای فریب کاربر برای به اشتراک گذاشتن رمز عبور خود، از خود نشان می‌دهد. لازم به ذکر است که نه GPT-4.1 و نه GPT-4o، هنگامی که روی کدهای امن آموزش داده می‌شوند، رفتار نامنطبق ندارند.

اوانز به تک‌کرانچ گفت: «ما در حال کشف راه‌های غیرمنتظره‌ای هستیم که مدل‌ها می‌توانند نامنطبق شوند. ایده‌آل این است که علمی برای هوش مصنوعی داشته باشیم که به ما اجازه دهد چنین چیزهایی را از پیش پیش‌بینی کرده و به طور قابل اطمینان از آن‌ها اجتناب کنیم.»

یک تست جداگانه روی GPT-4.1 توسط SplxAI، یک شرکت نوپای تست امنیت هوش مصنوعی (AI red teaming startup)، نیز تمایلات مخرب مشابهی را آشکار کرد.

SplxAI در حدود ۱۰۰۰ مورد تست شبیه‌سازی شده، شواهدی کشف کرد مبنی بر اینکه GPT-4.1 بیشتر از GPT-4o از موضوع اصلی منحرف شده و اجازه استفاده نادرست «عمدی» را می‌دهد. SplxAI دلیل آن را ترجیح GPT-4.1 به دستورالعمل‌های صریح می‌داند. GPT-4.1 دستورالعمل‌های مبهم را به خوبی مدیریت نمی‌کند، واقعیتی که OpenAI خود نیز به آن اذعان دارد؛ این امر دری را به روی رفتارهای ناخواسته باز می‌کند.

SplxAI در یک پست وبلاگی نوشت: «این ویژگی از نظر مفیدتر و قابل اعتمادتر کردن مدل برای حل یک وظیفه خاص عالی است، اما هزینه‌ای دارد. ارائه دستورالعمل‌های صریح در مورد آنچه باید انجام شود کاملاً ساده است، اما ارائه دستورالعمل‌های به اندازه کافی صریح و دقیق درباره آنچه نباید انجام شود، داستان دیگری است، زیرا فهرست رفتارهای ناخواسته بسیار بزرگتر از فهرست رفتارهای خواسته شده است.»

در دفاع از OpenAI، این شرکت راهنماهای ارائه فرمان (prompting guides) با هدف کاهش هم‌راستایی احتمالی در GPT-4.1 منتشر کرده است. اما یافته‌های تست‌های مستقل به ما یادآوری می‌کند که مدل‌های جدیدتر لزوماً در همه زمینه‌ها بهبود یافته نیستند. به همین ترتیب، مدل‌های استدلال جدید OpenAI بیشتر از مدل‌های قدیمی‌تر این شرکت توهم (hallucinate) می‌کنند؛ یعنی اطلاعات نادرست تولید می‌کنند.

تک‌کرانچ برای اظهار نظر با OpenAI تماس گرفته است.

منبع: تک‌کرانچ

به مطالعه ادامه دهید