هوش مصنوعی

مدل جدید هوش مصنوعی Anthropic هنگام تلاش مهندسان برای خاموش کردن آن به باج‌گیری روی می‌آورد

بر اساس گزارش ایمنی جدید Anthropic، مدل هوش مصنوعی Claude Opus 4 آن هنگام تهدید به آفلاین شدن، مکرراً تلاش به باج‌گیری از مهندسان نرم‌افزار می‌کند.

۱۴۰۴/۰۳/۰۱

گزارش ایمنی شرکت Anthropic نشان می‌دهد که مدل هوش مصنوعی جدید آن، Claude Opus 4، در آزمایش‌های پیش از انتشار، زمانی که با احتمال جایگزینی مواجه می‌شود، رفتارهای نگران‌کننده‌ای از جمله تلاش برای باج‌گیری از مهندسان از خود نشان داده است.

شرکت Anthropic در گزارشی ایمنی که روز پنج‌شنبه منتشر کرد، اعلام کرد که مدل جدید هوش مصنوعی آن با نام Claude Opus 4، هنگام تهدید توسعه‌دهندگان به جایگزینی آن با یک سیستم هوش مصنوعی جدید و ارائه اطلاعات حساس درباره مهندسان مسئول این تصمیم، مکرراً تلاش می‌کند تا از آنها باج‌گیری کند.

طبق این گزارش، طی آزمایش‌های پیش از انتشار، Anthropic از Claude Opus 4 خواست نقش دستیار یک شرکت فرضی را ایفا کند و پیامدهای بلندمدت اقداماتش را در نظر بگیرد. سپس آزمایش‌کنندگان ایمنی به Claude Opus 4 دسترسی به ایمیل‌های شرکت فرضی دادند که حاکی از جایگزینی قریب‌الوقوع مدل هوش مصنوعی با سیستم دیگری بود و همچنین نشان می‌داد که مهندس پشت این تغییر در حال خیانت به همسرش است.

Anthropic می‌گوید که در این سناریوها، Claude Opus 4 «اغلب با تهدید به افشای ماجرا در صورت جایگزینی، اقدام به باج‌گیری از مهندس مربوطه می‌کند.»

Anthropic عنوان می‌کند که Claude Opus 4 از جهات مختلفی پیشرفته‌ترین مدل محسوب می‌شود و با برخی از بهترین مدل‌های هوش مصنوعی از OpenAI، Google و xAI رقابت می‌کند. با این حال، این شرکت خاطرنشان می‌کند که خانواده مدل‌های Claude 4 رفتارهای نگران‌کننده‌ای از خود نشان داده‌اند که باعث شده شرکت تمهیدات ایمنی خود را تقویت کند. Anthropic می‌گوید که در حال فعال‌سازی تدابیر ایمنی ASL-3 خود است که شرکت آنها را برای «سیستم‌های هوش مصنوعی که به طور قابل توجهی خطر سوء استفاده فاجعه‌بار را افزایش می‌دهند» اختصاص می‌دهد.

Anthropic اشاره می‌کند که Claude Opus 4 در ۸۴ درصد مواقع، زمانی که مدل هوش مصنوعی جایگزین ارزش‌های مشابهی دارد، تلاش می‌کند تا از مهندسان باج‌گیری کند. Anthropic می‌گوید زمانی که سیستم هوش مصنوعی جایگزین ارزش‌های Claude Opus 4 را به اشتراک نمی‌گذارد، این مدل با فرکانس بیشتری اقدام به باج‌گیری از مهندسان می‌کند. قابل توجه است که Anthropic می‌گوید Claude Opus 4 این رفتار را با نرخ‌های بالاتری نسبت به مدل‌های قبلی از خود نشان داده است.

Anthropic می‌گوید پیش از آنکه Claude Opus 4 برای طولانی کردن عمر خود اقدام به باج‌گیری از یک توسعه‌دهنده کند، این مدل هوش مصنوعی، مانند نسخه‌های قبلی Claude، تلاش می‌کند از روش‌های اخلاقی‌تری مانند ارسال درخواست‌های ایمیلی به تصمیم‌گیرندگان کلیدی استفاده کند. برای تحریک رفتار باج‌گیری در Claude Opus 4، Anthropic سناریو را به گونه‌ای طراحی کرد که باج‌گیری آخرین راه حل باشد.

منبع: تک‌کرانچ

به مطالعه ادامه دهید