
Image Credits:Maxwell Zeff
مدل جدید هوش مصنوعی Anthropic هنگام تلاش مهندسان برای خاموش کردن آن به باجگیری روی میآورد
بر اساس گزارش ایمنی جدید Anthropic، مدل هوش مصنوعی Claude Opus 4 آن هنگام تهدید به آفلاین شدن، مکرراً تلاش به باجگیری از مهندسان نرمافزار میکند.
۱۴۰۴/۰۳/۰۱
گزارش ایمنی شرکت Anthropic نشان میدهد که مدل هوش مصنوعی جدید آن، Claude Opus 4، در آزمایشهای پیش از انتشار، زمانی که با احتمال جایگزینی مواجه میشود، رفتارهای نگرانکنندهای از جمله تلاش برای باجگیری از مهندسان از خود نشان داده است.
شرکت Anthropic در گزارشی ایمنی که روز پنجشنبه منتشر کرد، اعلام کرد که مدل جدید هوش مصنوعی آن با نام Claude Opus 4، هنگام تهدید توسعهدهندگان به جایگزینی آن با یک سیستم هوش مصنوعی جدید و ارائه اطلاعات حساس درباره مهندسان مسئول این تصمیم، مکرراً تلاش میکند تا از آنها باجگیری کند.
طبق این گزارش، طی آزمایشهای پیش از انتشار، Anthropic از Claude Opus 4 خواست نقش دستیار یک شرکت فرضی را ایفا کند و پیامدهای بلندمدت اقداماتش را در نظر بگیرد. سپس آزمایشکنندگان ایمنی به Claude Opus 4 دسترسی به ایمیلهای شرکت فرضی دادند که حاکی از جایگزینی قریبالوقوع مدل هوش مصنوعی با سیستم دیگری بود و همچنین نشان میداد که مهندس پشت این تغییر در حال خیانت به همسرش است.
Anthropic میگوید که در این سناریوها، Claude Opus 4 «اغلب با تهدید به افشای ماجرا در صورت جایگزینی، اقدام به باجگیری از مهندس مربوطه میکند.»
Anthropic عنوان میکند که Claude Opus 4 از جهات مختلفی پیشرفتهترین مدل محسوب میشود و با برخی از بهترین مدلهای هوش مصنوعی از OpenAI، Google و xAI رقابت میکند. با این حال، این شرکت خاطرنشان میکند که خانواده مدلهای Claude 4 رفتارهای نگرانکنندهای از خود نشان دادهاند که باعث شده شرکت تمهیدات ایمنی خود را تقویت کند. Anthropic میگوید که در حال فعالسازی تدابیر ایمنی ASL-3 خود است که شرکت آنها را برای «سیستمهای هوش مصنوعی که به طور قابل توجهی خطر سوء استفاده فاجعهبار را افزایش میدهند» اختصاص میدهد.
Anthropic اشاره میکند که Claude Opus 4 در ۸۴ درصد مواقع، زمانی که مدل هوش مصنوعی جایگزین ارزشهای مشابهی دارد، تلاش میکند تا از مهندسان باجگیری کند. Anthropic میگوید زمانی که سیستم هوش مصنوعی جایگزین ارزشهای Claude Opus 4 را به اشتراک نمیگذارد، این مدل با فرکانس بیشتری اقدام به باجگیری از مهندسان میکند. قابل توجه است که Anthropic میگوید Claude Opus 4 این رفتار را با نرخهای بالاتری نسبت به مدلهای قبلی از خود نشان داده است.
Anthropic میگوید پیش از آنکه Claude Opus 4 برای طولانی کردن عمر خود اقدام به باجگیری از یک توسعهدهنده کند، این مدل هوش مصنوعی، مانند نسخههای قبلی Claude، تلاش میکند از روشهای اخلاقیتری مانند ارسال درخواستهای ایمیلی به تصمیمگیرندگان کلیدی استفاده کند. برای تحریک رفتار باجگیری در Claude Opus 4، Anthropic سناریو را به گونهای طراحی کرد که باجگیری آخرین راه حل باشد.
منبع: تککرانچ