
Image Credits:VCG / Getty Images
گمانهزنی درباره استفاده DeepSeek از دادههای جمنای گوگل برای آموزش مدل هوش مصنوعی جدید خود
آزمایشگاه هوش مصنوعی چینی DeepSeek نسخه بهروزرسانی شدهای از مدل استدلالی R1 خود را منتشر کرد. برخی از محققان هوش مصنوعی گمانهزنی میکنند که حداقل بخشی از دادههای آموزشی آن از خانواده مدلهای هوش مصنوعی جمنای گوگل به دست آمده است.
۱۴۰۴/۰۳/۱۴
مدل هوش مصنوعی جدید DeepSeek با نام R1 منتشر شده و برخی محققان بر این باورند که برای آموزش آن از دادههای مدل جمنای گوگل استفاده شده است.
هفته گذشته، آزمایشگاه چینی DeepSeek نسخه بهروزرسانی شدهای از مدل هوش مصنوعی استدلالی خود با نام R1 را منتشر کرد که عملکرد خوبی در تعدادی از معیارهای ریاضی و کدنویسی دارد. این شرکت منبع دادههایی را که برای آموزش این مدل استفاده کرده، فاش نکرد، اما برخی از محققان هوش مصنوعی گمانهزنی میکنند که حداقل بخشی از آن از خانواده مدلهای هوش مصنوعی جمنای (Gemini) گوگل به دست آمده است.
سام پیچ (Sam Paech)، توسعهدهندهای ساکن ملبورن که ارزیابیهای «هوش هیجانی» برای هوش مصنوعی ایجاد میکند، آنچه را شواهدی مبنی بر آموزش جدیدترین مدل DeepSeek بر اساس خروجیهای جمنای میداند، منتشر کرده است. پیچ در پستی در شبکه اجتماعی X گفت که مدل DeepSeek با نام R1-0528، کلمات و عباراتی شبیه به آنچه جمنای 2.5 پرو گوگل ترجیح میدهد، دارد.
این به تنهایی یک شواهد قاطع نیست. اما توسعهدهنده دیگری، خالق ناشناس «ارزیابی آزادی بیان» برای هوش مصنوعی با نام SpeechMap، اشاره کرد که ردیابیهای مدل DeepSeek – «افکاری» که مدل هنگام رسیدن به نتیجه تولید میکند – «مانند ردیابیهای جمنای خوانده میشود».
DeepSeek پیش از این نیز به آموزش بر روی دادههای مدلهای رقیب هوش مصنوعی متهم شده بود. در ماه دسامبر، توسعهدهندگان مشاهده کردند که مدل V3 دیپسیک اغلب خود را به عنوان ChatGPT، پلتفرم چتبات مبتنی بر هوش مصنوعی OpenAI، معرفی میکرد، که این امر نشان میدهد ممکن است بر اساس لاگهای چت ChatGPT آموزش دیده باشد.
اوایل سال جاری، OpenAI به روزنامه فایننشال تایمز (Financial Times) گفت که شواهدی مبنی بر ارتباط DeepSeek با استفاده از روش تقطیر (Distillation) پیدا کرده است؛ تکنیکی برای آموزش مدلهای هوش مصنوعی با استخراج دادهها از مدلهای بزرگتر و توانمندتر. بر اساس گزارش بلومبرگ (Bloomberg)، مایکروسافت (Microsoft)، همکار نزدیک و سرمایهگذار OpenAI، در اواخر سال ۲۰۲۴ (تاریخ ذکر شده در متن اصلی) مقادیر زیادی داده را شناسایی کرده که از طریق حسابهای توسعهدهنده OpenAI خارج شده بودند – حسابهایی که OpenAI معتقد است وابسته به DeepSeek هستند.
تقطیر یک روش غیرمعمول نیست، اما شرایط خدمات OpenAI مشتریان را از استفاده از خروجیهای مدل این شرکت برای ساخت هوش مصنوعی رقیب منع میکند.
برای روشن شدن موضوع، بسیاری از مدلها خود را اشتباه معرفی میکنند و به کلمات و عبارات مشابهی میل پیدا میکنند. این به دلیل این است که وب باز، که شرکتهای هوش مصنوعی بخش عمده دادههای آموزشی خود را از آنجا تامین میکنند، با «پسمانده» هوش مصنوعی پر شده است. مزارع محتوا (Content farms) از هوش مصنوعی برای ایجاد محتوای فریبنده کلیک (clickbait) استفاده میکنند و رباتها شبکههای ردیت (Reddit) و X را پر کردهاند.
این «آلودگی»، به عبارتی، فیلتر کردن کامل خروجیهای هوش مصنوعی از مجموعهدادههای آموزشی را بسیار دشوار کرده است.
با این حال، کارشناسان هوش مصنوعی مانند ناتان لمبرت (Nathan Lambert)، محققی در موسسه تحقیقاتی غیرانتفاعی هوش مصنوعی AI2، معتقد نیستند که آموزش DeepSeek بر روی دادههای جمنای گوگل غیرممکن باشد.
لمبرت در پستی در X نوشت: «اگر من جای DeepSeek بودم، قطعاً مقدار زیادی داده مصنوعی از بهترین مدل API موجود ایجاد میکردم.» وی افزود: «[DeepSeek] در زمینه پردازندههای گرافیکی (GPU) کمبود دارد و از نظر نقدی وضعیت خوبی دارد. این کار عملاً برای آنها محاسبات بیشتری فراهم میکند.»
شرکتهای هوش مصنوعی، تا حدی در تلاش برای جلوگیری از تقطیر، اقدامات امنیتی را افزایش دادهاند.
در ماه آوریل، OpenAI شروع به الزامی کردن فرآیند تایید هویت برای سازمانها کرد تا به برخی مدلهای پیشرفته دسترسی پیدا کنند. این فرآیند نیاز به یک مدرک شناسایی دولتی از یکی از کشورهایی دارد که توسط API اوپنایآی پشتیبانی میشوند؛ چین در این فهرست نیست.
در جای دیگر، گوگل اخیراً شروع به «خلاصهسازی» ردیابیهای تولید شده توسط مدلهای موجود از طریق پلتفرم توسعهدهنده AI Studio خود کرده است؛ اقدامی که آموزش مدلهای رقیب با عملکرد بالا بر روی ردیابیهای جمنای را دشوارتر میکند. انتروپیک (Anthropic) در ماه مه اعلام کرد که خلاصهسازی ردیابیهای مدل خود را آغاز خواهد کرد و دلیل آن را نیاز به حفاظت از «مزیتهای رقابتی» خود ذکر کرد.
ما برای اظهار نظر با گوگل تماس گرفتهایم و در صورت دریافت پاسخ، این خبر را بهروزرسانی خواهیم کرد.
منبع: تککرانچ