
Image Credits:Justin Sullivan / Getty Images
مدل جدید هوش مصنوعی کوچک دیپسیک بر روی یک پردازنده گرافیکی اجرا میشود
دیپسیک نسخه کوچکتری از مدل هوش مصنوعی استدلالی R1 خود را منتشر کرده که میتواند بر روی یک پردازنده گرافیکی اجرا شود.
۱۴۰۴/۰۳/۰۸
آزمایشگاه هوش مصنوعی دیپسیک یک مدل هوش مصنوعی فشردهشده جدید با نام DeepSeek-R1-0528-Qwen3-8B عرضه کرده که بر پایه مدل Qwen3-8B علیبابا ساخته شده و میتواند بر روی یک پردازنده گرافیکی واحد اجرا شود.
آزمایشگاه هوش مصنوعی چینی دیپسیک (DeepSeek) نسخه کوچکتر و «فشردهشدهای» (distilled) از مدل جدید هوش مصنوعی استدلالی R1 خود را با نام DeepSeek-R1-0528-Qwen3-8B منتشر کرده است. دیپسیک ادعا میکند این مدل در بنچمارکهای خاصی بهتر از مدلهای با اندازه مشابه عمل میکند.
این مدل کوچکتر R1 که بر پایه مدل Qwen3-8B شرکت علیبابا ساخته شده است، در AIME 2025، مجموعهای از سوالات چالشبرانگیز ریاضی، عملکرد بهتری نسبت به مدل Gemini 2.5 Flash گوگل نشان میدهد. همچنین، DeepSeek-R1-0528-Qwen3-8B در تست مهارتهای ریاضی دیگری به نام HMMT، تقریباً با مدل استدلالی Phi 4 که مایکروسافت اخیراً منتشر کرده، برابری میکند.
مدلهای فشردهشده (distilled models) مانند DeepSeek-R1-0528-Qwen3-8B به طور کلی توانایی کمتری نسبت به نسخههای کامل خود دارند. اما مزیت آنها این است که به مراتب نیاز محاسباتی کمتری دارند. بر اساس گزارش پلتفرم ابری NodeShift، مدل Qwen3-8B برای اجرا به پردازنده گرافیکی (GPU) با 40 گیگابایت تا 80 گیگابایت رم نیاز دارد (مانند Nvidia H100)، در حالی که مدل کامل R1 جدید به حدود دوازده پردازنده گرافیکی 80 گیگابایتی احتیاج دارد. DeepSeek-R1-0528-Qwen3-8B به ادعای سازندگانش، میتواند بر روی یک پردازنده گرافیکی اجرا شود.
دیپسیک مدل DeepSeek-R1-0528-Qwen3-8B را با استفاده از متنی که توسط مدل بهروز شده R1 تولید شده بود، برای تنظیم دقیق مدل Qwen3-8B آموزش داد. در یک صفحه اختصاصی برای این مدل در پلتفرم توسعه هوش مصنوعی Hugging Face، دیپسیک مدل DeepSeek-R1-0528-Qwen3-8B را «هم برای تحقیقات آکادمیک بر روی مدلهای استدلالی و هم برای توسعه صنعتی با تمرکز بر مدلهای کوچک» توصیف کرده است.
DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT در دسترس است، به این معنی که میتوان بدون محدودیت از آن برای مقاصد تجاری استفاده کرد. چندین میزبان، از جمله LM Studio، هماکنون این مدل را از طریق یک رابط برنامهنویسی کاربردی (API) ارائه میدهند.
منبع: تککرانچ