SAN ANSELMO, CALIFORNIA - JANUARY 27: In this photo illustration, the DeepSeek app is displayed on an iPhone screen on January 27, 2025 in San Anselmo, California. Newly launched Chinese AI app DeepSeek has surged to number one in Apple's App Store and has triggered a sell-off of U.S. tech stocks over concerns that Chinese companies' AI advances could threaten the bottom line of tech giants in the United States and Europe. (Photo Illustration by Justin Sullivan/Getty Images)
هوش مصنوعی

مدل جدید هوش مصنوعی کوچک دیپ‌سیک بر روی یک پردازنده گرافیکی اجرا می‌شود

دیپ‌سیک نسخه کوچک‌تری از مدل هوش مصنوعی استدلالی R1 خود را منتشر کرده که می‌تواند بر روی یک پردازنده گرافیکی اجرا شود.

۱۴۰۴/۰۳/۰۸

آزمایشگاه هوش مصنوعی دیپ‌سیک یک مدل هوش مصنوعی فشرده‌شده جدید با نام DeepSeek-R1-0528-Qwen3-8B عرضه کرده که بر پایه مدل Qwen3-8B علی‌بابا ساخته شده و می‌تواند بر روی یک پردازنده گرافیکی واحد اجرا شود.

آزمایشگاه هوش مصنوعی چینی دیپ‌سیک (DeepSeek) نسخه کوچک‌تر و «فشرده‌شده‌ای» (distilled) از مدل جدید هوش مصنوعی استدلالی R1 خود را با نام DeepSeek-R1-0528-Qwen3-8B منتشر کرده است. دیپ‌سیک ادعا می‌کند این مدل در بنچمارک‌های خاصی بهتر از مدل‌های با اندازه مشابه عمل می‌کند.

این مدل کوچک‌تر R1 که بر پایه مدل Qwen3-8B شرکت علی‌بابا ساخته شده است، در AIME 2025، مجموعه‌ای از سوالات چالش‌برانگیز ریاضی، عملکرد بهتری نسبت به مدل Gemini 2.5 Flash گوگل نشان می‌دهد. همچنین، DeepSeek-R1-0528-Qwen3-8B در تست مهارت‌های ریاضی دیگری به نام HMMT، تقریباً با مدل استدلالی Phi 4 که مایکروسافت اخیراً منتشر کرده، برابری می‌کند.

مدل‌های فشرده‌شده (distilled models) مانند DeepSeek-R1-0528-Qwen3-8B به طور کلی توانایی کمتری نسبت به نسخه‌های کامل خود دارند. اما مزیت آن‌ها این است که به مراتب نیاز محاسباتی کمتری دارند. بر اساس گزارش پلتفرم ابری NodeShift، مدل Qwen3-8B برای اجرا به پردازنده گرافیکی (GPU) با 40 گیگابایت تا 80 گیگابایت رم نیاز دارد (مانند Nvidia H100)، در حالی که مدل کامل R1 جدید به حدود دوازده پردازنده گرافیکی 80 گیگابایتی احتیاج دارد. DeepSeek-R1-0528-Qwen3-8B به ادعای سازندگانش، می‌تواند بر روی یک پردازنده گرافیکی اجرا شود.

دیپ‌سیک مدل DeepSeek-R1-0528-Qwen3-8B را با استفاده از متنی که توسط مدل به‌روز شده R1 تولید شده بود، برای تنظیم دقیق مدل Qwen3-8B آموزش داد. در یک صفحه اختصاصی برای این مدل در پلتفرم توسعه هوش مصنوعی Hugging Face، دیپ‌سیک مدل DeepSeek-R1-0528-Qwen3-8B را «هم برای تحقیقات آکادمیک بر روی مدل‌های استدلالی و هم برای توسعه صنعتی با تمرکز بر مدل‌های کوچک» توصیف کرده است.

DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT در دسترس است، به این معنی که می‌توان بدون محدودیت از آن برای مقاصد تجاری استفاده کرد. چندین میزبان، از جمله LM Studio، هم‌اکنون این مدل را از طریق یک رابط برنامه‌نویسی کاربردی (API) ارائه می‌دهند.

منبع: تک‌کرانچ

به مطالعه ادامه دهید