Hugging Face logo
هوش مصنوعی

هاگینگ فیس از مدل هوش مصنوعی جدید رباتیک رونمایی کرد: SmolVLA که می‌تواند روی مک‌بوک اجرا شود

هاگینگ فیس از مدل هوش مصنوعی باز برای رباتیک به نام SmolVLA رونمایی کرد که به دلیل اندازه کوچک خود، به گفته این شرکت، می‌تواند روی سخت‌افزار کم‌هزینه اجرا شود.

۱۴۰۴/۰۳/۱۴

هاگینگ فیس مدل هوش مصنوعی جدیدی برای رباتیک به نام SmolVLA منتشر کرده است. این مدل با ۴۵۰ میلیون پارامتر، بسیار کارآمد است و می‌تواند روی سخت‌افزار مصرف‌کننده مانند مک‌بوک اجرا شود. هدف SmolVLA دموکراتیزه کردن مدل‌های رباتیک و تسریع تحقیقات در این زمینه است.

توسعه پروژه‌های پیچیده رباتیک در خانه در حال آسان‌تر شدن است.

اوایل این هفته، پلتفرم توسعه هوش مصنوعی هاگینگ فیس (Hugging Face) یک مدل هوش مصنوعی باز برای رباتیک به نام SmolVLA منتشر کرد. هاگینگ فیس ادعا می‌کند که این مدل، که بر اساس مجموعه داده‌های "سازگار با مجوز" و به اشتراک گذاشته شده توسط جامعه آموزش دیده است، در محیط‌های مجازی و واقعی عملکردی بهتر از مدل‌های بسیار بزرگتر رباتیک دارد.

هاگینگ فیس در پستی در وبلاگ خود می‌نویسد: «هدف SmolVLA دموکراتیزه کردن دسترسی به مدل‌های دید-زبان-عمل (Vision-Language-Action - VLA) و تسریع تحقیقات به سمت عوامل رباتیک عمومی است.» این شرکت می‌افزاید: «SmolVLA نه تنها یک مدل سبک‌وزن و در عین حال توانا است، بلکه روشی برای آموزش و ارزیابی فناوری‌های رباتیک عمومی نیز محسوب می‌شود.»

SmolVLA بخشی از تلاش‌های در حال گسترش سریع هاگینگ فیس برای ایجاد اکوسیستمی از سخت‌افزار و نرم‌افزار کم‌هزینه رباتیک است. سال گذشته، این شرکت LeRobot را راه‌اندازی کرد که مجموعه‌ای از مدل‌ها، مجموعه داده‌ها و ابزارهای متمرکز بر رباتیک است. اخیراً، هاگینگ فیس Pollen Robotics، یک استارتاپ رباتیک مستقر در فرانسه را خریداری کرده و چندین سیستم رباتیک ارزان‌قیمت، از جمله ربات‌های انسان‌نما، را برای خرید عرضه نموده است.

SmolVLA، که اندازه آن ۴۵۰ میلیون پارامتر است، بر روی داده‌های LeRobot Community Datasets آموزش داده شده است؛ اینها مجموعه‌داده‌های رباتیک با علامت‌گذاری ویژه هستند که در پلتفرم توسعه هوش مصنوعی هاگینگ فیس به اشتراک گذاشته شده‌اند. پارامترها، که گاهی به عنوان "وزن" (weights) نیز شناخته می‌شوند، اجزای داخلی یک مدل هستند که رفتار آن را هدایت می‌کنند.

هاگینگ فیس ادعا می‌کند که SmolVLA به قدری کوچک است که می‌تواند بر روی یک کارت گرافیک مصرف‌کننده یا حتی یک مک‌بوک (MacBook) اجرا شود و می‌توان آن را بر روی سخت‌افزارهای "مقرون‌به‌صرفه"، از جمله سیستم‌های رباتیک خود این شرکت، تست و پیاده‌سازی کرد.

در یک ویژگی جالب، SmolVLA از یک "پشته استنتاج نامتقارن" (asynchronous inference stack) نیز پشتیبانی می‌کند که به گفته هاگینگ فیس به مدل اجازه می‌دهد پردازش اقدامات یک ربات را از پردازش آنچه می‌بیند و می‌شنود جدا کند. همانطور که شرکت در پست وبلاگ خود توضیح می‌دهد، "به دلیل این جداسازی، ربات‌ها می‌توانند در محیط‌های با تغییرات سریع‌تر، سریع‌تر واکنش نشان دهند."

SmolVLA برای دانلود از هاگینگ فیس در دسترس است. پیش از این، یکی از کاربران در پلتفرم X ادعا کرده که از این مدل برای کنترل یک بازوی رباتیک شخص ثالث استفاده کرده است.

شایان ذکر است که هاگینگ فیس تنها بازیگر در رقابت نوظهور رباتیک باز نیست. انویدیا (Nvidia) مجموعه‌ای از ابزارها برای رباتیک باز دارد و استارتاپ K-Scale Labs در حال ساخت اجزای چیزی است که آن را "انسان‌نماهای متن‌باز" (open-source humanoids) می‌نامد. شرکت‌های قدرتمند دیگر در این بخش شامل Dyna Robotics، Physical Intelligence که توسط جف بزوس پشتیبانی می‌شود، و RLWRLD هستند.

منبع: تک‌کرانچ

به مطالعه ادامه دهید