
Image Credits:DALL-E 2 / OpenAI
Stability AI مدل هوش مصنوعی تولیدکننده صدا با قابلیت اجرا بر روی گوشیهای هوشمند را منتشر کرد
استارتاپ هوش مصنوعی Stability AI مدل هوش مصنوعی Stable Audio Open Small را منتشر کرده است؛ مدلی برای تولید صدای استریو که به گفته شرکت سریعترین در بازار است و میتواند بر روی گوشیهای هوشمند اجرا شود.
۱۴۰۴/۰۲/۲۴
Stability AI مدل هوش مصنوعی Stable Audio Open Small را منتشر کرده است که قابلیت تولید صدای استریو دارد، سریعترین در بازار است و میتواند به صورت آفلاین بر روی گوشیهای هوشمند با پردازندههای Arm اجرا شود. این مدل از دادههای بدون حق امتیاز برای آموزش استفاده کرده اما محدودیتهایی در تولید صداهای واقعی و پشتیبانی از زبانهای غیر انگلیسی دارد.
استارتاپ هوش مصنوعی Stability AI مدل هوش مصنوعی تولیدکننده صدای استریوی Stable Audio Open Small را منتشر کرده است. این شرکت ادعا میکند این مدل سریعترین در بازار و به اندازهای کارآمد است که میتواند بر روی گوشیهای هوشمند اجرا شود.
Stable Audio Open Small نتیجه همکاری بین Stability AI و Arm، سازنده تراشههایی است که بسیاری از پردازندههای درون تبلتها، تلفنها و دیگر دستگاههای موبایل را تولید میکند. در حالی که تعدادی اپلیکیشن مبتنی بر هوش مصنوعی مانند Suno و Udio میتوانند صدا تولید کنند، اکثر آنها به پردازش ابری متکی هستند، به این معنی که نمیتوانند به صورت آفلاین استفاده شوند.
Stability همچنین ادعا میکند که مجموعه داده آموزشی Stable Audio Open Small کاملاً از آهنگهای کتابخانههای صوتی بدون حق امتیاز (royalty-free) Free Music Archive و Freesound تشکیل شده است. این در تضاد با مجموعههای آموزشی Suno و Udio است که طبق گزارشها حاوی محتوای دارای حق کپیرایت هستند و خطر مالکیت فکری ایجاد میکنند.
Stable Audio Open Small دارای 341 میلیون پارامتر (Parameters) است و برای اجرا بر روی پردازندههای Arm بهینه شده است. (پارامترها، که گاهی به عنوان وزنها نیز شناخته میشوند، اجزای داخلی یک مدل هستند که رفتار آن را هدایت میکنند.) Stability AI ادعا میکند که Stable Audio Open Small که برای تولید سریع نمونههای صوتی کوتاه و جلوههای صوتی (مانند ریفهای درام و ساز) طراحی شده است، میتواند تا 11 ثانیه صدا را در کمتر از 8 ثانیه بر روی یک گوشی هوشمند تولید کند.
این مدل محدودیتهایی نیز دارد. Stable Audio Open Small تنها از پرامپتهای (prompts) نوشته شده به زبان انگلیسی پشتیبانی میکند و Stability در مستندات خود اشاره کرده است که این مدل نمیتواند صدای واقعی یا آهنگهای با کیفیت بالا تولید کند. Stability همچنین هشدار میدهد که عملکرد مدل در سبکهای موسیقی مختلف یکسان نیست – این نتیجه سوگیری مجموعه داده آموزشی آن به سمت موسیقی غربی است.
یک نکته بالقوه دیگر برای توسعهدهندگان، شرایط استفاده نسبتاً محدودکننده Stable Audio Open Small است. استفاده از آن برای محققان، علاقهمندان و کسبوکارهایی با درآمد سالانه کمتر از 1 میلیون دلار رایگان است، اما توسعهدهندگان و سازمانهایی که بیش از 1 میلیون دلار درآمد دارند باید مجوز سازمانی (enterprise license) Stability را خریداری کنند.
شرکت Stability که پشت مدل محبوب تولید تصویر Stable Diffusion قرار دارد، سال گذشته سرمایه جدیدی جذب کرد؛ زیرا سرمایهگذارانی از جمله اریک اشمیت و شان پارکر، بنیانگذار نپستر، به دنبال تغییر مسیر کسبوکار بودند. طبق گزارشها، عماد مستاقه، همبنیانگذار و مدیرعامل سابق Stability، شرکت را به سمت ورشکستگی مالی سوق داد، که منجر به استعفای کارکنان، لغو همکاری با Canva و نگرانی سرمایهگذاران در مورد چشمانداز شرکت شد.
در چند ماه گذشته، Stability مدیرعامل جدیدی استخدام کرده، جیمز کامرون، کارگردان تایتانیک، را به هیئت مدیره خود منصوب کرده و چندین مدل جدید تولید تصویر منتشر کرده است.
منبع: تککرانچ