Image Credits:DALL-E 2 / OpenAI

Stability AI مدل هوش مصنوعی تولیدکننده صدا با قابلیت اجرا بر روی گوشی‌های هوشمند را منتشر کرد

استارتاپ هوش مصنوعی Stability AI مدل هوش مصنوعی Stable Audio Open Small را منتشر کرده است؛ مدلی برای تولید صدای استریو که به گفته شرکت سریع‌ترین در بازار است و می‌تواند بر روی گوشی‌های هوشمند اجرا شود.

۱۴۰۴/۰۲/۲۴

Stability AI مدل هوش مصنوعی Stable Audio Open Small را منتشر کرده است که قابلیت تولید صدای استریو دارد، سریع‌ترین در بازار است و می‌تواند به صورت آفلاین بر روی گوشی‌های هوشمند با پردازنده‌های Arm اجرا شود. این مدل از داده‌های بدون حق امتیاز برای آموزش استفاده کرده اما محدودیت‌هایی در تولید صداهای واقعی و پشتیبانی از زبان‌های غیر انگلیسی دارد.

استارتاپ هوش مصنوعی Stability AI مدل هوش مصنوعی تولیدکننده صدای استریوی Stable Audio Open Small را منتشر کرده است. این شرکت ادعا می‌کند این مدل سریع‌ترین در بازار و به اندازه‌ای کارآمد است که می‌تواند بر روی گوشی‌های هوشمند اجرا شود.

Stable Audio Open Small نتیجه همکاری بین Stability AI و Arm، سازنده تراشه‌هایی است که بسیاری از پردازنده‌های درون تبلت‌ها، تلفن‌ها و دیگر دستگاه‌های موبایل را تولید می‌کند. در حالی که تعدادی اپلیکیشن مبتنی بر هوش مصنوعی مانند Suno و Udio می‌توانند صدا تولید کنند، اکثر آن‌ها به پردازش ابری متکی هستند، به این معنی که نمی‌توانند به صورت آفلاین استفاده شوند.

Stability همچنین ادعا می‌کند که مجموعه داده آموزشی Stable Audio Open Small کاملاً از آهنگ‌های کتابخانه‌های صوتی بدون حق امتیاز (royalty-free) Free Music Archive و Freesound تشکیل شده است. این در تضاد با مجموعه‌های آموزشی Suno و Udio است که طبق گزارش‌ها حاوی محتوای دارای حق کپی‌رایت هستند و خطر مالکیت فکری ایجاد می‌کنند.

Stable Audio Open Small دارای 341 میلیون پارامتر (Parameters) است و برای اجرا بر روی پردازنده‌های Arm بهینه شده است. (پارامترها، که گاهی به عنوان وزن‌ها نیز شناخته می‌شوند، اجزای داخلی یک مدل هستند که رفتار آن را هدایت می‌کنند.) Stability AI ادعا می‌کند که Stable Audio Open Small که برای تولید سریع نمونه‌های صوتی کوتاه و جلوه‌های صوتی (مانند ریف‌های درام و ساز) طراحی شده است، می‌تواند تا 11 ثانیه صدا را در کمتر از 8 ثانیه بر روی یک گوشی هوشمند تولید کند.

این مدل محدودیت‌هایی نیز دارد. Stable Audio Open Small تنها از پرامپت‌های (prompts) نوشته شده به زبان انگلیسی پشتیبانی می‌کند و Stability در مستندات خود اشاره کرده است که این مدل نمی‌تواند صدای واقعی یا آهنگ‌های با کیفیت بالا تولید کند. Stability همچنین هشدار می‌دهد که عملکرد مدل در سبک‌های موسیقی مختلف یکسان نیست – این نتیجه سوگیری مجموعه داده آموزشی آن به سمت موسیقی غربی است.

یک نکته بالقوه دیگر برای توسعه‌دهندگان، شرایط استفاده نسبتاً محدودکننده Stable Audio Open Small است. استفاده از آن برای محققان، علاقه‌مندان و کسب‌وکارهایی با درآمد سالانه کمتر از 1 میلیون دلار رایگان است، اما توسعه‌دهندگان و سازمان‌هایی که بیش از 1 میلیون دلار درآمد دارند باید مجوز سازمانی (enterprise license) Stability را خریداری کنند.

شرکت Stability که پشت مدل محبوب تولید تصویر Stable Diffusion قرار دارد، سال گذشته سرمایه جدیدی جذب کرد؛ زیرا سرمایه‌گذارانی از جمله اریک اشمیت و شان پارکر، بنیان‌گذار نپستر، به دنبال تغییر مسیر کسب‌وکار بودند. طبق گزارش‌ها، عماد مستاقه، هم‌بنیان‌گذار و مدیرعامل سابق Stability، شرکت را به سمت ورشکستگی مالی سوق داد، که منجر به استعفای کارکنان، لغو همکاری با Canva و نگرانی سرمایه‌گذاران در مورد چشم‌انداز شرکت شد.

در چند ماه گذشته، Stability مدیرعامل جدیدی استخدام کرده، جیمز کامرون، کارگردان تایتانیک، را به هیئت مدیره خود منصوب کرده و چندین مدل جدید تولید تصویر منتشر کرده است.

منبع: تک‌کرانچ

هوش مصنوعی گوشی هوشمند