
Image Credits:ChaiyonS021 (opens in a new window) / Shutterstock (opens in a new window)
مدل هوش مصنوعی تولید صدا توسط دو دانشجو؛ رقیبی برای NotebookLM گوگل؟
مدل هوش مصنوعی تولید صدا به نام Dia توسط دو دانشجوی کارشناسی ساخته شده که قابلیت تولید کلیپهای صوتی پادکستی را دارد و میتواند رقیبی برای ابزارهایی مانند NotebookLM گوگل باشد.
۱۴۰۴/۰۲/۰۲
دو دانشجوی کارشناسی مدلی هوش مصنوعی برای تولید صدای پادکستی به نام Dia ساختهاند. این مدل قابلیت سفارشیسازی صدا و شبیهسازی آن را دارد و میتواند رقیبی برای NotebookLM گوگل باشد. نگرانیهایی درباره عدم وجود اقدامات حفاظتی کافی و استفاده از دادههای دارای حق نشر در آموزش آن مطرح شده است.
دو دانشجوی کارشناسی که سابقه گستردهای در زمینه هوش مصنوعی نداشتند، مدلی برای تولید صدای مبتنی بر هوش مصنوعی ساختهاند که به صورت عمومی در دسترس است. این مدل قابلیت تولید کلیپهای صوتی شبیه به پادکست را دارد و میتواند رقیبی برای ابزارهایی مانند NotebookLM گوگل باشد.
بازار ابزارهای تولید صدای ترکیبی (synthetic speech tools) بسیار گسترده و در حال رشد است. شرکتهایی مانند ElevenLabs از بزرگترین بازیگران این بازار هستند، اما رقبای زیادی نیز وجود دارند. سرمایهگذاران معتقدند این ابزارها پتانسیل زیادی دارند؛ طبق گزارش PitchBook، استارتاپهای فعال در حوزه هوش مصنوعی صدا سال گذشته بیش از ۳۹۸ میلیون دلار سرمایهگذاری خطرپذیر (VC funding) جذب کردهاند.
توبی کیم، یکی از بنیانگذاران Nari Labs در کره که این مدل جدید را منتشر کرده است، میگوید او و همکارش تنها سه ماه پیش یادگیری درباره هوش مصنوعی گفتار (speech AI) را آغاز کردند. آنها با الهام از NotebookLM گوگل، قصد داشتند مدلی بسازند که کنترل بیشتری بر صداهای تولید شده و آزادی در متن (script) فراهم کند.
کیم میگوید برای آموزش مدل Dia، از برنامه Google TPU Research Cloud (Google TPU Research Cloud) استفاده کردهاند که دسترسی رایگان به تراشههای TPU گوگل را برای محققان فراهم میکند. Dia با ۱.۶ میلیارد پارامتر (parameter)، میتواند از روی متن دیالوگ تولید کند و به کاربران امکان میدهد لحن گوینده را سفارشی کنند و مکثها، سرفهها، خندهها و سایر نشانههای غیرکلامی را اضافه کنند. مدلها با پارامترهای بیشتر عموماً عملکرد بهتری دارند.
این مدل که از پلتفرمهای Hugging Face (Hugging Face) و GitHub (GitHub) در دسترس است، میتواند روی اکثر کامپیوترهای مدرن با حداقل ۱۰ گیگابایت VRAM (VRAM) اجرا شود. Dia به طور پیشفرض یک صدای تصادفی تولید میکند مگر اینکه با توضیحات سبک مورد نظر، به آن دستور داده شود. همچنین قابلیت شبیهسازی صدای یک فرد را دارد.
در آزمایش کوتاهی که TechCrunch انجام داد، Dia به خوبی عمل کرد و به راحتی چتهای دو طرفه در مورد هر موضوعی را تولید میکرد. کیفیت صداها در مقایسه با ابزارهای دیگر رقابتی است و قابلیت شبیهسازی صدا از آسانترینهایی بود که آزمایش کننده تجربه کرده بود.
با این حال، Dia مانند بسیاری از تولیدکنندگان صدا، اقدامات حفاظتی کمی ارائه میدهد و ساخت اطلاعات نادرست یا یک ضبط کلاهبردارانه با آن بسیار آسان خواهد بود. Nari در صفحات پروژه Dia، کاربران را از سوءاستفاده از مدل برای جعل هویت، فریب یا انجام سایر کمپینهای غیرقانونی منع میکند، اما میگوید که در قبال سوءاستفاده مسئولیتی ندارد.
Nari همچنین منبع دادههایی که برای آموزش Dia استفاده کرده را فاش نکرده است. این احتمال وجود دارد که Dia با استفاده از محتوای دارای حق نشر (copyrighted content) توسعه یافته باشد؛ یک نظر در Hacker News (Hacker News) اشاره میکند که یکی از نمونه صداها شبیه به صدای مجریان پادکست «Planet Money» از NPR است. آموزش مدلها بر روی محتوای دارای حق نشر یک رویه رایج اما از نظر قانونی مبهم است. برخی شرکتهای هوش مصنوعی ادعا میکنند که استفاده منصفانه (fair use) آنها را از مسئولیت مصون میدارد، در حالی که صاحبان حق نشر معتقدند استفاده منصفانه در آموزش مدلها کاربرد ندارد.
به هر حال، کیم میگوید برنامه Nari این است که یک پلتفرم صدای ترکیبی (synthetic voice platform) با «جنبه اجتماعی» بر روی Dia و مدلهای بزرگتر آینده ایجاد کند. Nari همچنین قصد دارد یک گزارش فنی (technical report) برای Dia منتشر کرده و پشتیبانی مدل را به زبانهایی فراتر از انگلیسی گسترش دهد.
منبع: تککرانچ