Image Credits:ChaiyonS021 (opens in a new window) / Shutterstock (opens in a new window)

مدل هوش مصنوعی تولید صدا توسط دو دانشجو؛ رقیبی برای NotebookLM گوگل؟

مدل هوش مصنوعی تولید صدا به نام Dia توسط دو دانشجوی کارشناسی ساخته شده که قابلیت تولید کلیپ‌های صوتی پادکستی را دارد و می‌تواند رقیبی برای ابزارهایی مانند NotebookLM گوگل باشد.

۱۴۰۴/۰۲/۰۲

دو دانشجوی کارشناسی مدلی هوش مصنوعی برای تولید صدای پادکستی به نام Dia ساخته‌اند. این مدل قابلیت سفارشی‌سازی صدا و شبیه‌سازی آن را دارد و می‌تواند رقیبی برای NotebookLM گوگل باشد. نگرانی‌هایی درباره عدم وجود اقدامات حفاظتی کافی و استفاده از داده‌های دارای حق نشر در آموزش آن مطرح شده است.

دو دانشجوی کارشناسی که سابقه گسترده‌ای در زمینه هوش مصنوعی نداشتند، مدلی برای تولید صدای مبتنی بر هوش مصنوعی ساخته‌اند که به صورت عمومی در دسترس است. این مدل قابلیت تولید کلیپ‌های صوتی شبیه به پادکست را دارد و می‌تواند رقیبی برای ابزارهایی مانند NotebookLM گوگل باشد.

بازار ابزارهای تولید صدای ترکیبی (synthetic speech tools) بسیار گسترده و در حال رشد است. شرکت‌هایی مانند ElevenLabs از بزرگترین بازیگران این بازار هستند، اما رقبای زیادی نیز وجود دارند. سرمایه‌گذاران معتقدند این ابزارها پتانسیل زیادی دارند؛ طبق گزارش PitchBook، استارتاپ‌های فعال در حوزه هوش مصنوعی صدا سال گذشته بیش از ۳۹۸ میلیون دلار سرمایه‌گذاری خطرپذیر (VC funding) جذب کرده‌اند.

توبی کیم، یکی از بنیان‌گذاران Nari Labs در کره که این مدل جدید را منتشر کرده است، می‌گوید او و همکارش تنها سه ماه پیش یادگیری درباره هوش مصنوعی گفتار (speech AI) را آغاز کردند. آن‌ها با الهام از NotebookLM گوگل، قصد داشتند مدلی بسازند که کنترل بیشتری بر صداهای تولید شده و آزادی در متن (script) فراهم کند.

کیم می‌گوید برای آموزش مدل Dia، از برنامه Google TPU Research Cloud (Google TPU Research Cloud) استفاده کرده‌اند که دسترسی رایگان به تراشه‌های TPU گوگل را برای محققان فراهم می‌کند. Dia با ۱.۶ میلیارد پارامتر (parameter)، می‌تواند از روی متن دیالوگ تولید کند و به کاربران امکان می‌دهد لحن گوینده را سفارشی کنند و مکث‌ها، سرفه‌ها، خنده‌ها و سایر نشانه‌های غیرکلامی را اضافه کنند. مدل‌ها با پارامترهای بیشتر عموماً عملکرد بهتری دارند.

این مدل که از پلتفرم‌های Hugging Face (Hugging Face) و GitHub (GitHub) در دسترس است، می‌تواند روی اکثر کامپیوترهای مدرن با حداقل ۱۰ گیگابایت VRAM (VRAM) اجرا شود. Dia به طور پیش‌فرض یک صدای تصادفی تولید می‌کند مگر اینکه با توضیحات سبک مورد نظر، به آن دستور داده شود. همچنین قابلیت شبیه‌سازی صدای یک فرد را دارد.

در آزمایش کوتاهی که TechCrunch انجام داد، Dia به خوبی عمل کرد و به راحتی چت‌های دو طرفه در مورد هر موضوعی را تولید می‌کرد. کیفیت صداها در مقایسه با ابزارهای دیگر رقابتی است و قابلیت شبیه‌سازی صدا از آسان‌ترین‌هایی بود که آزمایش کننده تجربه کرده بود.

با این حال، Dia مانند بسیاری از تولیدکنندگان صدا، اقدامات حفاظتی کمی ارائه می‌دهد و ساخت اطلاعات نادرست یا یک ضبط کلاهبردارانه با آن بسیار آسان خواهد بود. Nari در صفحات پروژه Dia، کاربران را از سوءاستفاده از مدل برای جعل هویت، فریب یا انجام سایر کمپین‌های غیرقانونی منع می‌کند، اما می‌گوید که در قبال سوءاستفاده مسئولیتی ندارد.

Nari همچنین منبع داده‌هایی که برای آموزش Dia استفاده کرده را فاش نکرده است. این احتمال وجود دارد که Dia با استفاده از محتوای دارای حق نشر (copyrighted content) توسعه یافته باشد؛ یک نظر در Hacker News (Hacker News) اشاره می‌کند که یکی از نمونه صداها شبیه به صدای مجریان پادکست «Planet Money» از NPR است. آموزش مدل‌ها بر روی محتوای دارای حق نشر یک رویه رایج اما از نظر قانونی مبهم است. برخی شرکت‌های هوش مصنوعی ادعا می‌کنند که استفاده منصفانه (fair use) آن‌ها را از مسئولیت مصون می‌دارد، در حالی که صاحبان حق نشر معتقدند استفاده منصفانه در آموزش مدل‌ها کاربرد ندارد.

به هر حال، کیم می‌گوید برنامه Nari این است که یک پلتفرم صدای ترکیبی (synthetic voice platform) با «جنبه اجتماعی» بر روی Dia و مدل‌های بزرگتر آینده ایجاد کند. Nari همچنین قصد دارد یک گزارش فنی (technical report) برای Dia منتشر کرده و پشتیبانی مدل را به زبان‌هایی فراتر از انگلیسی گسترش دهد.

منبع: تک‌کرانچ

هوش مصنوعی هوش مصنوعی مولد گوگل یادگیری ماشینی سرمایه گذاری خطرپذیر