Google Veo presentation at Google I/O 2024

Image Credits:Google

مدل جدید هوش مصنوعی گوگل Veo 3 با قابلیت تولید صدا برای ویدئو معرفی شد

گوگل از Veo 3، جدیدترین مدل هوش مصنوعی خود برای تولید ویدئو که قابلیت تولید صدا نیز دارد، در Google I/O 2025 رونمایی کرد.

۱۴۰۴/۰۲/۳۰

مدل جدید هوش مصنوعی گوگل، Veo 3، در Google I/O 2025 معرفی شد و علاوه بر تولید ویدئو، قابلیت ایجاد صدا (افکت، پس‌زمینه، دیالوگ) را نیز دارد. این مدل که در Gemini برای مشترکان AI Ultra گوگل در دسترس است، به دنبال تمایز در بازار رقابتی تولید ویدئو با هوش مصنوعی است و با نگرانی‌هایی از سوی هنرمندان در مورد تأثیر بر اشتغال همراه شده است.

جدیدترین مدل هوش مصنوعی تولیدکننده ویدئو گوگل، به نام Veo 3 (وِئو ۳)، قابلیت تولید صدا برای کلیپ‌هایی که می‌سازد را دارد.

روز سه‌شنبه، در جریان کنفرانس توسعه‌دهندگان Google I/O 2025 (گوگل آی/او ۲۰۲۵)، گوگل از Veo 3 رونمایی کرد. این شرکت ادعا می‌کند که Veo 3 می‌تواند افکت‌های صوتی، صداهای پس‌زمینه و حتی دیالوگ را برای همراهی با ویدئوهایی که تولید می‌کند، ایجاد کند. گوگل همچنین می‌گوید Veo 3 نسبت به مدل قبلی خود، Veo 2 (وِئو ۲)، در کیفیت ویدئوهای تولیدی بهبود یافته است.

Veo 3 از سه‌شنبه در اپلیکیشن ربات چت Gemini (جمینای) گوگل برای مشترکان طرح AI Ultra (ای‌آی اولترا) گوگل که ماهانه ۲۴۹.۹۹ دلار هزینه دارد، در دسترس قرار گرفته است. کاربران می‌توانند با ورودی متنی یا تصویری به آن دستور دهند.

دِمیس هاسابیس، مدیرعامل Google DeepMind (گوگل دیپ‌مایند)، بخش تحقیق و توسعه هوش مصنوعی گوگل، در یک نشست خبری گفت: «برای اولین بار، ما از عصر سکوت در تولید ویدئو خارج می‌شویم. می‌توانید با یک ورودی متنی که شخصیت‌ها و محیط را توصیف می‌کند و همچنین دیالوگ مورد نظر را با توضیحات مربوط به نحوه صدایش پیشنهاد می‌دهد، به Veo 3 دستور دهید.»

گسترش ابزارهای ساخت تولیدکننده‌های ویدئو باعث انفجار ارائه‌دهندگان شده است به طوری که این فضا در حال اشباع شدن است. استارتاپ‌هایی مانند Runway، Lightricks، Genmo، Pika، Higgsfield، Kling و Luma، و همچنین غول‌های فناوری مانند OpenAI و Alibaba، مدل‌های خود را با سرعت زیادی منتشر می‌کنند. در بسیاری از موارد، تفاوت کمی بین مدل‌ها وجود دارد.

خروجی صدا می‌تواند تمایز بزرگی برای Veo 3 باشد، اگر گوگل بتواند به وعده‌هایش عمل کند. ابزارهای تولید صدا مبتنی بر هوش مصنوعی جدید نیستند، همچنین مدل‌های تولید افکت‌های صوتی برای ویدئو نیز همینطور. اما طبق گفته گوگل، Veo 3 به طور منحصر به فرد می‌تواند پیکسل‌های خام ویدئوهای خود را درک کرده و صداهای تولید شده را به صورت خودکار با کلیپ‌ها همگام‌سازی کند.

Veo 3 احتمالاً به واسطه کار قبلی DeepMind در هوش مصنوعی «ویدئو به صدا» امکان‌پذیر شده است. ژوئن گذشته، DeepMind فاش کرد که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن برای ویدئوها با آموزش یک مدل بر ترکیبی از صداها، رونوشت‌های دیالوگ و کلیپ‌های ویدئویی است.

DeepMind دقیقاً نمی‌گوید که محتوای آموزشی Veo 3 را از کجا تهیه کرده است، اما YouTube (یوتیوب) یک احتمال قوی است. گوگل مالک یوتیوب است و DeepMind پیشتر به TechCrunch گفته بود که مدل‌های گوگل مانند Veo «ممکن است» بر روی برخی مطالب یوتیوب آموزش ببینند.

برای کاهش خطر دیپ‌فیک (deepfake)، DeepMind می‌گوید از فناوری نشان‌گذاری آبی (watermarking) اختصاصی خود به نام SynthID (سینث‌آی‌دی) برای جاسازی نشانگرهای نامرئی در فریم‌هایی که Veo 3 تولید می‌کند، استفاده می‌کند.

در حالی که شرکت‌هایی مانند گوگل Veo 3 را به عنوان ابزارهای خلاقانه قدرتمند معرفی می‌کنند، بسیاری از هنرمندان به طور قابل درکی نسبت به آن‌ها بدبین هستند – این ابزارها صنایع کاملی را تهدید به دگرگونی می‌کنند. یک مطالعه در سال ۲۰۲۴ که توسط Animation Guild (اتحادیه انیمیشن)، اتحادیه‌ای که نماینده انیماتورها و کارتونیست‌های هالیوود است، سفارش داده شد، تخمین می‌زند که تا سال ۲۰۲۶ بیش از ۱۰۰,۰۰۰ شغل در فیلم، تلویزیون و انیمیشن در ایالات متحده تحت تأثیر هوش مصنوعی قرار خواهند گرفت.

گوگل امروز همچنین قابلیت‌های جدیدی را برای Veo 2 معرفی کرد، از جمله ویژگی‌ای که به کاربران امکان می‌دهد تصاویر شخصیت‌ها، صحنه‌ها، اشیا و سبک‌ها را برای بهبود سازگاری به مدل بدهند. جدیدترین Veo 2 می‌تواند حرکات دوربین مانند چرخش‌ها، دالی‌ها و زوم‌ها را درک کند و به کاربران امکان می‌دهد اشیا را از ویدئوها اضافه یا پاک کنند یا فریم کلیپ‌ها را برای مثال از حالت عمودی به افقی گسترش دهند.

گوگل می‌گوید که تمام این قابلیت‌های جدید Veo 2 در هفته‌های آینده به پلتفرم API Vertex AI (وراکس ای‌آی اِی‌پی‌آی) آن اضافه خواهند شد.

منبع: تک‌کرانچ

هوش مصنوعی هوش مصنوعی مولد گوگل ال ال ام اوپن ای آی