
Image Credits:Google
مدل جدید هوش مصنوعی گوگل Veo 3 با قابلیت تولید صدا برای ویدئو معرفی شد
گوگل از Veo 3، جدیدترین مدل هوش مصنوعی خود برای تولید ویدئو که قابلیت تولید صدا نیز دارد، در Google I/O 2025 رونمایی کرد.
۱۴۰۴/۰۲/۳۰
مدل جدید هوش مصنوعی گوگل، Veo 3، در Google I/O 2025 معرفی شد و علاوه بر تولید ویدئو، قابلیت ایجاد صدا (افکت، پسزمینه، دیالوگ) را نیز دارد. این مدل که در Gemini برای مشترکان AI Ultra گوگل در دسترس است، به دنبال تمایز در بازار رقابتی تولید ویدئو با هوش مصنوعی است و با نگرانیهایی از سوی هنرمندان در مورد تأثیر بر اشتغال همراه شده است.
جدیدترین مدل هوش مصنوعی تولیدکننده ویدئو گوگل، به نام Veo 3 (وِئو ۳)، قابلیت تولید صدا برای کلیپهایی که میسازد را دارد.
روز سهشنبه، در جریان کنفرانس توسعهدهندگان Google I/O 2025 (گوگل آی/او ۲۰۲۵)، گوگل از Veo 3 رونمایی کرد. این شرکت ادعا میکند که Veo 3 میتواند افکتهای صوتی، صداهای پسزمینه و حتی دیالوگ را برای همراهی با ویدئوهایی که تولید میکند، ایجاد کند. گوگل همچنین میگوید Veo 3 نسبت به مدل قبلی خود، Veo 2 (وِئو ۲)، در کیفیت ویدئوهای تولیدی بهبود یافته است.
Veo 3 از سهشنبه در اپلیکیشن ربات چت Gemini (جمینای) گوگل برای مشترکان طرح AI Ultra (ایآی اولترا) گوگل که ماهانه ۲۴۹.۹۹ دلار هزینه دارد، در دسترس قرار گرفته است. کاربران میتوانند با ورودی متنی یا تصویری به آن دستور دهند.
دِمیس هاسابیس، مدیرعامل Google DeepMind (گوگل دیپمایند)، بخش تحقیق و توسعه هوش مصنوعی گوگل، در یک نشست خبری گفت: «برای اولین بار، ما از عصر سکوت در تولید ویدئو خارج میشویم. میتوانید با یک ورودی متنی که شخصیتها و محیط را توصیف میکند و همچنین دیالوگ مورد نظر را با توضیحات مربوط به نحوه صدایش پیشنهاد میدهد، به Veo 3 دستور دهید.»
گسترش ابزارهای ساخت تولیدکنندههای ویدئو باعث انفجار ارائهدهندگان شده است به طوری که این فضا در حال اشباع شدن است. استارتاپهایی مانند Runway، Lightricks، Genmo، Pika، Higgsfield، Kling و Luma، و همچنین غولهای فناوری مانند OpenAI و Alibaba، مدلهای خود را با سرعت زیادی منتشر میکنند. در بسیاری از موارد، تفاوت کمی بین مدلها وجود دارد.
خروجی صدا میتواند تمایز بزرگی برای Veo 3 باشد، اگر گوگل بتواند به وعدههایش عمل کند. ابزارهای تولید صدا مبتنی بر هوش مصنوعی جدید نیستند، همچنین مدلهای تولید افکتهای صوتی برای ویدئو نیز همینطور. اما طبق گفته گوگل، Veo 3 به طور منحصر به فرد میتواند پیکسلهای خام ویدئوهای خود را درک کرده و صداهای تولید شده را به صورت خودکار با کلیپها همگامسازی کند.
Veo 3 احتمالاً به واسطه کار قبلی DeepMind در هوش مصنوعی «ویدئو به صدا» امکانپذیر شده است. ژوئن گذشته، DeepMind فاش کرد که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن برای ویدئوها با آموزش یک مدل بر ترکیبی از صداها، رونوشتهای دیالوگ و کلیپهای ویدئویی است.
DeepMind دقیقاً نمیگوید که محتوای آموزشی Veo 3 را از کجا تهیه کرده است، اما YouTube (یوتیوب) یک احتمال قوی است. گوگل مالک یوتیوب است و DeepMind پیشتر به TechCrunch گفته بود که مدلهای گوگل مانند Veo «ممکن است» بر روی برخی مطالب یوتیوب آموزش ببینند.
برای کاهش خطر دیپفیک (deepfake)، DeepMind میگوید از فناوری نشانگذاری آبی (watermarking) اختصاصی خود به نام SynthID (سینثآیدی) برای جاسازی نشانگرهای نامرئی در فریمهایی که Veo 3 تولید میکند، استفاده میکند.
در حالی که شرکتهایی مانند گوگل Veo 3 را به عنوان ابزارهای خلاقانه قدرتمند معرفی میکنند، بسیاری از هنرمندان به طور قابل درکی نسبت به آنها بدبین هستند – این ابزارها صنایع کاملی را تهدید به دگرگونی میکنند. یک مطالعه در سال ۲۰۲۴ که توسط Animation Guild (اتحادیه انیمیشن)، اتحادیهای که نماینده انیماتورها و کارتونیستهای هالیوود است، سفارش داده شد، تخمین میزند که تا سال ۲۰۲۶ بیش از ۱۰۰,۰۰۰ شغل در فیلم، تلویزیون و انیمیشن در ایالات متحده تحت تأثیر هوش مصنوعی قرار خواهند گرفت.
گوگل امروز همچنین قابلیتهای جدیدی را برای Veo 2 معرفی کرد، از جمله ویژگیای که به کاربران امکان میدهد تصاویر شخصیتها، صحنهها، اشیا و سبکها را برای بهبود سازگاری به مدل بدهند. جدیدترین Veo 2 میتواند حرکات دوربین مانند چرخشها، دالیها و زومها را درک کند و به کاربران امکان میدهد اشیا را از ویدئوها اضافه یا پاک کنند یا فریم کلیپها را برای مثال از حالت عمودی به افقی گسترش دهند.
گوگل میگوید که تمام این قابلیتهای جدید Veo 2 در هفتههای آینده به پلتفرم API Vertex AI (وراکس ایآی اِیپیآی) آن اضافه خواهند شد.
منبع: تککرانچ