
Image Credits:Odyssey
استارتاپ Odyssey با مدل هوش مصنوعی جدید، جهانهای تعاملی سهبعدی را استریم میکند
استارتاپ Odyssey، مدل هوش مصنوعی جدیدی توسعه داده که امکان تعامل کاربران با ویدیوهای استریم شده و کاوش در جهانهای سهبعدی را فراهم میکند.
۱۴۰۴/۰۳/۰۷
استارتاپ Odyssey مدل هوش مصنوعی جدیدی معرفی کرده که به کاربران امکان میدهد با ویدیوهای استریم شده تعامل کرده و در جهانهای سهبعدی کاوش کنند. این مدل که در دموی اولیه در دسترس است، فریمهای ویدیویی را با سرعت بالا تولید میکند. در حالی که این فناوری پتانسیل زیادی برای رسانههای تعاملی و شبیهسازی دارد، نگرانیهایی در مورد تأثیر آن بر مشاغل خلاق نیز مطرح شده است. Odyssey متعهد به همکاری با متخصصان خلاق است و در حال بهبود دموی فعلی خود با تمرکز بر پایداری و واقعگرایی بیشتر است.
شرکت استارتاپی Odyssey که توسط پیشگامان خودروهای خودران، اولیور کامرون و جف هاوک تأسیس شده است، یک مدل هوش مصنوعی (AI model) توسعه داده که به کاربران امکان میدهد با ویدیوهای استریم شده "تعامل" کنند.
این مدل که در یک "دموی اولیه" در وب قابل دسترس است، هر 40 میلیثانیه فریمهای ویدیویی تولید و استریم میکند. از طریق کنترلهای اولیه، بینندگان میتوانند مناطق مختلف درون یک ویدیو را کاوش کنند، شبیه به یک بازی ویدیویی با رندر سهبعدی.
Odyssey در یک پست وبلاگی توضیح میدهد: «با توجه به وضعیت فعلی جهان، یک اقدام ورودی، و تاریخچهای از وضعیتها و اقدامات، مدل تلاش میکند وضعیت بعدی جهان را پیشبینی کند.» این قابلیت توسط یک مدل جهانی (world model) جدید قدرت میگیرد که تواناییهایی مانند تولید پیکسلهای واقعگرایانه، حفظ ثبات فضایی، یادگیری اقدامات از ویدیو، و خروجی استریمهای ویدیویی منسجم برای 5 دقیقه یا بیشتر را نشان میدهد.
تعدادی از استارتاپها و شرکتهای بزرگ فناوری به دنبال توسعه مدلهای جهانی هستند، از جمله DeepMind، محقق تأثیرگذار هوش مصنوعی فیفی لی (Fei-Fei Lee) با World Labs، مایکروسافت و Decart. آنها معتقدند که مدلهای جهانی روزی میتوانند برای خلق رسانههای تعاملی مانند بازیها و فیلمها و همچنین اجرای شبیهسازیهای واقعگرایانه مانند محیطهای آموزشی برای رباتها استفاده شوند.
اما متخصصان خلاق احساسات متفاوتی نسبت به این فناوری دارند. یک تحقیق اخیر Wired نشان داد که استودیوهای بازی مانند Activision Blizzard، که تعداد زیادی از کارکنان خود را اخراج کرده است، از هوش مصنوعی برای کاهش هزینهها و مقابله با کاهش نیرو استفاده میکنند. و یک مطالعه در سال 2024 که توسط اتحادیه انیمیشنسازان (Animation Guild)، نماینده انیماتورها و کارتونیستهای هالیوود انجام شد، تخمین زده که بیش از 100,000 شغل در حوزه فیلم، تلویزیون و انیمیشن در ایالات متحده طی ماههای آینده تحت تأثیر هوش مصنوعی قرار خواهند گرفت.
Odyssey به نوبه خود متعهد شده است که با متخصصان خلاق همکاری کند – نه اینکه جایگزین آنها شود.
این شرکت در پست وبلاگی خود مینویسد: «ویدیوی تعاملی [...] دریچهای به اشکال کاملاً جدید سرگرمی باز میکند، جایی که داستانها را میتوان بر اساس تقاضا تولید و کاوش کرد، بدون محدودیتها و هزینههای تولید سنتی.» «با گذشت زمان، ما معتقدیم هر آنچه امروز ویدیو است – سرگرمی، تبلیغات، آموزش، یادگیری، سفر و غیره – به ویدیوی تعاملی تبدیل خواهد شد که همگی توسط Odyssey قدرت میگیرند.»
Odyssey اعتراف میکند که دموی فعلی آن هنوز نواقصی دارد. محیطهایی که مدل تولید میکند تار و نامنظم هستند و از نظر پایداری در چیدمان دچار مشکلند. اگر مدتی در یک جهت قدم بزنید یا برگردید، ممکن است محیط اطراف ناگهان متفاوت به نظر برسد.
اما این شرکت قول داده است که به سرعت مدل خود را بهبود بخشد. این مدل در حال حاضر میتواند ویدیو را با سرعت حداکثر 30 فریم بر ثانیه (frames per second) از طریق خوشههای پردازندههای گرافیکی Nvidia H100 استریم کند که هزینه آن 1 تا 2 دلار به ازای هر "ساعت استفاده کننده" است.
Odyssey در پست خود مینویسد: «در آینده، ما در حال تحقیق بر روی نمایشهای جهان غنیتری هستیم که دینامیکها را بسیار وفادارانهتر ثبت کنند، در حالی که پایداری زمانی (temporal stability) و وضعیت پایدار (persistent state) را افزایش میدهیم.» «در موازات، ما فضای اقدام (action space) را از حرکت به تعامل با جهان گسترش میدهیم و اقدامات باز (open actions) را از ویدیوهای در مقیاس بزرگ یاد میگیریم.»
Odyssey رویکردی متفاوت از بسیاری از آزمایشگاههای هوش مصنوعی در حوزه مدلسازی جهان دارد. این شرکت یک سیستم دوربین 360 درجه با قابلیت نصب روی کوله پشتی برای ثبت مناظر دنیای واقعی طراحی کرده است، که Odyssey معتقد است میتواند مبنایی برای مدلهای با کیفیتتر نسبت به مدلهای آموزش دیده صرفاً بر روی دادههای عمومی باشد.
Odyssey تاکنون 27 میلیون دلار از سرمایهگذارانی از جمله EQT Ventures، GV و Air Street Capital جذب کرده است. اد کاتمول (Ed Catmull)، یکی از همبنیانگذاران پیکسار و رئیس سابق استودیوهای انیمیشن والت دیزنی، در هیئت مدیره این استارتاپ حضور دارد.
دسامبر گذشته، Odyssey اعلام کرد که در حال کار بر روی نرمافزاری است که به سازندگان امکان میدهد صحنههای تولید شده توسط مدلهایش را در ابزارهایی مانند Unreal Engine، Blender و Adobe After Effects بارگذاری کنند تا بتوان آنها را به صورت دستی ویرایش کرد.
منبع: تککرانچ