Man hiking in a forest wearing Odyssey camera pack
هوش مصنوعی

استارتاپ Odyssey با مدل هوش مصنوعی جدید، جهان‌های تعاملی سه‌بعدی را استریم می‌کند

استارتاپ Odyssey، مدل هوش مصنوعی جدیدی توسعه داده که امکان تعامل کاربران با ویدیوهای استریم شده و کاوش در جهان‌های سه‌بعدی را فراهم می‌کند.

۱۴۰۴/۰۳/۰۷

استارتاپ Odyssey مدل هوش مصنوعی جدیدی معرفی کرده که به کاربران امکان می‌دهد با ویدیوهای استریم شده تعامل کرده و در جهان‌های سه‌بعدی کاوش کنند. این مدل که در دموی اولیه در دسترس است، فریم‌های ویدیویی را با سرعت بالا تولید می‌کند. در حالی که این فناوری پتانسیل زیادی برای رسانه‌های تعاملی و شبیه‌سازی دارد، نگرانی‌هایی در مورد تأثیر آن بر مشاغل خلاق نیز مطرح شده است. Odyssey متعهد به همکاری با متخصصان خلاق است و در حال بهبود دموی فعلی خود با تمرکز بر پایداری و واقع‌گرایی بیشتر است.

شرکت استارتاپی Odyssey که توسط پیشگامان خودروهای خودران، اولیور کامرون و جف هاوک تأسیس شده است، یک مدل هوش مصنوعی (AI model) توسعه داده که به کاربران امکان می‌دهد با ویدیوهای استریم شده "تعامل" کنند.

این مدل که در یک "دموی اولیه" در وب قابل دسترس است، هر 40 میلی‌ثانیه فریم‌های ویدیویی تولید و استریم می‌کند. از طریق کنترل‌های اولیه، بینندگان می‌توانند مناطق مختلف درون یک ویدیو را کاوش کنند، شبیه به یک بازی ویدیویی با رندر سه‌بعدی.

Odyssey در یک پست وبلاگی توضیح می‌دهد: «با توجه به وضعیت فعلی جهان، یک اقدام ورودی، و تاریخچه‌ای از وضعیت‌ها و اقدامات، مدل تلاش می‌کند وضعیت بعدی جهان را پیش‌بینی کند.» این قابلیت توسط یک مدل جهانی (world model) جدید قدرت می‌گیرد که توانایی‌هایی مانند تولید پیکسل‌های واقع‌گرایانه، حفظ ثبات فضایی، یادگیری اقدامات از ویدیو، و خروجی استریم‌های ویدیویی منسجم برای 5 دقیقه یا بیشتر را نشان می‌دهد.

تعدادی از استارتاپ‌ها و شرکت‌های بزرگ فناوری به دنبال توسعه مدل‌های جهانی هستند، از جمله DeepMind، محقق تأثیرگذار هوش مصنوعی فی‌فی لی (Fei-Fei Lee) با World Labs، مایکروسافت و Decart. آن‌ها معتقدند که مدل‌های جهانی روزی می‌توانند برای خلق رسانه‌های تعاملی مانند بازی‌ها و فیلم‌ها و همچنین اجرای شبیه‌سازی‌های واقع‌گرایانه مانند محیط‌های آموزشی برای ربات‌ها استفاده شوند.

اما متخصصان خلاق احساسات متفاوتی نسبت به این فناوری دارند. یک تحقیق اخیر Wired نشان داد که استودیوهای بازی مانند Activision Blizzard، که تعداد زیادی از کارکنان خود را اخراج کرده است، از هوش مصنوعی برای کاهش هزینه‌ها و مقابله با کاهش نیرو استفاده می‌کنند. و یک مطالعه در سال 2024 که توسط اتحادیه انیمیشن‌سازان (Animation Guild)، نماینده انیماتورها و کارتونیست‌های هالیوود انجام شد، تخمین زده که بیش از 100,000 شغل در حوزه فیلم، تلویزیون و انیمیشن در ایالات متحده طی ماه‌های آینده تحت تأثیر هوش مصنوعی قرار خواهند گرفت.

Odyssey به نوبه خود متعهد شده است که با متخصصان خلاق همکاری کند – نه اینکه جایگزین آن‌ها شود.

این شرکت در پست وبلاگی خود می‌نویسد: «ویدیوی تعاملی [...] دریچه‌ای به اشکال کاملاً جدید سرگرمی باز می‌کند، جایی که داستان‌ها را می‌توان بر اساس تقاضا تولید و کاوش کرد، بدون محدودیت‌ها و هزینه‌های تولید سنتی.» «با گذشت زمان، ما معتقدیم هر آنچه امروز ویدیو است – سرگرمی، تبلیغات، آموزش، یادگیری، سفر و غیره – به ویدیوی تعاملی تبدیل خواهد شد که همگی توسط Odyssey قدرت می‌گیرند.»

Odyssey اعتراف می‌کند که دموی فعلی آن هنوز نواقصی دارد. محیط‌هایی که مدل تولید می‌کند تار و نامنظم هستند و از نظر پایداری در چیدمان دچار مشکلند. اگر مدتی در یک جهت قدم بزنید یا برگردید، ممکن است محیط اطراف ناگهان متفاوت به نظر برسد.

اما این شرکت قول داده است که به سرعت مدل خود را بهبود بخشد. این مدل در حال حاضر می‌تواند ویدیو را با سرعت حداکثر 30 فریم بر ثانیه (frames per second) از طریق خوشه‌های پردازنده‌های گرافیکی Nvidia H100 استریم کند که هزینه آن 1 تا 2 دلار به ازای هر "ساعت استفاده کننده" است.

Odyssey در پست خود می‌نویسد: «در آینده، ما در حال تحقیق بر روی نمایش‌های جهان غنی‌تری هستیم که دینامیک‌ها را بسیار وفادارانه‌تر ثبت کنند، در حالی که پایداری زمانی (temporal stability) و وضعیت پایدار (persistent state) را افزایش می‌دهیم.» «در موازات، ما فضای اقدام (action space) را از حرکت به تعامل با جهان گسترش می‌دهیم و اقدامات باز (open actions) را از ویدیوهای در مقیاس بزرگ یاد می‌گیریم.»

Odyssey رویکردی متفاوت از بسیاری از آزمایشگاه‌های هوش مصنوعی در حوزه مدل‌سازی جهان دارد. این شرکت یک سیستم دوربین 360 درجه با قابلیت نصب روی کوله پشتی برای ثبت مناظر دنیای واقعی طراحی کرده است، که Odyssey معتقد است می‌تواند مبنایی برای مدل‌های با کیفیت‌تر نسبت به مدل‌های آموزش دیده صرفاً بر روی داده‌های عمومی باشد.

Odyssey تاکنون 27 میلیون دلار از سرمایه‌گذارانی از جمله EQT Ventures، GV و Air Street Capital جذب کرده است. اد کاتمول (Ed Catmull)، یکی از هم‌بنیان‌گذاران پیکسار و رئیس سابق استودیوهای انیمیشن والت دیزنی، در هیئت مدیره این استارتاپ حضور دارد.

دسامبر گذشته، Odyssey اعلام کرد که در حال کار بر روی نرم‌افزاری است که به سازندگان امکان می‌دهد صحنه‌های تولید شده توسط مدل‌هایش را در ابزارهایی مانند Unreal Engine، Blender و Adobe After Effects بارگذاری کنند تا بتوان آن‌ها را به صورت دستی ویرایش کرد.

منبع: تک‌کرانچ

به مطالعه ادامه دهید