Image Credits:Bryce Durbin / TechCrunch

اوپن‌ای‌آی قابلیت تولید تصویر پیشرفته خود را از طریق API در اختیار توسعه‌دهندگان قرار داد

اوپن‌ای‌آی فناوری تولید تصویر پیشرفته خود را که پیشتر در چت‌جی‌پی‌تی معرفی شده بود، از طریق API برای ادغام در برنامه‌های توسعه‌دهندگان منتشر کرد.

۱۴۰۴/۰۲/۰۳

اوپن‌ای‌آی امکان استفاده از فناوری جدید تولید تصویر خود که پیشتر در چت‌جی‌پی‌تی معرفی شده بود را از طریق API برای توسعه‌دهندگان فراهم کرد. این فناوری، مدل gpt-image-1 نام دارد و قابلیت‌های متنوعی از جمله تولید تصاویر با سبک‌های مختلف، رندر متن و کنترل کیفیت را ارائه می‌دهد.

اوپن‌ای‌آی (OpenAI) روز چهارشنبه، فناوری پشت ویژگی جدید و بهبودیافته تولید تصویر در چت‌جی‌پی‌تی (ChatGPT) را به رابط برنامه‌نویسی خود (API) آورد و به توسعه‌دهندگان اجازه داد تا آن را در برنامه‌ها و سرویس‌های خود ادغام کنند.

قابلیت جدید تولید تصویر اوپن‌ای‌آی که در اواخر ماه مارس برای بیشتر کاربران چت‌جی‌پی‌تی راه‌اندازی شد، به دلیل توانایی‌اش در خلق تصاویر واقع‌گرایانه به سبک استودیوی جیبلی (Ghibli) و «اکشن فیگورهای هوش مصنوعی» محبوبیت زیادی پیدا کرد. این موضوع برای اوپن‌ای‌آی هم جنبه مثبت (مانند میلیون‌ها ثبت‌نام جدید در چت‌جی‌پی‌تی) و هم جنبه منفی (افزایش فشار بر ظرفیت شرکت) داشته است. بر اساس اعلام شرکت، بیش از ۱۳۰ میلیون کاربر چت‌جی‌پی‌تی تنها در هفته اول دسترس‌پذیری این ابزار، بیش از ۷۰۰ میلیون تصویر تولید کردند.

در API اوپن‌ای‌آی، قابلیت تولید تصویر توسط یک مدل هوش مصنوعی به نام «gpt-image-1» پشتیبانی می‌شود. این مدل که به صورت بومی چندوجهی (multimodal) است، می‌تواند تصاویری با سبک‌های مختلف تولید کند، دستورالعمل‌های سفارشی را دنبال کند، از دانش جهانی بهره ببرد و متن را رندر کند.

توسعه‌دهندگان می‌توانند با استفاده از gpt-image-1 چندین تصویر را به صورت همزمان تولید کرده و کیفیت تولید را کنترل کنند که این موضوع بر سرعت نیز تأثیر می‌گذارد.

به گفته اوپن‌ای‌آی، gpt-image-1 از همان محافظ‌های ایمنی (safety guardrails) استفاده می‌کند که در تولید تصویر چت‌جی‌پی‌تی به کار رفته‌اند؛ این محافظ‌ها از تولید محتوایی که مغایر با سیاست‌های شرکت است جلوگیری می‌کنند. توسعه‌دهندگان می‌توانند حساسیت اعتدال (moderation sensitivity) را کنترل کنند، که می‌تواند برای فیلترینگ استاندارد روی «auto» یا برای فیلترینگ کمتر محدودکننده روی «low» تنظیم شود. طبق مستندات اوپن‌ای‌آی ارائه شده به TechCrunch، فیلترینگ «low» دسته‌های کمتری از محتوای بالقوه نامناسب برای سنین پایین را محدود می‌کند.

اوپن‌ای‌آی همچنین می‌گوید تمام تصاویری که با gpt-image-1 ایجاد می‌شوند، با فراداده (metadata) استاندارد C2PA واترمارک می‌شوند تا توسط پلتفرم‌ها و برنامه‌های پشتیبانی‌شده به عنوان تولید شده توسط هوش مصنوعی قابل شناسایی باشند.

قیمت‌گذاری برای هر میلیون توکن ورودی (input tokens) متنی ۵ دلار، برای هر میلیون توکن ورودی تصویری ۱۰ دلار و برای هر میلیون توکن خروجی تصویری ۴۰ دلار است. (توکن‌ها واحدهای خام داده‌ای هستند که مدل پردازش می‌کند.) به گفته اوپن‌ای‌آی، این قیمت‌ها تقریباً معادل ۲ سنت، ۷ سنت و ۱۹ سنت برای هر تصویر مربعی تولید شده با کیفیت پایین، متوسط و بالا است.

اوپن‌ای‌آی اعلام کرده که شرکت‌هایی از جمله ادوبی (Adobe)، ایرتیبل (Airtable)، ویکس (Wix)، اینستاکارت (Instacart)، گوددی (GoDaddy)، کانوا (Canva) و فیگما (Figma) در حال حاضر از gpt-image-1 استفاده یا با آن آزمایش می‌کنند. به عنوان مثال، پلتفرم Figma Design فیگما اکنون به کاربران اجازه می‌دهد تصاویر را از طریق gpt-image-1 تولید و ویرایش کنند، در حالی که اینستاکارت در حال آزمایش این مدل برای تصاویر مرتبط با دستور پخت غذا و لیست خرید است.

منبع: تک‌کرانچ

هوش مصنوعی هوش مصنوعی مولد ال ال ام اوپن ای آی