
Image Credits:Bryce Durbin / TechCrunch
اوپنایآی قابلیت تولید تصویر پیشرفته خود را از طریق API در اختیار توسعهدهندگان قرار داد
اوپنایآی فناوری تولید تصویر پیشرفته خود را که پیشتر در چتجیپیتی معرفی شده بود، از طریق API برای ادغام در برنامههای توسعهدهندگان منتشر کرد.
۱۴۰۴/۰۲/۰۳
اوپنایآی امکان استفاده از فناوری جدید تولید تصویر خود که پیشتر در چتجیپیتی معرفی شده بود را از طریق API برای توسعهدهندگان فراهم کرد. این فناوری، مدل gpt-image-1 نام دارد و قابلیتهای متنوعی از جمله تولید تصاویر با سبکهای مختلف، رندر متن و کنترل کیفیت را ارائه میدهد.
اوپنایآی (OpenAI) روز چهارشنبه، فناوری پشت ویژگی جدید و بهبودیافته تولید تصویر در چتجیپیتی (ChatGPT) را به رابط برنامهنویسی خود (API) آورد و به توسعهدهندگان اجازه داد تا آن را در برنامهها و سرویسهای خود ادغام کنند.
قابلیت جدید تولید تصویر اوپنایآی که در اواخر ماه مارس برای بیشتر کاربران چتجیپیتی راهاندازی شد، به دلیل تواناییاش در خلق تصاویر واقعگرایانه به سبک استودیوی جیبلی (Ghibli) و «اکشن فیگورهای هوش مصنوعی» محبوبیت زیادی پیدا کرد. این موضوع برای اوپنایآی هم جنبه مثبت (مانند میلیونها ثبتنام جدید در چتجیپیتی) و هم جنبه منفی (افزایش فشار بر ظرفیت شرکت) داشته است. بر اساس اعلام شرکت، بیش از ۱۳۰ میلیون کاربر چتجیپیتی تنها در هفته اول دسترسپذیری این ابزار، بیش از ۷۰۰ میلیون تصویر تولید کردند.
در API اوپنایآی، قابلیت تولید تصویر توسط یک مدل هوش مصنوعی به نام «gpt-image-1» پشتیبانی میشود. این مدل که به صورت بومی چندوجهی (multimodal) است، میتواند تصاویری با سبکهای مختلف تولید کند، دستورالعملهای سفارشی را دنبال کند، از دانش جهانی بهره ببرد و متن را رندر کند.
توسعهدهندگان میتوانند با استفاده از gpt-image-1 چندین تصویر را به صورت همزمان تولید کرده و کیفیت تولید را کنترل کنند که این موضوع بر سرعت نیز تأثیر میگذارد.
به گفته اوپنایآی، gpt-image-1 از همان محافظهای ایمنی (safety guardrails) استفاده میکند که در تولید تصویر چتجیپیتی به کار رفتهاند؛ این محافظها از تولید محتوایی که مغایر با سیاستهای شرکت است جلوگیری میکنند. توسعهدهندگان میتوانند حساسیت اعتدال (moderation sensitivity) را کنترل کنند، که میتواند برای فیلترینگ استاندارد روی «auto» یا برای فیلترینگ کمتر محدودکننده روی «low» تنظیم شود. طبق مستندات اوپنایآی ارائه شده به TechCrunch، فیلترینگ «low» دستههای کمتری از محتوای بالقوه نامناسب برای سنین پایین را محدود میکند.
اوپنایآی همچنین میگوید تمام تصاویری که با gpt-image-1 ایجاد میشوند، با فراداده (metadata) استاندارد C2PA واترمارک میشوند تا توسط پلتفرمها و برنامههای پشتیبانیشده به عنوان تولید شده توسط هوش مصنوعی قابل شناسایی باشند.
قیمتگذاری برای هر میلیون توکن ورودی (input tokens) متنی ۵ دلار، برای هر میلیون توکن ورودی تصویری ۱۰ دلار و برای هر میلیون توکن خروجی تصویری ۴۰ دلار است. (توکنها واحدهای خام دادهای هستند که مدل پردازش میکند.) به گفته اوپنایآی، این قیمتها تقریباً معادل ۲ سنت، ۷ سنت و ۱۹ سنت برای هر تصویر مربعی تولید شده با کیفیت پایین، متوسط و بالا است.
اوپنایآی اعلام کرده که شرکتهایی از جمله ادوبی (Adobe)، ایرتیبل (Airtable)، ویکس (Wix)، اینستاکارت (Instacart)، گوددی (GoDaddy)، کانوا (Canva) و فیگما (Figma) در حال حاضر از gpt-image-1 استفاده یا با آن آزمایش میکنند. به عنوان مثال، پلتفرم Figma Design فیگما اکنون به کاربران اجازه میدهد تصاویر را از طریق gpt-image-1 تولید و ویرایش کنند، در حالی که اینستاکارت در حال آزمایش این مدل برای تصاویر مرتبط با دستور پخت غذا و لیست خرید است.
منبع: تککرانچ