The Google Gemini generative AI logo on a smartphone arranged in Riga, Latvia, on Friday, Aug. 16, 2024. The public release of advanced generative AI tools such as Google's Gemini, Meta AI, and OpenAI's ChatGPT over the past two years has heightened fears that millions of workers could be displaced. Photographer: Andrey Rudakov/Bloomberg via Getty Images
هوش مصنوعی

گوگل با راه‌اندازی «کشینگ ضمنی»، دسترسی به جدیدترین مدل‌های هوش مصنوعی خود را ارزان‌تر می‌کند

گوگل در حال ارائه قابلیتی در API جمنای خود به نام «کشینگ ضمنی» است که این شرکت ادعا می‌کند مدل‌های هوش مصنوعی اخیر آن را برای توسعه‌دهندگان شخص ثالث ارزان‌تر می‌کند.

۱۴۰۴/۰۲/۱۸

گوگل قابلیتی جدید به نام «کشینگ ضمنی» را در API جمنای خود راه‌اندازی کرده است. این قابلیت به گفته گوگل، با ذخیره‌سازی و استفاده مجدد از محتوای تکراری، می‌تواند تا ۷۵ درصد در هزینه استفاده از مدل‌های جمنای ۲.۵ پرو و ۲.۵ فلش برای توسعه‌دهندگان صرفه‌جویی کند. این اقدام پس از نارضایتی برخی توسعه‌دهندگان از هزینه مدل ۲.۵ پرو با استفاده از قابلیت قبلی کشینگ صریح صورت می‌گیرد.

گوگل در حال ارائه قابلیتی در رابط برنامه‌نویسی کاربردی (API) جمنای (Gemini) خود است که به گفته این شرکت، استفاده از جدیدترین مدل‌های هوش مصنوعی آن را برای توسعه‌دهندگان شخص ثالث ارزان‌تر خواهد کرد.

گوگل این قابلیت را «کشینگ ضمنی» (Implicit Caching) می‌نامد و می‌گوید که می‌تواند ۷۵ درصد صرفه‌جویی در هزینه‌ها را برای «محتوای تکراری» که از طریق API جمنای به مدل‌ها ارسال می‌شود، به ارمغان آورد. این قابلیت از مدل‌های جمنای ۲.۵ پرو (Gemini 2.5 Pro) و ۲.۵ فلش (2.5 Flash) گوگل پشتیبانی می‌کند.

این خبر احتمالاً برای توسعه‌دهندگان خوشایند خواهد بود، زیرا هزینه استفاده از مدل‌های پیشرو همچنان در حال افزایش است.

کشینگ (Caching)، یک رویکرد متداول در صنعت هوش مصنوعی، با استفاده مجدد از داده‌های پرکاربرد یا پیش‌محاسبه‌شده مدل‌ها، نیازهای محاسباتی و هزینه را کاهش می‌دهد. برای مثال، کش‌ها می‌توانند پاسخ سؤالاتی را که کاربران اغلب از یک مدل می‌پرسند، ذخیره کنند و نیاز مدل به ایجاد مجدد پاسخ برای همان درخواست را از بین ببرند.

گوگل پیش از این نیز قابلیت کشینگ پرامپت (Prompt Caching) مدل را ارائه کرده بود، اما تنها به صورت کشینگ صریح (Explicit Caching)، به این معنی که توسعه‌دهندگان باید پرامپت‌های با بالاترین فرکانس خود را تعریف می‌کردند. اگرچه قرار بود صرفه‌جویی در هزینه تضمین شود، اما کشینگ صریح معمولاً شامل کار دستی زیادی بود.

برخی از توسعه‌دهندگان از نحوه عملکرد پیاده‌سازی کشینگ صریح گوگل برای جمنای ۲.۵ پرو که به گفته آن‌ها می‌توانست منجر به صورت‌حساب‌های API بسیار بالا شود، ناراضی بودند. شکایات در هفته گذشته به اوج خود رسید و تیم جمنای را وادار به عذرخواهی و تعهد به ایجاد تغییرات کرد.

در مقابل کشینگ صریح، کشینگ ضمنی به صورت خودکار عمل می‌کند. این قابلیت که به طور پیش‌فرض برای مدل‌های جمنای ۲.۵ فعال است، در صورتی که درخواست API جمنای به یک مدل با کش مطابقت داشته باشد، صرفه‌جویی در هزینه را منتقل می‌کند.

گوگل در یک پست وبلاگی توضیح داد: «هنگامی که درخواستی را به یکی از مدل‌های جمنای ۲.۵ ارسال می‌کنید، اگر درخواست پیشوند مشترکی با یکی از درخواست‌های قبلی داشته باشد، واجد شرایط برخورد کش (Cache Hit) خواهد بود. ما به صورت پویا صرفه‌جویی در هزینه را به شما برمی‌گردانیم.»

بر اساس مستندات توسعه‌دهندگان گوگل، حداقل تعداد توکن‌های پرامپت برای کشینگ ضمنی ۱۰۲۴ برای ۲.۵ فلش و ۲۰۴۸ برای ۲.۵ پرو است که مقدار بسیار بزرگی نیست، به این معنی که نباید تلاش زیادی برای فعال کردن این صرفه‌جویی‌های خودکار لازم باشد. توکن‌ها قطعات خام داده هستند که مدل‌ها با آن‌ها کار می‌کنند و هزار توکن تقریباً معادل ۷۵۰ کلمه است.

با توجه به اینکه ادعاهای قبلی گوگل مبنی بر صرفه‌جویی در هزینه از طریق کشینگ با مشکل مواجه شد، برخی نکات هشدار دهنده در این قابلیت جدید وجود دارد. اولاً، گوگل توصیه می‌کند که توسعه‌دهندگان محتوای تکراری را در ابتدای درخواست‌ها قرار دهند تا شانس برخورد کش ضمنی را افزایش دهند. به گفته این شرکت، محتوایی که ممکن است از درخواستی به درخواست دیگر تغییر کند، باید در انتها اضافه شود.

ثانیاً، گوگل هیچ تأییدیه شخص ثالثی ارائه نکرد که سیستم جدید کشینگ ضمنی صرفه‌جویی‌های خودکار وعده داده شده را محقق خواهد کرد. بنابراین باید دید کاربران اولیه چه می‌گویند.

منبع: تک‌کرانچ

به مطالعه ادامه دهید