
Image Credits:Andrey Rudakov/Bloomberg / Getty ImagesEditing an image using Gemini.Image Credits:Google
گوگل با راهاندازی «کشینگ ضمنی»، دسترسی به جدیدترین مدلهای هوش مصنوعی خود را ارزانتر میکند
گوگل در حال ارائه قابلیتی در API جمنای خود به نام «کشینگ ضمنی» است که این شرکت ادعا میکند مدلهای هوش مصنوعی اخیر آن را برای توسعهدهندگان شخص ثالث ارزانتر میکند.
۱۴۰۴/۰۲/۱۸
گوگل قابلیتی جدید به نام «کشینگ ضمنی» را در API جمنای خود راهاندازی کرده است. این قابلیت به گفته گوگل، با ذخیرهسازی و استفاده مجدد از محتوای تکراری، میتواند تا ۷۵ درصد در هزینه استفاده از مدلهای جمنای ۲.۵ پرو و ۲.۵ فلش برای توسعهدهندگان صرفهجویی کند. این اقدام پس از نارضایتی برخی توسعهدهندگان از هزینه مدل ۲.۵ پرو با استفاده از قابلیت قبلی کشینگ صریح صورت میگیرد.
گوگل در حال ارائه قابلیتی در رابط برنامهنویسی کاربردی (API) جمنای (Gemini) خود است که به گفته این شرکت، استفاده از جدیدترین مدلهای هوش مصنوعی آن را برای توسعهدهندگان شخص ثالث ارزانتر خواهد کرد.
گوگل این قابلیت را «کشینگ ضمنی» (Implicit Caching) مینامد و میگوید که میتواند ۷۵ درصد صرفهجویی در هزینهها را برای «محتوای تکراری» که از طریق API جمنای به مدلها ارسال میشود، به ارمغان آورد. این قابلیت از مدلهای جمنای ۲.۵ پرو (Gemini 2.5 Pro) و ۲.۵ فلش (2.5 Flash) گوگل پشتیبانی میکند.
این خبر احتمالاً برای توسعهدهندگان خوشایند خواهد بود، زیرا هزینه استفاده از مدلهای پیشرو همچنان در حال افزایش است.
کشینگ (Caching)، یک رویکرد متداول در صنعت هوش مصنوعی، با استفاده مجدد از دادههای پرکاربرد یا پیشمحاسبهشده مدلها، نیازهای محاسباتی و هزینه را کاهش میدهد. برای مثال، کشها میتوانند پاسخ سؤالاتی را که کاربران اغلب از یک مدل میپرسند، ذخیره کنند و نیاز مدل به ایجاد مجدد پاسخ برای همان درخواست را از بین ببرند.
گوگل پیش از این نیز قابلیت کشینگ پرامپت (Prompt Caching) مدل را ارائه کرده بود، اما تنها به صورت کشینگ صریح (Explicit Caching)، به این معنی که توسعهدهندگان باید پرامپتهای با بالاترین فرکانس خود را تعریف میکردند. اگرچه قرار بود صرفهجویی در هزینه تضمین شود، اما کشینگ صریح معمولاً شامل کار دستی زیادی بود.
برخی از توسعهدهندگان از نحوه عملکرد پیادهسازی کشینگ صریح گوگل برای جمنای ۲.۵ پرو که به گفته آنها میتوانست منجر به صورتحسابهای API بسیار بالا شود، ناراضی بودند. شکایات در هفته گذشته به اوج خود رسید و تیم جمنای را وادار به عذرخواهی و تعهد به ایجاد تغییرات کرد.
در مقابل کشینگ صریح، کشینگ ضمنی به صورت خودکار عمل میکند. این قابلیت که به طور پیشفرض برای مدلهای جمنای ۲.۵ فعال است، در صورتی که درخواست API جمنای به یک مدل با کش مطابقت داشته باشد، صرفهجویی در هزینه را منتقل میکند.
گوگل در یک پست وبلاگی توضیح داد: «هنگامی که درخواستی را به یکی از مدلهای جمنای ۲.۵ ارسال میکنید، اگر درخواست پیشوند مشترکی با یکی از درخواستهای قبلی داشته باشد، واجد شرایط برخورد کش (Cache Hit) خواهد بود. ما به صورت پویا صرفهجویی در هزینه را به شما برمیگردانیم.»
بر اساس مستندات توسعهدهندگان گوگل، حداقل تعداد توکنهای پرامپت برای کشینگ ضمنی ۱۰۲۴ برای ۲.۵ فلش و ۲۰۴۸ برای ۲.۵ پرو است که مقدار بسیار بزرگی نیست، به این معنی که نباید تلاش زیادی برای فعال کردن این صرفهجوییهای خودکار لازم باشد. توکنها قطعات خام داده هستند که مدلها با آنها کار میکنند و هزار توکن تقریباً معادل ۷۵۰ کلمه است.
با توجه به اینکه ادعاهای قبلی گوگل مبنی بر صرفهجویی در هزینه از طریق کشینگ با مشکل مواجه شد، برخی نکات هشدار دهنده در این قابلیت جدید وجود دارد. اولاً، گوگل توصیه میکند که توسعهدهندگان محتوای تکراری را در ابتدای درخواستها قرار دهند تا شانس برخورد کش ضمنی را افزایش دهند. به گفته این شرکت، محتوایی که ممکن است از درخواستی به درخواست دیگر تغییر کند، باید در انتها اضافه شود.
ثانیاً، گوگل هیچ تأییدیه شخص ثالثی ارائه نکرد که سیستم جدید کشینگ ضمنی صرفهجوییهای خودکار وعده داده شده را محقق خواهد کرد. بنابراین باید دید کاربران اولیه چه میگویند.
منبع: تککرانچ