Google a lancé Une nouvelle fonctionnalité de son API Gemini appelée «mise en cache implicite», qui, selon la société, peut réduire les coûts de 75% pour les développeurs tiers en utilisant ses derniers modèles d’IA, Gemini 2.5 Pro et 2.5 Flash.
La fonctionnalité permet automatiquement les économies de coûts lorsqu’une demande d’API Gemini à un modèle frappe un cache, éliminant le besoin de configuration manuelle requise par la méthode de mise en cache explicite précédente. Selon Google, la mise en cache implicite est déclenchée lorsqu’une demande partage un préfixe commun avec une demande précédente, et le nombre de jetons invites minimum requis est de 1 024 pour 2,5 Flash et 2 048 pour 2,5 Pro.
Logan Kilpatrick, membre de l’équipe Gemini, annoncé Le lancement le 8 mai 2025, déclarant que la fonctionnalité peut fournir des économies de coûts importantes pour les développeurs. Google recommande aux développeurs de placer le contexte répétitif au début des demandes et d’ajouter le contexte de changement à la fin pour augmenter les chances de coups de cache implicites.
La mise en cache est une pratique largement adoptée dans l’industrie de l’IA qui réutilise les données fréquemment consultées ou pré-rémunérées pour réduire les exigences et les coûts informatiques. La méthode de mise en cache explicite précédente de Google obligeait les développeurs à définir manuellement les invites à haute fréquence, ce qui a souvent abouti à un travail supplémentaire et à des factures d’API parfois étonnamment importantes pour certains utilisateurs.
Certains développeurs avaient exprimé leur insatisfaction à l’égard de la mise en œuvre de la mise en cache explicite de Gemini 2.5 Pro, ce qui a incité l’équipe Gemini à s’excuser et à s’engager à apporter des modifications. La nouvelle fonctionnalité de mise en cache implicite répond à ces préoccupations en automatisant le processus de mise en cache et en transmettant les économies de coûts aux développeurs lorsqu’un coup de cache se produit.
Alors que Google affirme que la mise en cache implicite peut procéder à des économies de coûts de 75%, la société n’a pas fourni de vérification tierce de l’efficacité de la fonctionnalité. En tant que tels, les économies réelles peuvent varier en fonction de la façon dont les développeurs utilisent la fonctionnalité.