Baisse de prix de Gemini 1.5 Flash, r�glage de l'acc�s pour tous les d�veloppeurs et plus encore ! En savoir plus

Cette page a �t� traduite par l'API Cloud�Translation.

Mise en cache du contexte

Dans un workflow d'IA classique, vous pouvez transmettre les m�mes jetons d'entr�e � l'infini d'un mod�le. La fonctionnalit� de mise en cache contextuelle de l'API Gemini vous permet de transmettre du contenu au mod�le, mettre en cache les jetons d'entr�e, puis faire r�f�rence aux jetons mis en cache pour les requ�tes ult�rieures. Pour certains volumes, l'utilisation de jetons mis en cache co�te moins cher. que de transmettre plusieurs fois le m�me corpus de jetons.

Lorsque vous mettez en cache un ensemble de jetons, vous pouvez choisir la dur�e pendant laquelle avant la suppression automatique des jetons. Cette dur�e de mise en cache est appel�e valeur TTL (Time To Live). Si cette r�gle n'est pas configur�e, la valeur TTL est d�finie par d�faut sur 1 heure. La le co�t de la mise en cache d�pend de la taille du jeton d'entr�e et de la dur�e afin de conserver les jetons d'entr�e.

La mise en cache contextuelle est compatible avec Gemini 1.5 Pro et Gemini 1.5 Flash.

Quand utiliser la mise en cache de contexte

La mise en cache de contexte est particuli�rement adapt�e aux sc�narios o� un contexte initial important est r�f�renc� � plusieurs reprises par des requ�tes plus courtes. Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants�:

Chatbots avec des instructions syst�me d�taill�es
Analyse r�p�titive de fichiers vid�o longs
Requ�tes r�currentes sur des ensembles de documents volumineux
Analyse fr�quente du d�p�t de code ou correction de bugs

Comment la mise en cache r�duit les co�ts

La mise en cache de contexte est une fonctionnalit� payante con�ue pour r�duire les co�ts op�rationnels globaux. La facturation d�pend des facteurs suivants�:

Nombre de jetons mis en cache�: nombre de jetons d'entr�e mis en cache, factur�s � un tarif r�duit lorsqu'ils sont inclus dans les requ�tes suivantes.
Dur�e de stockage:dur�e pendant laquelle les jetons mis en cache sont stock�s (TTL), factur�s en fonction de la dur�e TTL du nombre de jetons mis en cache. Il n'y a pas de minimum ou les limites maximales de la valeur TTL.
Autres facteurs�: d'autres frais s'appliquent, par exemple pour les jetons d'entr�e et de sortie non mis en cache.

Pour obtenir les tarifs les plus r�cents, consultez les tarifs de l'API Gemini . Pour savoir comment compter les jetons, consultez la section Jeton guide de d�marrage.

Utiliser la mise en cache du contexte

Dans cette section, nous partons du principe que vous avez install� un SDK Gemini et configur� une API , comme indiqu� dans le guide de d�marrage rapide.

Informations compl�mentaires

Tenez compte des consid�rations suivantes lorsque vous utilisez la mise en cache du contexte:

Le nombre minimal de jetons d'entr�e pour la mise en cache du contexte est de 32 768. La valeur maximum est identique � la valeur maximale pour le mod�le donn�. Pour en savoir plus sur pour compter les jetons, consultez le guide relatif aux jetons).
Le mod�le ne fait aucune distinction entre les jetons mis en cache et les jetons des jetons d'entr�e. Le contenu mis en cache est simplement un pr�fixe de l'invite.
Aucun taux sp�cial ou limite d'utilisation n'est appliqu� � la mise en cache du contexte. la norme les limites de d�bit pour GenerateContent s'appliquent, et les limites de jetons incluent les caches de jetons.
Le nombre de jetons mis en cache est renvoy� dans usage_metadata � partir de "create", "get" et "list" des op�rations du service de cache, ainsi que GenerateContent lors de l'utilisation du cache.