<ph type="x-smartling-placeholder">
Dans un workflow d'IA classique, vous pouvez transmettre les m�mes jetons d'entr�e � l'infini d'un mod�le. La fonctionnalit� de mise en cache contextuelle de l'API Gemini vous permet de transmettre du contenu au mod�le, mettre en cache les jetons d'entr�e, puis faire r�f�rence aux jetons mis en cache pour les requ�tes ult�rieures. Pour certains volumes, l'utilisation de jetons mis en cache co�te moins cher. que de transmettre plusieurs fois le m�me corpus de jetons.
Lorsque vous mettez en cache un ensemble de jetons, vous pouvez choisir la dur�e pendant laquelle avant la suppression automatique des jetons. Cette dur�e de mise en cache est appel�e valeur TTL (Time To Live). Si cette r�gle n'est pas configur�e, la valeur TTL est d�finie par d�faut sur 1 heure. La le co�t de la mise en cache d�pend de la taille du jeton d'entr�e et de la dur�e afin de conserver les jetons d'entr�e.
La mise en cache contextuelle est compatible avec Gemini 1.5 Pro et Gemini 1.5 Flash.
Quand utiliser la mise en cache de contexte
La mise en cache de contexte est particuli�rement adapt�e aux sc�narios o� un contexte initial important est r�f�renc� � plusieurs reprises par des requ�tes plus courtes. Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants�:
- Chatbots avec des instructions syst�me d�taill�es
- Analyse r�p�titive de fichiers vid�o longs
- Requ�tes r�currentes sur des ensembles de documents volumineux
- Analyse fr�quente du d�p�t de code ou correction de bugs
Comment la mise en cache r�duit les co�ts
La mise en cache de contexte est une fonctionnalit� payante con�ue pour r�duire les co�ts op�rationnels globaux. La facturation d�pend des facteurs suivants�:
- Nombre de jetons mis en cache�: nombre de jetons d'entr�e mis en cache, factur�s � un tarif r�duit lorsqu'ils sont inclus dans les requ�tes suivantes.
- Dur�e de stockage:dur�e pendant laquelle les jetons mis en cache sont stock�s (TTL), factur�s en fonction de la dur�e TTL du nombre de jetons mis en cache. Il n'y a pas de minimum ou les limites maximales de la valeur TTL.
- Autres facteurs�: d'autres frais s'appliquent, par exemple pour les jetons d'entr�e et de sortie non mis en cache.
Pour obtenir les tarifs les plus r�cents, consultez les tarifs de l'API Gemini . Pour savoir comment compter les jetons, consultez la section Jeton guide de d�marrage.
Utiliser la mise en cache du contexte
Dans cette section, nous partons du principe que vous avez install� un SDK Gemini et configur� une API , comme indiqu� dans le guide de d�marrage rapide.
Informations compl�mentaires
Tenez compte des consid�rations suivantes lorsque vous utilisez la mise en cache du contexte:
- Le nombre minimal de jetons d'entr�e pour la mise en cache du contexte est de 32 768. La valeur maximum est identique � la valeur maximale pour le mod�le donn�. Pour en savoir plus sur pour compter les jetons, consultez le guide relatif aux jetons).
- Le mod�le ne fait aucune distinction entre les jetons mis en cache et les jetons des jetons d'entr�e. Le contenu mis en cache est simplement un pr�fixe de l'invite.
- Aucun taux sp�cial ou limite d'utilisation n'est appliqu� � la mise en cache du contexte. la norme
les limites de d�bit pour
GenerateContent
s'appliquent, et les limites de jetons incluent les caches de jetons. - Le nombre de jetons mis en cache est renvoy� dans
usage_metadata
� partir de "create", "get" et "list" des op�rations du service de cache, ainsi queGenerateContent
lors de l'utilisation du cache.