Guide sur la gestion du budget d'exploration pour les propri�taires de sites volumineux

Ce guide explique comment optimiser l'exploration par Google des sites tr�s volumineux et fr�quemment mis � jour.

Si votre site ne comporte pas un grand nombre de pages qui changent rapidement ou si vos pages semblent �tre explor�es le jour de leur publication, la lecture de ce guide n'est pas n�cessaire. Il vous suffit de maintenir votre sitemap � jour et de v�rifier r�guli�rement la couverture de votre index.

Si votre contenu est disponible depuis un certain temps, mais qu'il n'a jamais �t� index�, il est important d'agir. Commencez par utiliser l'outil d'inspection d'URL pour d�terminer la raison pour laquelle votre page n'est pas index�e.

� qui s'adresse ce guide�?

Ce guide avanc� cible les sites suivants�:

  • Sites tr�s volumineux (plus d'un million de pages uniques) dont le contenu change assez souvent (une fois par semaine)
  • Sites de taille moyenne ou grande (plus de 10�000�pages uniques) dont le contenu change tr�s rapidement (quotidiennement)
  • Sites dont une proportion importante d'URL est classifi�e comme D�tect�e, actuellement non index�e par la Search�Console

Th�orie g�n�rale de l'exploration

Le Web est tellement vaste qu'il ne permet pas � Google d'explorer ni d'indexer toutes les URL disponibles. C'est pourquoi Googlebot ne peut pas explorer ind�finiment un site. Le temps et les ressources que Google consacre � l'exploration d'un site sont g�n�ralement r�gis par le budget d'exploration de ce site. Notez que tous les �l�ments explor�s sur votre site ne sont pas n�cessairement index�s. Chaque page doit �tre �valu�e, consolid�e et examin�e afin de d�terminer si elle sera index�e apr�s son exploration.

Le budget d'exploration est d�termin� par deux��l�ments cl�s�: la limite de la capacit� d'exploration et le besoin d'exploration.

Limite de la capacit� d'exploration

L'objectif de Googlebot est d'explorer votre site sans surcharger vos serveurs. Pour ce faire, Googlebot calcule une limite de la capacit� d'exploration. Celle-ci correspond au nombre maximal de connexions simultan�es parall�les que Googlebot peut utiliser pour explorer un site, ainsi qu'au temps qu'il doit attendre entre deux�explorations. Cette valeur est calcul�e dans le but de couvrir l'ensemble de votre contenu principal sans surcharger vos serveurs.

La limite de la capacit� d'exploration peut augmenter ou diminuer en fonction de diff�rents facteurs�:

  • �tat de l'exploration�: si le site r�pond rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent �tre utilis�es pour l'exploration. Si le site ralentit ou r�pond par des erreurs de serveur, la limite diminue, et Googlebot r�duit son exploration.
  • Limites d'exploration de Google�: bien que notre infrastructure soit tr�s vaste, elle n'est pas infinie. C'est pourquoi nous devons faire des choix par rapport aux ressources dont nous disposons.

Besoin d'exploration

En r�gle g�n�rale, Google consacre autant de temps que n�cessaire � l'exploration d'un site, en fonction de sa taille, de la fr�quence d'actualisation, de la qualit� de ses pages et de sa pertinence par rapport aux autres sites.

Les facteurs qui jouent un r�le majeur dans la d�termination du besoin d'exploration sont les suivants�:

  • Inventaire per�u�: sans consigne de votre part, Googlebot tente d'explorer la totalit� ou la plupart des URL de votre site dont il a connaissance. Si un grand nombre d'entre elles constituent des doublons ou si leur exploration n'est pas indispensable pour une autre raison (page supprim�e, contenu sans importance, etc.), une grande partie du temps pass� par Google sur votre site est gaspill�. Ce facteur fait partie de ceux que vous pouvez contr�ler le plus facilement.
  • Popularit��: les URL les plus populaires sur Internet ont tendance � �tre explor�es plus souvent pour �tre le plus � jour possible dans notre index.
  • Obsolescence�: l'objectif de nos syst�mes est d'explorer fr�quemment les documents afin d'identifier toute modification.

En outre, les �v�nements sur l'ensemble du site comme les d�placements peuvent d�clencher une augmentation du besoin d'exploration afin de r�indexer le contenu sur les nouvelles URL.

R�capitulatif

En associant la capacit� d'exploration au besoin d'exploration, Google d�finit le budget d'exploration d'un site comme l'ensemble des URL que Googlebot peut et veut explorer. M�me si la limite de la capacit� d'exploration n'est pas atteinte, si le besoin d'exploration est faible, Googlebot explore moins votre site.

Bonnes pratiques

Pour optimiser l'efficacit� de l'exploration, suivez ces bonnes pratiques�:

  • G�rer votre inventaire d'URL�: utilisez les outils appropri�s pour indiquer � Google les pages � explorer ou � ne pas explorer. Si Google passe trop de temps � explorer des URL qui ne sont pas adapt�es � l'index, Googlebot peut d�cider de cesser de consulter le reste de votre site (ou d'augmenter son budget d'exploration pour le couvrir enti�rement).
    • Consolidez le contenu en double. �liminez le contenu en double afin de concentrer l'exploration sur le contenu qui est unique plut�t que sur les URL uniques.
    • Bloquez l'exploration des URL � l'aide du fichier robots.txt. Il est possible que certaines pages soient importantes pour les utilisateurs, mais que vous ne souhaitiez pas forc�ment qu'elles apparaissent dans les r�sultats de recherche (pages � d�filement infini qui dupliquent des informations sur des pages li�es ou versions tri�es diff�remment de la m�me page, par exemple). Si vous ne pouvez pas les consolider comme d�crit dans le premier point, bloquez ces pages sans importance (dans la recherche Google) � l'aide du fichier robots.txt. En bloquant les URL avec le fichier robots.txt, vous r�duisez consid�rablement le risque qu'elles soient index�es.
    • Renvoyez un code d'�tat 404 ou 410 pour les pages supprim�es d�finitivement. Google n'oublie pas les URL dont il a connaissance, mais un code d'�tat 404 lui permet de comprendre qu'il n'est plus utile d'explorer � nouveau l'URL correspondante. En revanche, les URL bloqu�es restent dans la file d'attente d'exploration beaucoup plus longtemps et sont r�explor�es une fois que le blocage est supprim�.
    • �liminez les erreurs soft 404. Les pages soft 404 continuent � �tre explor�es et consomment donc inutilement une partie de votre budget. Recherchez des erreurs soft 404 dans le rapport Couverture de l'index.
    • Mettez r�guli�rement � jour vos sitemaps. Google consulte r�guli�rement votre sitemap. Veillez donc � y inclure tout le contenu � explorer. Si votre site comprend du contenu mis � jour, nous vous recommandons d'inclure la balise <lastmod>.
    • �vitez les longues cha�nes de redirection, qui ont un effet n�gatif sur l'exploration.
  • Optimisez le chargement de vos pages. Si nous sommes en mesure de charger et d'afficher vos pages rapidement, il est probable que nous parviendrons � lire davantage de contenu sur votre site.
  • Suivez l'exploration de votre site. V�rifiez si votre site a rencontr� des probl�mes de disponibilit� lors de l'exploration et cherchez des moyens d'am�liorer l'efficacit� de l'exploration.

Suivre l'exploration et l'indexation de votre site

Voici les principales �tapes � suivre pour suivre le profil d'exploration de votre site�:

  1. V�rifiez si Googlebot rencontre des probl�mes de disponibilit� sur votre site.
  2. D�terminez si certaines de vos pages ne sont pas explor�es alors qu'elles devraient l'�tre.
  3. V�rifiez si certaines parties de votre site doivent �tre explor�es plus rapidement qu'elles ne le sont d�j�.
  4. Optimisez l'exploration de votre site.
  5. Corrigez toute exploration excessive de votre site.

V�rifier si Googlebot rencontre des probl�mes de disponibilit� sur votre site

L'am�lioration de la disponibilit� de votre site n'entra�ne pas n�cessairement une augmentation de votre budget d'exploration. Google d�termine la vitesse d'exploration la plus appropri�e en fonction du besoin d'exploration, comme d�crit pr�c�demment. Cependant, les probl�mes de disponibilit� emp�chent Google d'explorer votre site autant qu'il le souhaiterait.

Diagnostic�:

Consultez le rapport de statistiques sur l'exploration pour afficher l'historique d'exploration de Googlebot pour votre site. Celui-ci indique � quel moment Google a rencontr� des probl�mes de disponibilit� sur votre site. Si des erreurs ou des avertissements de disponibilit� sont signal�s, examinez les graphiques Disponibilit� de l'h�te et recherchez les instances o� les demandes Googlebot ont d�pass� la limite rouge. Cliquez ensuite sur le graphique pour voir quelles URL ont �chou� et essayez de d�terminer si elles correspondent � celles ayant rencontr� des probl�mes sur votre site.

Vous pouvez �galement utiliser l'outil d'inspection d'URL pour tester quelques URL de votre site. Si l'outil renvoie des avertissements Charge de l'h�te d�pass�e, cela signifie que Googlebot ne peut pas explorer autant d'URL de votre site que n�cessaire.

Traitement�:

  • Lisez la documentation du rapport "Statistiques sur l'exploration" pour d�terminer comment d�tecter et g�rer certains probl�mes de disponibilit�.
  • Bloquez l'exploration des pages requises (voir la section G�rer votre inventaire).
  • Acc�l�rez le chargement et l'affichage des pages (voir la section Optimiser l'exploration de votre site).
  • Augmentez la capacit� de votre serveur. Si Google semble atteindre constamment la limite de diffusion de votre site lors de son exploration, mais que certaines de vos URL importantes ne sont pas explor�es ou mises � jour autant de fois que n�cessaire, l'augmentation de la capacit� de votre serveur peut aider Google � explorer davantage de pages sur votre site. Consultez l'historique de disponibilit� de votre h�te dans le rapport "Statistiques sur l'exploration" pour d�terminer si la vitesse d'exploration de Google semble fr�quemment d�passer la limite. Si tel est le cas, augmentez vos ressources de diffusion pendant un mois, puis v�rifiez si les demandes d'exploration ont augment� pendant cette p�riode.

V�rifier si certaines parties de votre site ne sont pas explor�es alors qu'elles devraient l'�tre

Google consacre autant de temps que n�cessaire � votre site afin d'indexer tout le contenu pertinent et de haute qualit� qu'il y trouve. Si vous estimez que Googlebot est pass� � c�t� d'un contenu important, plusieurs raisons sont possibles�: soit Googlebot ne sait pas que ce contenu existe ou n'y a pas acc�s, soit la disponibilit� de votre site restreint l'acc�s de Google (ou Google tente de ne pas surcharger votre site).

Diagnostic�:

La Search�Console ne permet pas de filtrer l'historique d'exploration par URL ou par chemin. Toutefois, vous pouvez inspecter les journaux de votre site pour savoir si des URL sp�cifiques ont �t� explor�es par Googlebot. Rappelez-vous que les URL explor�es ne sont pas forc�ment index�es.

L'identification et l'exploration des nouvelles pages requi�rent plusieurs jours pour la plupart des sites, sauf pour ceux o� l'exploration du contenu doit avoir lieu le jour de la publication, tels que les sites d'actualit�s.

Traitement�:

Si vous ajoutez des pages � votre site et qu'elles ne sont pas explor�es dans un d�lai raisonnable, soit Google n'a pas connaissance de leur existence ou n'y a pas acc�s, soit votre site a atteint sa capacit� de diffusion maximale ou vous avez �puis� votre budget d'exploration.

  1. Notifiez Google en cas d'ajout de pages�: mettez � jour vos sitemaps afin qu'ils refl�tent les nouvelles URL.
  2. Examinez les r�gles du fichier robots.txt afin de v�rifier que vous ne bloquez pas des pages par erreur.
  3. V�rifiez vos priorit�s d'exploration (ou utilisez votre budget d'exploration avec discernement). G�rez votre inventaire et optimisez l'exploration de votre site.
  4. V�rifiez que vous n'avez pas atteint la capacit� de diffusion. Googlebot r�duit l'exploration s'il d�tecte que vos serveurs rencontrent des difficult�s pour r�pondre aux demandes d'exploration.

Notez que les pages explor�es ne s'affichent pas forc�ment dans les r�sultats de recherche, notamment si leur contenu ne pr�sente pas d'int�r�t particulier pour les internautes ou si la demande des utilisateurs est insuffisante.

V�rifier si les mises � jour sont explor�es suffisamment rapidement

Si nous n'explorons pas les pages que vous venez de cr�er ou de modifier, il est possible que ces cr�ations ou modifications aient �chapp� � nos syst�mes de d�tection. Voici comment nous informer des modifications apport�es � vos pages.

Notez que Google s'efforce de v�rifier et d'indexer les pages dans les meilleurs d�lais. Pour la plupart des sites, ce d�lai est d'au moins trois�jours. Ne vous attendez pas � ce que Google indexe les pages le jour o� vous les publiez, sauf s'il s'agit d'un site d'actualit�s ou si votre site fait partie des sites reconnus pour lesquels le facteur temps est d�terminant.

Diagnostic�:

Examinez les journaux de votre site pour d�terminer quand des URL sp�cifiques ont �t� explor�es par Googlebot.

Pour conna�tre la date d'indexation, utilisez l'outil d'inspection d'URL ou effectuez une recherche Google portant sur les URL que vous avez actualis�es.

Traitement�:

Conseill�:

  • Utilisez un sitemap Google�Actualit�s si votre site propose des articles d'actualit�.
  • Utilisez la balise <lastmod> dans les sitemaps pour indiquer qu'une URL index�e a �t� actualis�e.
  • Utilisez une structure d'URL simple pour aider Google � identifier vos pages.
  • Fournissez des liens <a> explorables standards pour aider Google � d�tecter vos pages.

� �viter�:

  • Envoyez le m�me sitemap, sans aucune modification, plusieurs fois par jour.
  • Comptez � ce que Googlebot explore tous les �l�ments de votre sitemap ou � ce qu'il les explore imm�diatement. Les sitemaps sont des suggestions utiles pour Googlebot, et non des exigences absolues.
  • Ajoutez dans vos sitemaps les URL que vous ne souhaitez pas voir appara�tre dans les r�sultats de recherche. Ces pages contribuent � �puiser votre budget d'exploration.

Optimiser l'exploration de votre site

Acc�l�rer le chargement des pages

L'exploration Google est limit�e par la bande passante, le temps et la disponibilit� des instances Googlebot. Si votre serveur r�pond rapidement aux demandes, il se peut que nous puissions explorer plus de pages de votre site que pr�vu. Ceci dit, l'objectif principal de Google est d'explorer le contenu de haute qualit�. Par cons�quent, si vous vous contentez de lui proposer des pages de faible qualit�, cela n'incitera pas Googlebot � explorer une plus grande partie de votre site m�me si elles sont plus rapides. Par contre, si nous estimons que nous sommes pass�s � c�t� de contenu de qualit� sur votre site, nous augmenterons votre budget afin de pouvoir l'explorer.

Voici comment optimiser l'exploration de vos pages et de vos ressources�:

  • Emp�chez Googlebot de charger les ressources volumineuses, mais sans importance, � l'aide d'un fichier robots.txt. Assurez-vous de ne bloquer que les ressources non critiques, � savoir celles qui n'affectent pas la signification de la page (comme les images d�coratives).
  • V�rifiez que vos pages se chargent rapidement.
  • �vitez les longues cha�nes de redirection, qui ont un effet n�gatif sur l'exploration.
  • Le temps de r�ponse aux demandes du serveur, ainsi que le temps n�cessaire pour afficher les pages, jouent un r�le majeur, y compris la dur�e de chargement et d'ex�cution des ressources int�gr�es telles que les images et les scripts. Tenez compte des ressources volumineuses ou lentes requises pour l'indexation.

Sp�cifier les modifications de contenu � l'aide de codes d'�tat HTTP

Google accepte g�n�ralement les en-t�tes de requ�tes HTTP If-Modified-Since et If-None-Match pour l'exploration. Les robots d'exploration Google n'envoient pas les en-t�tes � chaque tentative d'exploration. Cela d�pend du cas d'utilisation de la requ�te (par exemple, AdsBot est plus susceptible de d�finir les en-t�tes des requ�tes HTTP If-Modified-Since et If-None-Match). Si nos robots d'exploration envoient l'en-t�te If-Modified-Since, la valeur de l'en-t�te correspond � la date et � l'heure de la derni�re exploration du contenu. Sur la base de cette valeur, le serveur peut choisir de renvoyer un code d'�tat HTTP 304 (Not Modified) sans corps de r�ponse, auquel cas Google r�utilisera la derni�re version du contenu explor�e. Si le contenu est plus r�cent que la date sp�cifi�e par le robot d'exploration dans l'en-t�te If-Modified-Since, le serveur peut renvoyer un code d'�tat HTTP 200 (OK) avec le corps de la r�ponse.

Ind�pendamment des en-t�tes de requ�te, vous pouvez envoyer un code d'�tat HTTP 304 (Not Modified) sans aucun corps de r�ponse � toute requ�te Googlebot si le contenu n'a pas chang� depuis la derni�re visite de Googlebot par l'URL. Vous �conomiserez ainsi du temps et des ressources � votre serveur, ce qui peut am�liorer indirectement l'efficacit� de l'exploration.

Masquer les URL que vous ne souhaitez pas voir appara�tre dans les r�sultats de recherche

Le fait de mobiliser les ressources du serveur pour des pages secondaires peut r�duire l'activit� d'exploration pour les pages que vous consid�rez comme essentielles. R�sultat�: la d�tection du contenu nouveau ou mis � jour sur un site peut �tre retard�e de mani�re significative.

L'exposition de nombreuses URL qui ne devraient pas �tre explor�es par un moteur de recherche peut avoir un impact n�gatif sur l'exploration et l'indexation de votre site. Ces URL appartiennent g�n�ralement aux cat�gories suivantes�:

  • Navigation � facettes et identifiants de session�: la navigation � facettes correspond g�n�ralement � du contenu en double sur le site. Les identifiants de session et autres param�tres d'URL qui permettent simplement de trier ou de filtrer la page n'ajoutent rien au contenu existant. Utilisez un fichier robots.txt pour bloquer les pages de navigation � facettes.
  • Contenu en double�: aidez Google � identifier le contenu en double afin d'�viter toute exploration inutile.
  • Pages soft 404�: affichez un code 404 lorsqu'une page n'existe plus.
  • Pages pirat�es�: consultez le rapport sur les probl�mes de s�curit�, puis corrigez ou supprimez les pages pirat�es que vous y trouvez.
  • Espaces infinis et proxys�: emp�chez l'exploration de ces entit�s � l'aide d'un fichier robots.txt.
  • Contenu de mauvaise qualit� et spam�: il va de soi qu'il est pr�f�rable d'�viter ce genre de situation.
  • Pages de commande, pages � d�filement infini ou pages d'action (pages d'inscription ou d'achat imm�diat, par exemple).

Conseill�:

  • Utilisez le fichier robots.txt si vous ne souhaitez pas que Google explore une ressource ou une page.
  • Si une ressource commune est r�utilis�e sur plusieurs pages (telle qu'une image partag�e ou un fichier JavaScript), r�f�rencez cette ressource avec la m�me URL sur chaque page. De cette mani�re, Google mettra en cache et r�utilisera la m�me ressource sans avoir � la demander plusieurs fois.

� �viter�:

  • �vitez d'ajouter ou de supprimer r�guli�rement des pages ou des r�pertoires dans le fichier robots.txt dans le but de redistribuer une partie du budget d'exploration de votre site. N'utilisez le fichier robots.txt que pour les pages ou les ressources qui ne devraient pas figurer sur Google � long terme.
  • �vitez d'effectuer une rotation des sitemaps ou d'utiliser d'autres m�canismes de masquage temporaire pour redistribuer le budget.

G�rer la surexploration de votre site (urgence)

Googlebot exploite des algorithmes qui l'emp�chent de surcharger votre site de demandes d'exploration. Toutefois, si vous estimez que cela n'est pas suffisant, plusieurs options s'offrent � vous.

Diagnostic�:

Surveillez votre serveur pour d�terminer si le nombre de requ�tes Googlebot envoy�es � votre site est excessif.

Traitement�:

En cas d'urgence, nous vous recommandons de suivre les �tapes ci-dessous pour ralentir la fr�quence d'exploration de Googlebot�:

  1. Renvoyez des codes d'�tat de r�ponse HTTP 503 ou 429 temporairement pour les requ�tes Googlebot lorsque votre serveur est surcharg�. Googlebot tentera de r�explorer ces URL pendant environ deux�jours. Sachez que si vous renvoyez des codes de non-disponibilit� pendant une dur�e prolong�e, Google ralentira d�finitivement ou cessera d'explorer les URL de votre site. Veillez donc � prendre les mesures suppl�mentaires suivantes.
  2. Lorsque la vitesse d'exploration diminue, cessez de renvoyer des codes d'�tat de r�ponse�HTTP 503 ou 429 pour les requ�tes d'exploration. Si vous renvoyez 503 ou 429 pendant plus de deux�jours, Google supprimera ces URL de l'index.
  3. Surveillez la capacit� de l'exploration et de l'h�te au fil du temps.
  4. Si le robot probl�matique fait partie des robots d'exploration AdsBot, cela signifie probablement que vous avez cr�� des cibles d'annonces dynamiques du R�seau de Recherche pour votre site que Google tente d'explorer. Cette exploration se r�p�te toutes les trois semaines. Si votre serveur n'est pas assez puissant pour g�rer ces explorations, pensez � limiter vos cibles d'annonces ou � augmenter la capacit� de diffusion.

Id�es re�ues et faits av�r�s concernant l'exploration

Testez vos connaissances sur la fa�on dont Google explore et indexe les sites Web.

La compression de mes sitemaps contribue � augmenter le budget d'exploration.
Vrai
Faux
C'est une id�e re�ue. Le fait de compresser un sitemap n'emp�che pas qu'il doit �tre r�cup�r� sur le serveur. D�s lors, l'envoi de sitemaps compress�s ne fait pas r�ellement gagner de temps � Google pour l'exploration.
Google privil�gie les contenus les plus r�cents. Je pr�f�re donc continuer � peaufiner ma page.
Vrai
Faux
Le contenu est �valu� en fonction de la qualit�, quelle que soit son anciennet�. Cr�ez et mettez � jour votre contenu autant que n�cessaire, mais il n'est pas utile d'y apporter constamment des modifications mineures pour donner l'impression que le contenu principal est plus r�cent qu'il ne l'est vraiment.
Google privil�gie le contenu qui existe de longue date (qui a fait ses preuves) plut�t que les nouveaux contenus.
Vrai
Faux
Si votre page est utile, peu importe que son contenu soit nouveau ou ancien.
Google pr�f�re les URL propres et n'appr�cie pas les param�tres de requ�te.
Vrai
Faux
Nous pouvons explorer les param�tres.
Plus vos pages se chargent et s'affichent rapidement, plus elles ont de chance d'�tre explor�es par Google.
Vrai
Vrai, dans la mesure o� nos ressources sont limit�es par le temps et par le nombre de robots d'exploration dont nous disposons. D�s lors, plus vous nous proposez de pages dans une p�riode de temps r�duite, plus nous pouvons en explorer. Cependant, nous pouvons consacrer plus de temps � l'exploration d'un site qui contient des informations plus importantes, m�me s'il est plus lent. De mani�re g�n�rale, il est pr�f�rable d'acc�l�rer le chargement et l'affichage de votre site pour am�liorer l'exp�rience utilisateur plut�t que pour augmenter la couverture de l'exploration. Il est beaucoup plus simple d'aider Google � explorer le contenu appropri� que de s'attendre � ce qu'il explore tout votre site � chaque fois. Notez que l'exploration d'un site implique � la fois l'extraction et l'affichage du contenu. Le temps pass� � afficher la page compte autant que le temps pass� � demander la page. Par cons�quent, en acc�l�rant l'affichage de vos pages, vous augmentez �galement la vitesse d'exploration.
Faux
Les sites de petite taille ne sont pas explor�s aussi souvent que les grands.
Vrai
Faux
Si un site propose du contenu int�ressant qui change souvent, nous l'explorons souvent, quelle que soit sa taille.
Plus votre contenu est facilement accessible depuis la page d'accueil, plus Google y pr�te attention.
Vrai
Vrai et faux
La page d'accueil de votre site en est souvent la page centrale. Par cons�quent, les pages qui y sont directement li�es peuvent �tre consid�r�es comme plus importantes et �tre donc explor�es plus souvent. Toutefois, cela ne signifie pas que ces pages seront mieux class�es que les autres pages de votre site.
Faux
La gestion des versions d'URL est un bon moyen d'inciter Google � r�explorer mes pages.
Vrai
Vrai et faux
L'utilisation d'une URL pour laquelle la gestion des versions est activ�e afin d'inciter Google � la r�explorer plus t�t fonctionne probablement. Toutefois, cela n'est g�n�ralement pas n�cessaire et consomme inutilement les ressources d'exploration si la page n'a pas �t� modifi�e. Si vous utilisez des URL pour lesquelles la gestion des versions est activ�e afin d'indiquer le nouveau contenu � Google, vous ne devez modifier ces URL que lorsque le contenu correspondant a chang� de mani�re significative.
Faux
La vitesse du site et les erreurs affectent mon budget d'exploration.
Vrai
En rendant un site plus rapide, vous am�liorez l'exp�rience utilisateur tout en augmentant la vitesse d'exploration. Pour Googlebot, un site rapide est le signe de serveurs en bon �tat�: il peut acc�der � un contenu plus important avec le m�me nombre de connexions. En revanche, un nombre important de codes d'�tat de r�ponse�HTTP 5xx (erreurs de serveur) ou de probl�mes de d�lai avant expiration de la connexion indiquent le contraire, et l'exploration ralentit. Nous recommandons de pr�ter attention au rapport "Statistiques sur l'exploration" dans la Search�Console et de limiter le nombre d'erreurs de serveur.
Faux
L'exploration est un facteur de classement.
Vrai
Faux
L'am�lioration de la vitesse d'exploration n'entra�ne pas n�cessairement un meilleur classement dans les r�sultats de recherche. Google utilise de nombreux signaux pour classer les r�sultats. M�me si l'exploration est n�cessaire pour qu'une page figure dans les r�sultats de recherche, elle n'influe pas sur le classement.
Les autres versions des URL et le contenu int�gr� comptent dans le budget d'exploration.
Vrai
En g�n�ral, toutes les URL que Googlebot explore comptent dans le budget d'exploration d'un site. Les autres versions des URL, comme les versions�AMP ou "hreflang", ainsi que le contenu int�gr�, comme le contenu CSS et JavaScript (y compris les extractions XHR) peuvent n�cessiter une exploration et utiliser ainsi le budget d'exploration d'un site.
Faux
Je peux contr�ler Googlebot � l'aide de la r�gle "crawl-delay".
Vrai
Faux
La r�gle non standard "crawl-delay" d'un fichier robots.txt n'est pas trait�e par Googlebot.
La r�gle nofollow a une incidence sur le budget d'exploration.
Vrai
Vrai et faux
Toute URL explor�e a une incidence sur le budget d'exploration. Par cons�quent, m�me si votre page marque une URL avec l'instruction nofollow, elle peut toujours �tre explor�e si une autre page de votre site ou toute page disponible sur le Web n'�tiquette pas ce lien avec cette instruction nofollow.
Faux
Je peux utiliser noindex pour contr�ler le budget d'exploration.
Vrai
Vrai et faux
Toute URL explor�e a une incidence sur le budget d'exploration. Google doit explorer la page pour trouver la r�gle noindex.

Toutefois, noindex est l� pour vous aider � exclure des contenus de l'index. Si vous souhaitez vous assurer que ces pages n'entrent pas dans l'index Google, continuez � utiliser noindex et ne vous souciez pas du budget d'exploration. Il est �galement important de noter que si vous supprimez des URL de l'index Google avec noindex ou une autre m�thode, Googlebot peut se concentrer sur d'autres URL de votre site, ce qui signifie que noindex peut lib�rer indirectement une partie du budget d'exploration de votre site.
Faux
Les pages qui diffusent les codes d'�tat HTTP�4xx gaspillent leur budget d'exploration.
Vrai
Faux
Les pages qui diffusent des codes d'�tat HTTP�4xx (sauf 429) ne gaspillent pas votre budget d'exploration. Google a tent� d'explorer la page, mais a re�u un code d'�tat et aucun autre contenu.