Comment fonctionne le robot de Google (Googlebot) ?

Pour améliorer les performances de votre référencement, vous devez surveiller la façon dont le robot de Google explore votre site internet. L’idéal est de le faire avec une analyse de log SEO dédiée afin d’avoir toutes les informations en détail. Dans un premier temps, la Search Console nous donne déjà des datas a surveiller, en voici quelques une.

Quel robot utilise Google pour crawler votre site ?

Si vous suivez un minimum l’actualité du référencement, vous avez certainement su que Google pousse les web-masters à faire des efforts sur le mobile et que l’indexation des résultats se fait sur le mobile. Donc le seul robot qui compte devrait-être le robot mobile de Google, n’est-ce pasi ?

Et bien pas si vite ! Si cela est vrai pour la plupart des sites Web, ce n’est pas le cas pour tous. Dans certains cas, les robots de Google pour ordinateurs de bureau et pour smartphones parcourent le site dans les mêmes proportions.

exemple de proportion des types de robot google — Un tiers des pages consultées sur ce site se fait par un robot de Google smartphone.

Dans d’autres cas, le robot de Google pour ordinateurs de bureau explore le site Web plus souvent que le robot de Google pour smartphone.

Cela vous indique quelle est l’expérience principale de Googlebot sur un site Web donné. En sachant cela, vous pourrez valider que vos actions sont bien en accord avec la perception de Google. Si ce n’est pas le cas, vous saurez qu’il faut modifier les priorités de conception et de développement.

Vous aurez également des arguments chiffrés si l’équipe de dev vous dit, on ne s’occupe plus du desktop car Google crawl en mobile. Même pour les sites Web qui sont explorés principalement par le robot Smartphone de Google, il y a toujours de l’exploration Desktop (et vice versa).

Pour savoir quel Googlebot explore votre site Web, allez dans la barre latérale, cliquez sur “Paramètres”, puis sur “Ouvrir le rapport” à côté de “Statistiques des robots”. Dans le rapport Crawl Stats, faites défiler la page jusqu’au tableau “Par type de Googlebot”. Vous verrez le pourcentage d’exploration par robot.

exemple de passage de googlebot sur ce site — Exemple de passage de googlebot sur ce site

Outre les robots de Google pour ordinateurs de bureau et smartphones, ce tableau indique également les robots d’autres Googlebots tels que ceux chargés des images ou des vidéos. Cela peut être utile pour comprendre l’attention que Google porte aux différents types de fichiers sur le site Web lors de l’exploration.

Jetez un coup d’œil à votre site Web dans Google Search Console. Quel robot Google utilise-t-il principalement pour explorer votre site Web ?

Le crawl par objectif

Il est important de garder à l’esprit que Googlebot explore un site Web pour deux raisons principales : l’actualisation et la découverte des contenus.

Vous pouvez trouver les informations de crawls d’actualisation et de découverte pour votre site Web dans la Google Search Console. Pour se faire, connectez-vous à votre Search Console, allez dans Paramètres, puis cliquez sur “Ouvrir le rapport” à côté de Statistiques d’exploration. Défilez vers le bas et vous verrez un tableau intitulé “Par objectif”. Il vous montre votre niveau de rafraîchissement et de découverte des crawls.

Un crawl d’actualisation, comme son nom l’indique, consiste à ce que Googlebot explore à nouveau une page qu’il connaît déjà. Le robot retourne sur la page pour vérifier les mises à jour et les modifications.

Dans le cas d’un crawl de découverte, Googlebot explore une nouvelle page qui n’était pas encore connue. A noter que l’on peut trouver dans ce rapport une ancienne page qu’il n’a pas explorée depuis longtemps.

Pour presque tous les sites Web, le pourcentage de crawls de rafraîchissement sera plus élevé que celui des crawls de découverte. Il y a toujours beaucoup de contenu à revérifier pour Googlebot. Le pourcentage de crawls de rafraîchissement par rapport aux crawls de découverte n’est pas si important. Vous devez plutôt prêter attention à la tendance des rafraîchissements et des recherches de découverte.

Comment interpréter les données de crawl par objectif ?

Pour les sites Web actifs, qui ajoutent régulièrement du nouveau contenu, les explorations de découverte devraient être relativement élevées car il y a beaucoup de nouvelles pages à trouver pour Googlebot. Si les explorations de découverte sont inférieures à ce qu’elles devraient être, cela signifie que Googlebot ne trouve pas le nouveau contenu du site Web. Vous pouvez alors vous poser la question de l’accessibilité de vos contenus dans la structure.

À l’inverse, si les explorations de découverte sont plus élevées pour les sites Web peu actifs, cela devrait soulever quelques questions – à savoir, quel contenu Googlebot découvre-t-il, et ce contenu est-il valide ?

Les recherches de rafraîchissement doivent être relativement cohérentes dans le temps, ce qui signifie que Googlebot retourne sur le site à intervalles réguliers pour vérifier les mises à jour. Cependant, les recherches de rafraîchissement connaissent souvent des pics lorsque des modifications sont apportées. Si les recherches de rafraîchissement ne sont pas constantes dans le temps ou si elles ne connaissent pas de pic après des changements importants, cela signifie qu’il peut y avoir des problèmes dans la façon dont Googlebot explore le site Web.

À quoi ressemblent les explorations de rafraîchissement et de découverte sur votre site Web ? Comment évoluent-ils dans le temps ?
Si ce n’est pas clair pour vous, posez la question en commentaire 🙂

L’indexation des pages dans Google

Une fois que le robot de Google est passé sur votre site (crawl), vient l’étape de l’indexation. Il va ranger les pages parcourues dans une sorte de sommaire pour pouvoir les retrouver et les proposer dans ses résultats de recherches.

Cette étape n’est pas systématique et des pages peuvent avoir été découvertes par les robots sans être pour autant indexées.

Savez-vous comment vérifier que les pages soient bien indéxées ?
Voici une manière de le vérifier et d’avoir quelques indices sur l’amélioration de votre site pour les robots, toujours grâce à la Search Console.

Cliquez sur le lien “Pages” qui se trouve dans la barre latérale, sous “Index”. Vous trouverez alors un graphique ressemblant à cela :

indexation page dans google - search console — Bon, il y a clairement du travail SEO à faire sur ce site !

Pourquoi le robot de Google n’indexe pas mes pages ?

Les pages découvertes mais non indexées peuvent parfois ne pas poser de problème. Les toutes nouvelles pages ajoutées à un site Web se retrouvent souvent dans cette catégorie : la page est nouvelle et Google n’a pas encore eu l’occasion de l’explorer.

Le problème, c’est lorsque les pages restent trop longtemps dans la catégorie “découvert mais non indexé”. Cela résulte généralement d’un faible volume de liens internes et externes. Si le nombre de liens est insuffisant, Googlebot ne voit pas de raison d’explorer la page. Plus Googlebot voit de liens référençant une page, plus il lui donne la priorité à l’exploration.

La raison pour laquelle les pages sont explorées mais pas indexées est moins évidente. Googlebot a exploré la page et a vu le contenu de la page, mais a décidé de ne pas la déplacer dans l’index. Dans la plupart des cas, ces pages ne sont pas indexées en raison d’un problème de qualité, tel qu’un contenu insuffisant ou une duplication. Dans d’autres cas, nous avons vu des pages ne pas être indexées en raison d’un problème de rendu – la façon dont JavaScript est exécuté sur la page empêche Googlebot de charger la page.

En résumé, il y a généralement un problème si vous avez des pages dans les catégories Crawled Not Indexed ou Discovered Not Indexed. Les pages de ces catégories doivent être examinées et, le plus souvent, des modifications devront être apportées pour s’assurer que Google les indexera.

Quel robot utilise Google pour crawler votre site ?

Le crawl par objectif

Comment interpréter les données de crawl par objectif ?

L’indexation des pages dans Google

Pourquoi le robot de Google n’indexe pas mes pages ?

Laisser un commentaire

A PROPOS

ALLER PLUS LOIN

INFORMATIONS