Arnaud Decurninge

Comme Bing avec son fameux Bingbot, ou le yandex bot chaque moteur de recherches possède un bot. Pour établir une bonne stratégie SEO, il est important de comprendre ce qu’est Googlebot et les mécanismes qu’il utilise.

Googlebot, c’est quoi ?

Googlebot est un robot d’indexation, aussi appelé “Spider”, “Agent” ou “Crawler”. Il explore toutes les pages web et les liens qu’elles comportent dans le but d’étayer le nombre de recherches sur Google et de les classer.

Googlebot, comment ça marche ?

Définir le mécanisme de Googlebot revient à expliquer la notion de crawl.

Qu’est-ce que le crawl de Googlebot ?

Le crawl est l’action de parcourir les pages et les liens d’une page web. En arrivant sur un site web, Googlebot vérifie le fichier robots.txt qui indique les pages et liens à ne pas crawler.

Une fois la vérification finie, il se rend sur une page et analyse le code source HTML et qu’il enregistre. Il explore ensuite les liens dofollow qui sont les liens sortants non indiqués sur le fichier robots.txt.

En suivant ces liens, il arrive sur une nouvelle page et reprend les mêmes étapes pour chaque page explorée.

Quels critères affectent le crawl ?

Plusieurs facteurs peuvent impacter la fréquence, la vitesse et la précision du crawl. En premier lieu, un site web contenant un nombre important de pages sera crawlé plus fréquemment par Googlebot qu’un site web ayant un nombre de pages réduit. On remarque aussi un crawl plus régulier pour les sites web mettant souvent à jour leurs pages web.

D’autre part, la capacité du serveur pour le site web détermine la vitesse du crawl. Plus les réponses du serveur seront tardives, plus l’analyse Googlebot durera.

Enfin, pour avoir le crawl le moins aléatoire possible, la qualité du contenu est primordiale puisqu’elle permettra de faire de meilleurs liens entre les informations. Elle doit être accompagnée par une profondeur limitée des pages, soit un nombre de liens dofollow limités.

Ces caractéristiques conditionnent le budget crawl, qui correspond à la capacité limite que Googlebot se donne pour explorer un site.

Par ailleurs, Google interdit le cloaking, le fait de montrer une page différente selon le visiteur du lien URL. Ainsi, les pages cloakées ne sont pas crawlées et les sites soupçonnés de cloaking pourront être pénalisés.