La détection des crawlers (ou robots) des moteurs de recherche n'est pas toujours aisée, notamment à cause des faux bots qui pullulent sur la Toile. Google a décidé de publié directement des listes d'adresses IP de GoogleBot pour aider les webmasters à s'assurer qu'il s'agit bien du crawler du leader de la recherche. John Mueller a également évoqué que Google pouvait se permettre de fournir les listes d'IP maintenant que le cloaking (pages satellites essentiellement ici) est bien moins présent...
Google a dévoilé deux listes d'adresses IP pour les webmasters, accessibles au format JSON ou en ligne (interrogeable en direct via une API à venir ?) :
- la première liste contient la totalité des adresses IP de GoogleBot : télécharger ici ;
- la seconde liste contient l'ensemble des adresses IP des autres robots d'indexation de Google : télécharger ici.
L'objectif de ces deux listes est de pouvoir vérifier l'exploration via les crawlers, de suivre la fréquence de crawl pour chaque page ou encore de pouvoir filtrer par IP dans des outils statistiques afin de repérer les robots de Google... Il existe pléthores de raisons d'avoir accès à ces listes d'IP, il ne reste plus qu'à des développeurs/référenceurs de les exploiter correctement (ces listes seront régulièrement mises à jour).
Google estime que ces listes d'adresses IP de GoogleBot vont faciliter la vie des webmasters plutôt que d'utiliser d'autres méthodes parfois plus lourdes ou moins pratiques pour en arriver au même point. Dans tous les cas, c'est plutôt une bonne nouvelle que ces listes soient officielles et on peut même espérer que d'autres moteurs suivent cette voie...