Attention, bloquer les visiteurs américains peut bloquer GoogleBot !

Mathieu Chartier SEO 0 commentaire

GoogleBot et l'indexation selon l'adresse IP des sites web

John Mueller, le porte-parole de Google, a indiqué dans le forum des webmasters du moteur de recherche qu'il faut rester vigilant et éviter de bloquer les utilisateurs américains sur les sites web, au risque de bloquer également GoogleBot. En effet, même si le robot n'est pas un humain, il utilise très régulièrement une IP américaine, et risque donc de ne pas pouvoir crawler et indexer les pages web en cas de blocage.

Voici la déclaration de John Mueller sur le forum de Google au sujet du blocage des utilisateurs sur le web :

En général, nos guidelines disent que vous devez montrer à GoogleBot le même contenu que celui que vous souhaitez afficher aux autres utilisateurs de la zone géographique qu'il est censé crawler. Donc si vous bloquez les utilisateurs aux Etats-Unis, alors vous devriez aussi bloquer GoogleBot quand il crawle aux Etats-Unis (ce qui est généralement le cas).

En d'autres termes, John Mueller explique qu'en théorie, il faut bloquer les contenus à la fois à GoogleBot et aux utilisateurs d'une même zone, mais qu'idéalement, il convient d'afficher les mêmes contenus partout dans le monde.

Par opposition à ce que dit le porte-parole, sachez que si vous bloquez les utilisateurs avec certaines méthodes, vous risquez de bloquer complètement le robot au passage. En effet, le choix des utilisateurs américains est parfait, car GoogleBot crawle essentiellement depuis les Etats-Unis (sinon, il crawle pour des repères géographiques dans d'autres endroits du monde). De ce fait, si vous bloquez les adresses IP américaines, vous bloquez GoogleBot par la même occasion, et donc son crawl et son indexation finale. Cela peut vite être déroutant...

Voici une méthode qui peut être préjudiciable pour GoogleBot par exemple, via un fichier .htaccess :

Histoire d'une petite mésaventure chez OVH

Le fichier .htaccess que je viens de vous fournir vient d'une histoire que j'ai vécu sur mon site www.internet-formation.fr. Je me suis retrouvé un jour à dépasser le seuil de bande passante autorisé par l'hébergeur OVH (j'avais une offre non illimitée à ce sujet), j'avais donc une page blanche lorsque je me rendais sur mon site.

J'ai appelé OVH pour comprendre comment un petit site vitrine fait à la main pouvait générer autant de bande passante. Mon interlocuteur m'a répondu que j'avais dû subir des attaques de déni de service (DDOS) en vérifiant les logs, et m'avait donc conseillé de bloquer les IP russes, chinoises et américaines. En effet, moult piratages proviennent de ces pays, et il semblait donc logique de commencer par bloquer ces pays afin de trouver la source du problème. Encore un peu (plus) naïf à l'époque, je me suis exécuté en me basant sur ce fichier .htaccess fourni par OVH dans sa documentation...

Sauf que, bloquer les IP américaines signifie aussi bloquer GoogleBot (et les IP russes YandexBot, et les IP chinoises BaiduSpider, etc.). Donc quelques jours plus tard, la Google Search Console m'a indiqué des problèmes massifs de crawl, avec désindexation à la clé. Heureusement, j'ai vite tilté et j'ai supprimé ces consignes "anti-DDOS" fournies par OVH. J'ai pris soin de les rappeler, de leur dire à quel point leurs conseils étaient exemplaires, et j'ai commencé à quitter OVH deux mois après au profit d'o2switch (sur lequel je n'ai jamais eu d'attaques DDOS à ce jour). Bilan, ce mauvais conseil me permet de confirmer ce qu'avance John Mueller, et m'a fait quitter OVH. :D