John Mueller, le porte-parole de Google, a indiqué dans le forum des webmasters du moteur de recherche qu'il faut rester vigilant et éviter de bloquer les utilisateurs américains sur les sites web, au risque de bloquer également GoogleBot. En effet, même si le robot n'est pas un humain, il utilise très régulièrement une IP américaine, et risque donc de ne pas pouvoir crawler et indexer les pages web en cas de blocage.
Voici la déclaration de John Mueller sur le forum de Google au sujet du blocage des utilisateurs sur le web :
En général, nos guidelines disent que vous devez montrer à GoogleBot le même contenu que celui que vous souhaitez afficher aux autres utilisateurs de la zone géographique qu'il est censé crawler. Donc si vous bloquez les utilisateurs aux Etats-Unis, alors vous devriez aussi bloquer GoogleBot quand il crawle aux Etats-Unis (ce qui est généralement le cas).
En d'autres termes, John Mueller explique qu'en théorie, il faut bloquer les contenus à la fois à GoogleBot et aux utilisateurs d'une même zone, mais qu'idéalement, il convient d'afficher les mêmes contenus partout dans le monde.
Par opposition à ce que dit le porte-parole, sachez que si vous bloquez les utilisateurs avec certaines méthodes, vous risquez de bloquer complètement le robot au passage. En effet, le choix des utilisateurs américains est parfait, car GoogleBot crawle essentiellement depuis les Etats-Unis (sinon, il crawle pour des repères géographiques dans d'autres endroits du monde). De ce fait, si vous bloquez les adresses IP américaines, vous bloquez GoogleBot par la même occasion, et donc son crawl et son indexation finale. Cela peut vite être déroutant...
Voici une méthode qui peut être préjudiciable pour GoogleBot par exemple, via un fichier .htaccess :
# Blocage des IP par pays SetEnvIf GEOIP_COUNTRY_CODE RU BlockCountry # Russie SetEnvIf GEOIP_COUNTRY_CODE DE BlockCountry # Allemagne SetEnvIf GEOIP_COUNTRY_CODE US BlockCountry # Etats-Unis SetEnvIf GEOIP_COUNTRY_CODE CN BlockCountry # Chine SetEnvIf GEOIP_COUNTRY_CODE GB BlockCountry # Grande-Bretagne SetEnvIf GEOIP_COUNTRY_CODE KR BlockCountry # Corée SetEnvIf GEOIP_COUNTRY_CODE KP BlockCountry # Corée SetEnvIf GEOIP_COUNTRY_CODE KZ BlockCountry # Kazakhstan SetEnvIf GEOIP_COUNTRY_CODE BY BlockCountry # Bellarussie Deny from env=BlockCountry
Histoire d'une petite mésaventure chez OVH
Le fichier .htaccess que je viens de vous fournir vient d'une histoire que j'ai vécu sur mon site www.internet-formation.fr. Je me suis retrouvé un jour à dépasser le seuil de bande passante autorisé par l'hébergeur OVH (j'avais une offre non illimitée à ce sujet), j'avais donc une page blanche lorsque je me rendais sur mon site.
J'ai appelé OVH pour comprendre comment un petit site vitrine fait à la main pouvait générer autant de bande passante. Mon interlocuteur m'a répondu que j'avais dû subir des attaques de déni de service (DDOS) en vérifiant les logs, et m'avait donc conseillé de bloquer les IP russes, chinoises et américaines. En effet, moult piratages proviennent de ces pays, et il semblait donc logique de commencer par bloquer ces pays afin de trouver la source du problème. Encore un peu (plus) naïf à l'époque, je me suis exécuté en me basant sur ce fichier .htaccess fourni par OVH dans sa documentation...
Sauf que, bloquer les IP américaines signifie aussi bloquer GoogleBot (et les IP russes YandexBot, et les IP chinoises BaiduSpider, etc.). Donc quelques jours plus tard, la Google Search Console m'a indiqué des problèmes massifs de crawl, avec désindexation à la clé. Heureusement, j'ai vite tilté et j'ai supprimé ces consignes "anti-DDOS" fournies par OVH. J'ai pris soin de les rappeler, de leur dire à quel point leurs conseils étaient exemplaires, et j'ai commencé à quitter OVH deux mois après au profit d'o2switch (sur lequel je n'ai jamais eu d'attaques DDOS à ce jour). Bilan, ce mauvais conseil me permet de confirmer ce qu'avance John Mueller, et m'a fait quitter OVH. :D