GoogleBot crawle le web mais soumet aussi des formulaires à la volée

Mathieu Chartier 16 septembre 2015 à 00:30 SEO 2 commentaires

GoogleBot, robot du moteur de recherche GoogleJohn Mueller, le porte-parole de Google, a donné des précisions sur GoogleBot, le célèbre robot du moteur de recherche, lors d'un hangout Google+ du 11 septembre 2015 (en vidéo ci-dessous, autour de la 29e minute).

Nous savons désormais que Google a bien évolué depuis sa création. Il est désormais capable de crawler profondément les pages web, de lire le Javascript et le CSS, de récupérer des données relatives aux images, etc. Mais ce que nous ne savons pas avec certitude, c'est si le robot de Google est capable de soumettre des formulaires pour gratter davantage dans les pages.

La réponse nous a été donnée par John Mueller, qui précise que GoogleBot sait soumettre des formulaires et qu'il le fait dans certains cas.

Le porte-parole précise que la soumission de formulaires est réalisée dans des situations spécifiques, notamment lorsque le robot pense qu'un formulaire peut dissimuler des contenus susceptibles d'être pertinents pour les utilisateurs. John Mueller cite notamment des moteurs de recherche interne. Nous pouvons également penser à des navigations via formulaire (comme sur oscaro.com par exemple, sans vouloir faire de publicité dissimulée ^^) qui bloquerait l'indexation de certaines pages (ce n'est plus le cas pour Oscaro, juste pour l'anecdote...).

Voici les déclarations complètes de John Mueller à ce propos :

Nous soumettons des formulaires dans certaines situations très spécifiques lorsque nous pensons que cela ressemble à un formulaire de recherche et que nous ne recevons pas tout le contenu susceptible d'être disponible sur le site web. Dans ce genre de situation, nous tentons d'indiquer plusieurs mots clés du contenu existant pour savoir si nous pouvons trouver davantage de données et de pages. Mais cette situation est très rare. Ce n'est généralement pas le cas.

Dans la pratique, les formulaires ne nous dirigent pas vers des contenus nouveaux et intéressants. Mais la recherche via des formulaires peut aussi nous conduire vers des contenus que nous ne pouvons pas trouver autrement, en particulier si un site ne dispose pas de navigation ou de sitemap. Si nous constatons que la page d'accueil propose juste un formulaire de recherche, nous soupçonnons qu'il contient beaucoup de contenus intéressants en amont, mais que nous ne pouvons pas atteindre dans notre crawl classique. C'est une situation dans laquelle nos algorithmes pourraient se dire qu'il faut faire une requête sur un mot clé pour voir ce que nous pouvons trouver.

Ces déclarations me semblent très intéressantes car elles indiquent que GoogleBot peut interpréter un formulaire comme une porte d'entrée vers des contenus existants et masqués, ce qui peut changer la donne dans bien des cas.

Prenons l'exemple des méthodes de désindexation, de PageRank Sculpting ou de bot herding (gestion du crawl des robots) relatives à des gestions de formulaire. Elles pourraient tomber à l'eau dans bien des cas. En effet, il arrive que des webmasters optent pour une navigation via formulaire pour bloquer les robots d'indexation et optimiser leur netlinking interne, cela pourrait tomber à l'eau si ce phénomène de soumission se multipliait à l'avenir...

Tutoriel vidéo - GoogleBot crawle le web mais soumet aussi des formulaires à la volée