Le protocole Sitemap indiquait jusqu'à maintenant que les fichiers sitemap.xml ne devaient pas dépasser les 10 Mo maximum. Désormais, la page officielle du protocole d'aide à l'indexation précise que ces mêmes fichiers peuvent grimper jusqu'à 50 Mo par fichier. Face à cette nouvelle, le moteur de recherche Bing a rapidement réagit, indiquant à ses utilisateurs la prise en compte effective de ce changement intéressant dans certains cas, avant que Google ne dégaine également.
Voici un extrait de la F.A.Q. officielle qui mentionne discrètement ce changement de prise en compte. La taille indiquée est bien de 50 Mo désormais, bien que le nombre d'URL autorisé se maintienne à 50000 adresses web maximum par fichier sitemap.xml.
Dans son communiqué, Bing explique en partie ce changement de prise en compte du protocole. La firme précise bien que la majorité des fichiers Sitemap n'atteignent pas l'ex-limite des 10 Mo par fichier, mais avec la recrudescence d'URL à rallonge ou contenant des paramètres (query string) interminables, les fichiers se retrouvent parfois à dépasser cette limite de poids historique. Pour faire face à ces problèmes de plus en plus présents aux yeux du moteur de Microsoft, la firme a décidé d'appliquer le changement instauré par le protocole et de prendre en compte les fichiers Sitemap plus lourds.
En théorie, un fichier Sitemap peut être compressé en Gzip, et dans ce cas, sa taille compressée ne doit pas excéder 50 Mo, c'est ce que précise la documentation officielle du protocole. Toutefois, le moteur américain semble avoir pris une petite liberté à ce sujet puisque le communiqué de Fabrice Canel, responsable du crawl et de l'indexation de Bing, indique que la taille du fichier Gzip décompressé ne doit pas dépasser la nouvelle limite de taille. Certes, cela ne devrait pas fondamentalement changer les choses, mais la nuance est à noter... ;-)
Hormis ce changement, les fichiers Sitemaps XML restent identiques à tout point de vue, avec toujours l'usage de 50000 balises <loc>...</loc> maximum par fichier, la présence optionnelle de trois autres balises descriptives, etc. Pour rappel, le fichier Sitemap peut être soumis dans les outils pour webmaster de Google, Bing, Yandex et Baidu notamment, mais aussi par une directive du fichier robots.txt. Sinon, il est possible d'envoyer une requête "ping" auprès des moteurs de recherche compatibles avec le protocole, sous la forme URL_DU_MOTEUR/ping?sitemap=URL_SITEMAP.XML.
Google a également réagit
Google a publié un tweet sur son compte officiel pour les webmasters afin d'indiquer que le moteur de recherche prend lui aussi en compte la modification de taille des fichiers Sitemaps XML.