Balises author et title dans les sitemaps XML ?

Mathieu Chartier Référencement 3 commentaires

J'étais en pleine fouille au sein des brevets de Google (quand on aime, on ne compte pas... :D) lorsque j'ai tilté sur un point qui était presque hors de propos concernant le brevet en question. Je m'explique...

Je lisais tranquillement un brevet concernant les sitemaps XML et les crawlers de plans de site lorsque j'ai aperçu dans une capture des balises qui ont attiré mon attention. En effet, nous connaissons tous les balises classiques qui composent un Sitemap de documents web (hors vidéo, images, etc.). Pour rappel, les voici :

  • <urlset>...</urlset> pour encadrer le groupe d'URL ;
  • <url>...</url> pour chaque URL à indexer qui contient 4 sous-balises (dont 3 optionnelles) :
    • <loc>...</loc> (obligatoire) pour localiser le document sur la Toile ;
    • <changefreq>...</changefreq> pour donner la fréquence moyenne de modification de la page (contenus, etc.) ;
    • <priority>...</priority> pour indiquer la priorité à accorder au document ciblé lors de l'indexation ;
    • <lastmod>...</lastmod> pour préciser la dernière date de modification du document.

Jusque-là tout va bien, je n'ai perdu personne car nous connaissons ces informations issues de la documentation fournie par Google ou via le site officiel du protocole Sitemap. Or, dans le brevet "Web Crawler Scheduler that Utilizes Sitemaps from Websites" publié le 29 août 2013, les captures et les descriptions associées laissent penser que les métadonnées relatives aux URL inscrites dans les Sitemaps XML peuvent être encore améliorées, comme le montre l'illustration suivante.

Google-Sitemaps-XML-author-title-US20130226898A1Si nous résumons, la capture issue du brevet de Google sur les Sitemaps XML montre qu'au moins deux autres nouvelles balises pourraient exister au sein du bloc <url>...</url> de nos plans de site adorés (author et title)... En lisant avec davantage d'attention la description de la Figure 1 du brevet, Google précise ceci :

"The optional metadata may include one or more of the following: a last modification date 124 of the document specified by the URL, a change frequency 126 (also called the update rate) of the document specified by the URL, a document title 127, a document author 129, and a priority 128 of the document specified by the URL. The change frequency 126 and priority 128 may be specified by the website operator."

En d'autres termes, Google affirme qu'un bloc d'URL dans un fichier Sitemap XML contient des métadonnées optionnelles qui peuvent être une date de modification, une fréquence de changement des contenus, une priorité mais aussi un titre de document et un auteur de document. Ce sont ces deux derniers éléments qui ne sont cités à aucun autre endroit, ni même sur le site officiel du protocole Sitemaps (et encore, nous pouvons apercevoir des points de suspension qui laissent à penser que d'autres métadonnées de Sitemap XML pourraient être ajoutées).

Devons-nous en déduire que les balises <author>...</author> et <title>...<title> des Sitemaps ont été introduites par erreur dans le brevet ou plutôt qu'elles n'ont jamais été mises en avant par la firme ? Aussi, devons-nous penser qu'elles peuvent avoir un rôle pour renforcer l'indexation des pages ou au moins le "poids" de l'auteur (notamment avec les notions d'AuthorShip et d'AuthorRank/AgentRank) ? Difficile de répondre actuellement, mais une chose est certaine, les tests vont commencer de mon côté pour confirmer ou infirmer leur existence...

De plus, le brevet précise également que la section 140 de l'image ("per-site information" au sein du Sitemap Index) permettrait d'ajouter des balises pour préciser certains éléments tels que :

  • la langue du site avec <language>...</language> ;
  • les coordonnées géographiques sous la forme <location>latitude, longitude</location> ;
  • une vitesse d'indexation en fonction d'intervalles de temps données avec les balises <crawl_rate from=08:00 UTC to =17:00 UTC>medium</crawl_rate> et <crawl_rate from=17:00 UTC to =8:00 UTC>fast</crawl_rate> par exemple.

Je vous avoue que je n'avais jamais visionné en détail ces brevets récents sur les générateurs et les fichiers Sitemaps XML mais je pensais encore moins tomber sur ce genre d'informations. En définitive, je reste un peu sans voix car je me demande bien pourquoi le site officiel du protocole Sitemap ne mentionne pas ces balises si elles ont un rôle particulier et intéressant. En outre, pourquoi Google ne les mentionne pas non plus au sein de sa documentation officielle s'il compte les utiliser ?

Actuellement, les balises provoquent des avertissements dans Google Webmaster Tools, mais je dois préciser que le brevet n'en est qu'à l'état de demande, ce qui ne confirme donc pas que les éléments cités ci-dessus soient déjà en place (ou deviennent un jour actifs...). Selon l'interface pour les webmasters de Google, il ne s'agit pas d'erreurs à proprement parler, mais bien d'avertissements envers des balises non reconnues. Il ne reste plus qu'à faire des tests sur la durée et à vérifier l'existence confirmée ou non de ces éventuelles métadonnées complémentaires...

Je mettrai l'article à jour si j'en apprends davantage après quelques tests. En attendant, n'hésitez pas à intervenir et à m'en dire plus si vous avez des idées sur le sujet...