Bing a publié un long article sur l'usage de l'intelligence artificielle et les données récupérées par les bots lors du crawl. Si certains éléments sont déjà bien connus des spécialistes, il est intéressant de voir cette transparence sur le sujet. Bing va même publié plusieurs articles dans une série dédiée à aider les développeurs et webmasters à mieux comprendre le moteur de recherche (le prochain article sera sur les API de Bing).
Le communiqué évoque en premier lieu le web 3.0 par le biais de la recherche conversationnelle et sémantique. En effet, cette évolution logique vers la recherche en langage naturel amène les moteurs à s'appuyer sur l'intelligence artificielle, le machine learning et le big data. Tout cela entremêlé permet notamment de faire évoluer les noeuds et entités utilisés par le Knowledge Graph par exemple, et donc aussi par le moteur.
Bing a développé plusieurs chatbots (robots à l'intérieur d'applications et notamment de messagerie) pour étudier via l'intelligence artificielle le langage naturel. À ce jour, sachez que Google travaille activement sur des chatbots pour Google Now notamment, tandis que Microsoft en a intégré via Cortana dans Windows 10, etc. Les deux chatbots populaires de Bing sont Xiaoice en Chine et Rinna au Japon, et s'appuient sur plus de 90 millions d'utilisateurs. Avec Cortana qui recueille les données de plus de 133 millions d'utilisateurs (construit sur les services de Bing), le moteur de recherche a donc une base conséquente de départ, pour ne citer que ces chatbots...
Grâce à ces données, Microsoft et Bing s'efforcent de comprendre le comportement des utilisateurs (intentions de recherche, contexte, homonymie...), la recherche en elle-même (informations, idées recherchées...) ou encore ce qui se cache derrière (développement de l'intelligence artificielle, recherche filtrée ou sécuritaire, etc.). Ainsi, Bing est capable de facilement déterminer si une recherche implique un filtrage des résultats sensibles ou non, si elle dirige vers l'affichage d'images ou non, etc. Un moteur de recherche comme on les connait, mais cela est plus simple sur le papier qu'à produire... :D
L'article rédigé par l'équipe de Bing explique également comment fonctionne le Knowledge Graph à multiples domaines du moteur. Ici, rien de nouveau, il s'agit d'un croisement de données via un système de noeud et d'entités. Un noeud central peut donc affecter plusieurs entités à divers étages, comme cela se passe pour tous les graphes de connaissances. On apprend tout de même par un exemple fourni par Bing que l'application Messenger sur mobile contient un robot appelée Sportscaster qui permet aux utilisateurs d'être tenu au courant des informations sportives si nécessaire. Il faut imaginer que ce type de bot va se multiplier pour tous les domaines existants à l'avenir...
Enfin, nous apprenons que Bing a mis en place de nombreux filtres et robots d'analyse des contenus et des images pour la sécurité des informations affichées. En effet, au contraire de Qwant qui propose un moteur spécifique pour les enfants (Qwant Junior), Google et Bing en sont encore à filtrer leur index classique. Pour ce faire, ils doivent mettre en oeuvre des systèmes pour filtrer les résultats à la volée afin de n'afficher que ce qui est sans risque, etc. Bing a opté pour un système de reconnaissance des formes dans les images mais aussi pour une analyse sémantique des contenus. Ainsi, les robots mettent à jour les "fiches de données" de chaque résultat via des paramètres précis. Dans la capture ci-dessous, on observe par exemple les paramètres "is Adult Content" et "is Racy Content" (avec leur valeur attribuée) passée sur False (booléen), le résultat est donc sans risque.
Les informations fournies par Bing ne vont pas révolutionner le monde mais j'apprécie vraiment cette transparence et le fait que certains noms soient divulgués par ci par là (même si nous en connaissions déjà certains). Espérons que la firme continue en ce sens, c'est le meilleur moyen de se faire apprécier du public et des développeurs et SEO surtout.