Yahoo Labs a annoncé le 14 janvier 2016 le déploiement du plus grand programme de machine learning ouvert aux utilisateurs. Ce ne sont pas moins de 1,5To de données recensées entre février 2015 et mai 2015 au sein des interactions utilisateurs qui sont désormais usitées pour en faire profiter les internautes sur Yahoo News.
Le communiqué indique que le machine learning est déjà utilisé dans le ranking des recherches ou encore dans la publicité en ligne de Yahoo. Ces avancées ont permis au laboratoire de la firme de travailler sur ce grand programme fondé sur les échanges de données et interactions des utilisateurs avec les actualités de Yahoo News. En d'autres termes, selon la société, ce serait le premier programme du genre issu des données réelles des utilisateurs autour de vrais produits. Ce ne sont pas moins de 20 millions d'utilisateurs anonymes qui ont fait partie du programme, permettant ainsi d'obtenir près 1,5To de données d'interactions (non compressées ici).
Le "dataset" de Yahoo News est entièrement basé sur un échantillon d'interactions utilisateurs (anonymes) avec plusieurs propriétés de Yahoo provenant des actualités. Cela inclut la page d'accueil, Yahoo News à propremer parler, Yahoo Sport, Yahoo Finance, Yahoo Movies et Yahoo Real Estate. Ce sont des masses d'interactions possibles qui ont été compilées et passées à la moulinette des outils de machine learning.
L'objectif de Yahoo est de proposer un programme de recherche indépendant à grande échelle en termes de machine learning (et à usage non commercial). La dataset complet propose les interactions recensées mais aussi des données démographiques (âge, sexe, géolocalisation) provenant des utilisateurs anonymes. Les articles sont présentés avec leur titre, un résumé et des phrases clés. Les interactions sont horodatées (heure locale) et proposent des informations sur le processus qui a permis à l'utilisateur d'accéder aux News.
Yahoo espère que ce programme de grande envergure autour du machine learning permettra à d'autres scientifiques et chercheurs de progresser sur ce sujet. Certes, toutes les sociétés sont dans cette phase et souhaitent devenir les pionniers, donc nous risquons de voir d'autres programmes similaires dans les années à venir. Google a déjà commencé en fournissant sa technologie Tensor Flow et c'est maintenant Yahoo qui propose son ensemble de données d'interactions via Yahoo News. À qui le tour maintenant ? :D