13 / 01 / 2017
#Harvard Business Review

Big Data : quand les prédictions sont efficaces… même sans data

  • Linkedin
En algorithmique, il est possible de faire des prédictions efficaces même lorsqu’on ne pense pas avoir assez de données à traiter : c’est l’apprentissage par transfert, qui prend comme source des données approximées, mais pertinentes. La recette des data scientists d’eBay, via la Harvard Business Review.

Pour être pertinents, les statisticiens doivent parfois ne pas être trop puristes, et faire appel à des données autres que celles dont ils disposent. C’est en tout cas la recommandation de Kira Radinsky, qui dirige le département de data science chez eBay, et de Yoni Acriche, data scientist de la même société, dans une tribune co-rédigée pour la Harvard Business Review.

Leur parti pris : pour qu’une prédiction soit efficace, il ne s’agit pas de construire des modèles qui se basent uniquement sur les données passées du même type d’événement que l’on cherche à prédire. Ces données « historiques » représentent bien souvent un petit échantillon, qui plus est possiblement obsolète. Le biais obtenu vient alors du fait que l’algorithme s’auto-alimente de ces données peu pertinentes…

Selon les deux data scientists, les modèles statistiques les plus efficaces font appel à l’apprentissage par transfert : on entraîne le modèle avec d’autres données, plus récentes, tirées de domaines similaires et qui nous semblent mieux représenter ce que l’on essaie, en l’occurrence, de prédire.

L’apprentissage par transfert est d’autant plus mobilisable dans les cas où l’on souhaite prédire des événements potentiellement inattendus… Typiquement, si Donald Trump, d’après le plus célèbre média américain d’analyse statistique, FiveThirtyEight, n’avait à l’origine que 2% de chance d’être le candidat du Parti républicain pour la présidentielle de 2016, c’est parce que ce modèle s’appuyait sur des données des anciennes élections. Même multiples, agrégées, redressées, ces données étaient tout simplement insuffisantes : pour les deux analystes, mieux aurait valu « transférer » les données des récents résultats des partis populistes en Europe.

Pour en savoir plus, c’est par .