Tribune : les données peuvent-elles se tromper ?
Par Nicolas Vandenbergue, Dirigeant et associé d’Effidic, entreprise experte en data
L’étude date de 2012, mais elle a gardé toute son actualité. Gary King, politologue à Harvard et expert en data, tentait alors de prédire les variations du chômage aux USA, via l’analyse des réseaux sociaux. Résultat : l’augmentation importante de l’utilisation du mot « jobs » (travail) dans les conversations semblait indiquer une hausse importante des demandes d’emploi.
Sauf qu’il s’agissait d’une confusion trompeuse avec la mort de Steve Jobs également très commentée sur les réseaux sociaux à la même époque…
Que nous apprend cette anecdote ?
Sans analyse, la data n’est rien
La prolifération des données est aujourd’hui telle que les probabilités d’erreurs de collecte, d’interprétation ou d’analyse sont importantes, particulièrement dans les organisations. D’où l’importance, préalablement à tout projet data, de comprendre les données qui serviront de socle d’interprétation et de saisir le contexte global de leur provenance.
Notre analyse des données doit intégrer ce principe selon lequel « corrélation n’est pas causalité ». En été, par exemple, l’augmentation des ventes de glace sont corrélées à celle des crèmes amincissantes sans en être (évidemment !) la cause…
Par ailleurs, les entreprises ne peuvent être réduites à leurs datas : des données de vente en hausse ne reflètent peut-être pas forcément la qualité du produit mais peut-être la qualité des actions commerciales…C’est pourquoi cette analyse est de plus en plus dévolue à des spécialistes dont c’est le métier : data scientist, data analyst, etc. qui vont recouper l’ensemble des informations.
Oui, la data peut se tromper
Les algorithmes, plus particulièrement, ne sont pas conçus pour traiter des imprévus. Ils créent des modèles basés sur ce qui s’est déjà passé, ce qui peut amener la « machine » à se tromper. Toute situation nouvelle demande un temps d’adaptation à ces algorithmes.
La solidité de ces algorithmes requiert également un travail en amont de recueil et de collecte extrêmement sensibles. De la qualité des informations recueillies (et de leur harmonisation) découlera la qualité de l’algorithme et la faculté de réduire les erreurs. Les anglais, avec leur sens de la formule, résument bien cela : « garbage in, garbage out ». Si vous saisissez des déchets, il en sortira des déchets…
La quantité de données recueillie peut aussi représenter un enjeu : il est en effet tentant d’ajouter toujours plus de critères et de données en pensant ainsi améliorer ses capacités d’analyse. Le risque est ici d’en faire toujours trop en ajoutant de plus en plus de critères mais avec le risque de s’éloigner ou de complexifier la réalité.
L’itération peut être une réponse
Les biais intellectuels reproduits par certains algorithmes de traitement de données sont, à juste titre, régulièrement dénoncés. Dans son ouvrage « Les algorithmes font-ils la loi ? », Aurélie Jean souligne le caractère sexiste et/ou raciste de certains algorithmes liés à des cartes de crédit ou à des logiciels de reconnaissance faciale. La raison ? Les concepteurs de ces algorithmes, principalement des hommes blancs ne font que reproduire leurs propres préjugés à travers l’outil mathématique.
En réponse, les professionnels des données (consciencieux) travaillent généralement par itération, ce qui permet de mieux gérer les changements pouvant apparaître au fil de l’eau et corriger le tir, si ces biais apparaissent. Cette méthode de travail nécessite un travail de documentation et « d’historicisation » du parcours des données, qui permettent précisément ces corrections.
Passer outre les biais de jugement exige non seulement de traiter la donnée avec éthique mais également de travailler en étroite collaboration avec les métiers qui composent l’entreprise.
En effet, ce sont eux, les « consommateurs » finaux des données (qu’ils proviennent de la comptabilité, du marketing, du commerce ou de la production), qui sauront donner toute la valeur à une data correcte, juste, éthique et utile concrètement dans leur exploitation.
La Tribune a été publiée le 20 septembre 2022 dans la version en ligne des Echos : https://www.lesechos.fr/idees-debats/cercle/opinion-les-donnees-peuvent-elles-se-tromper-1789180