Data News

L’approche « Smart Data », une démarche responsable et éthique

Les projets d’exploitation de données ont tous pour point commun la création d’un lieu de stockage de ces Data. Celui-ci peut prendre la forme d’un « Data Lake » (« lac de données »), qui peut vite se transformer en déversoir si certaines précautions ne sont pas prises au préalable 

Chez Effidic, nous privilégions une approche « Smart Data », plus stratégique, plus responsable… et plus durable de l’exploitation des données en entreprise.

Data Report Free Pik

Qu'est-ce qu'un data lake ?

Le Data Lake, ou « lac de données » est une expression inventée par James Dixon, CTO de l’entreprise Pentaho, pour désigner une solution de stockage de données. Les Data Lake ont cette particularité qu’ils permettent l’inclusion de tout type de données – qu’elles soient structurées ou non – pour être un point de départ à tout projet Data. Il s’agit bien souvent de projets de « Big Data », c’est-à-dire qui impliquent la manipulation de grandes quantités de données.  

Cette capacité de stockage sans schéma d’entrée imposéfait du Data Lake un outil précieux et peu onéreux pour le stockage.  

En revanche, le Data Lake ne prend pas forcément en compte l’usage futur qui sera fait de ces données. Résultat le stockage rapide et volumineux qu’il permet, peut se faire au détriment de la qualité et de la fiabilité des données entrantes. On appelle alors « Data Swamp » ces entrepôts de données qui rassemblent des données inutiles. 

La poussière sous le tapis

La baisse des tarifs de stockage numérique favorise l’émergence de ces « Data Lake » en entreprises, même de taille moyenne, qu’ils soienhébergés sur un serveur local ou en cloudAinsi, le Data Lake peut vite se transformer en lieu de stockage désorganisé, comme un tapis en dessous duquel on balaie bien vite des masses de donnéesUn syndrome de procrastination, en quelque sorte (« on rangera plus tard ») doublé d’un sentiment de toute puissance sur nos données (« tout est là ! » 

Mais ce sentiment est trompeur car l’endroit de stockage des données n’aura une véritable utilité que si elles sont nettoyées et catégorisées avant. 

Smart Data vs. Big Data

Pour contrer ce défaut du Data Lake, il existe une autre approche qui permet d’analyser les données collectées immédiatement sans passer par ce système d’entrepôt. Il s’agit du « Smart Data » (qui pourrait être traduit par « Données intelligentes » et que l’on oppose souvent au Big Data). Cette approche propose donc de se passer d’un système centralisé.  

Le « Smart Data » consiste à extraire les données les plus pertinentes pour répondre à un usage précis. C’est une approche indispensable pour des applications telles que les voitures autonomes, par exemple. Elles sont extrêmement utiles également pour déceler des évolutions rapides qui nécessitent une réaction tout aussi rapide (fraudes comptables, changements de comportements de consommateurs, etc.) 

Le "Smart Data", comment ça marche ?

Chez Effidic, nous privilégions l’approche Smart  Data car elle garantit une réflexion stratégique préalable et une utilisation éthique des données : pas de stockage inutile et énergivore, conformité avec le RGPD, entre autres.  

1. Comprendre le besoin

C’est pourquoi dans la première étape d’une approche Smart Data, nous étudions les besoins fonctionnels de l’entrepriseNous nous posons ces deux simples questions : quelle réponse souhaitons-nous obtenir à la problématique ? Comment les Data peuvent nous y aider ?  
Cette étape est suivie d’un travail d’audit et d’identification des sources de données correspondant à ces questions.  

2. N'utiliser que les données nécessaires

C’est là où se matérialise l’approche « Smart ». Si la problématique relève d’un métier précis de l’organisation, nous allons examiner la source de données correspondant à ce métier, la nettoyer, dédoublonner et catégoriser les informations entrantes avant de les déverser dans notre plateforme de données. 

Ce tri permet une véritable consolidation des Data, et non pas un cumul inutile d’informations.  

Prenons un exemple : si la commande d’un produit est identifiable par un N°, nous allons faire en sorte que cet identifiant ne soit utilisé qu’une seule fois pour que cette donnée (la commande) ne soit pas dupliquée au sein du système d’informations. Idem pour les identifiants de client ou une référence produit.  

Une fois consolidée, cette plateforme de donnée sera la porte d’entrée pour un usage spécifique des données et permettra à terme, de nouveaux usages.  

Pour conclure

En résumé, l’approche Smart Data, même si elle représente un travail important, est un investissement pour l’avenir. Elle permet d’acquérir des réflexes de tri dans ses données et de prévenir un stockage inutile, coûteux et dans certains cas, non-conformes au RGPD 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.