Data Lake

James Dixon, ça vous dit quelque chose ? C’est l’actuel CTO de Phuzzling et accessoirement celui qui a popularisé le concept de « Data Lake ».

Le « Data Lake » désigne le lieu de stockage des données d’ une organisation, quelles que soient leur nature ou leur source. Fichiers CSV, PDF, e-mails, etc.

Ils ont donc l’avantage de pouvoir inclure tout type de données – qu’elles soient structurées ou non – pour être un point de départ à tout projet Data.

Mais (car il y a un mais), les lacs de données ne prennent pas forcément en compte l’usage futur qui sera fait de ces données.
Résultat : le stockage rapide et volumineux qu’il permet, peut se faire au détriment de la qualité et de la fiabilité des données entrantes.

Un lac de données peut donc se transformer en « Data Swamp » (marécage de data) s’il n’y a pas de règles de nettoyage et d’intégration des données. C’est pourquoi on peut lui préférer une approche plus ordonnée appelée « Smart Data ».