Blog technique

Créer un pipeline d’intégration de données pour PowerBI avec Snowflake

Comment mettre en place un pipeline d’intégration de données dans Snowflake et réutiliser ces données pour concevoir des rapports PowerBi ? Nos réponses dans cet article.

Aujourd’hui les données sont partout dans l’entreprise et leur stockage devient un enjeu crucial. Pourtant, l’accès aux infrastructure de stockage nécessaires n’est pas à la portée de toutes les organisations.
C’est pourquoi le stockage en Cloud devient une solution attrayante. Nous nous intéresserons ici à la solution « Snowflake« , une plateforme qui a l’avantage de ne facturer que l’utilisation des données et non pas le stockage. « 

1. Mise en place de Snowflake

1.1 Création d'un entrepôt

Pour ce tutoriel, nous allons créer une Warehouse (ou « entrepôt ») de test :

Entrepôt Snowflake
Create Warehouse

Cette Warehouse est nécessaire pour toutes les requêtes et les opérations DML, y compris le chargement de données dans les tables. La taille de cet entrepôt définira le nombre de serveurs constituant le cluster.

1.2 Création d'une base de données.
Data Base Creation
BDD Test

Cette base de données va servir de base pour notre test. Nous n’avons pas besoin de créer de table dans notre base à l’heure actuelle puisque nous allons la générer avec Talend.

2. Import des données avec Talend

2.1 Création de la connexion Talend / snowflake

Commençons par créer une connexion vers Snowflake dans Talend. 

Métadonnées > Snowflake > Connexion à snowflake

Paramétrage :

Compte : Vous trouverez cet identifiant sur l’interface Snowflake ( pattern : xz12345 ).

Région Snowflake : si votre région n’est pas disponible dans le dropdown, pas de panique ! Vous pouvez définir votre code région dans Advanced > Utiliser une région personnalisé.

Vous trouverez la liste des code ici.

Connexion Snowflake
2.2 Upload des données vers Snowflake

Pour illustrer cet article, nous avons pris les données « openfood » disponibles dans l’Open Data. Ces données contiennent les articles alimentaires vendus en France ainsi que leur nutriscore / composition.

L’upload de ces données sur Snowflake se fera via un job simple.

Job Talend
tdboutput

Nous allons créer la table dans le tDbOutput

Nous avons choisi ici de laisser le commit automatique sur le tDbConnect mais vous pouvez ajouter un tDbCommit à la place du tDbClose.

Attention, il vous sera surement nécessaire d’ajouter des droits sur l’entrepôt, la base de données et le schéma nouvellement créé depuis l’interface Snowflake.

Nos données sont maintenant sur Snowflake.
tablewithdata

3. Lecture des données et reporting Power BI

3.1 Ajout de la source de données Snowflake dans powerBI

Pour ajouter une source de données : Obtenir des données > Plus > Snowflake. 

Snowflake dans powerBI​

Vous trouverez le numéro de compte sur votre profile Snowflake ainsi que votre région. Le serveur doit ressembler à ceci : yz12345.eu-central-1.snowflakecomputing.com (ce serveur est envoyé par mail lors de votre inscription à Snowflake ).

Power Bi vous demandera ensuite votre username et password afin d’accéder aux données.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.