Sécurité, performance et IA : la nouvelle ère data d’une mutuelle santé

L’état des lieux
Au départ, l’architecture reposait sur un trio bien connu : Jenkins, Talend et PostgreSQL.
Un socle robuste… mais qui montrait ses limites. Les flux entrants et sortants étaient nombreux, les performances des traitements commençaient à peiner, et certaines contraintes de sécurité n’étaient pas pleinement respectées. La maintenance et la supervision étaient devenues complexes, et les cycles de développement s’allongeaient, rendant chaque évolution lourde et coûteuse.
Les contraintes à respecter
Le contexte imposait un cadre strict. L’hébergement devait se faire chez un Hébergeur de Données de Santé (HDS), avec une sécurisation totale des données des adhérents : traçabilité des accès, authentification multifacteur (MFA), sauvegardes régulières, chiffrement intégral et mise à jour continue des systèmes et packages.
Une auditabilité complète était requise, avec vérification d’intégrité, et la capacité de répondre aux demandes des commissaires aux comptes, auditeurs internes, ou auditeurs externes mandatés par l’ACPR ou le conseil d’administration.
Côté performance, l’intégralité de la chaîne devait s’exécuter en une seule nuit, et l’entrepôt devait répondre instantanément aux requêtes SQL de la journée.
Enfin, le système devait s’interfacer sans friction avec l’outil BI Suadeo, le VPN et le pare-feu Azure, et s’appuyer sur Azure Active Directory pour la gestion centralisée des identités et habilitations.
La transformation : mise en place d’une Modern Data Stack
La réponse fut une nouvelle architecture moderne : Python, DBT, Snowflake et Azure DevOps.
Les gains obtenus :
-
Performance multipliée par 10 : temps de traitement nocturne réduit de 6h à 36 minutes (Cluster XS).
-
Outil BI en temps réel : connexion directe à Snowflake sans passer par un cache.
-
Sécurité renforcée : traçabilité native, SSO Office 365 et authentification multifacteur généralisée.
-
Déploiements accélérés : cycles plus courts et plus fiables.
-
Adoption massive : 35 utilisateurs réguliers sur 46, dont les actuaires.
-
Ouverture vers la Data Science & l’IA : premiers projets lancés en 2024, poursuivis en 2025.
-
Valorisation des données : exploitation généralisée de la BI et de ses tableaux de bord dans toute la Mutuelle.
Les effets furent spectaculaires : performances et sécurité renforcées, adoption rapide par les équipes, et une exploitation de la donnée devenue centrale dans l’activité.
Les défis rencontrés
Bien sûr, la route ne fut pas sans obstacles : le paramétrage Azure (réseau, PrivateLink, DevOps) s’avéra complexe, le connecteur BI nécessita des ajustements, et les coûts de migration furent légèrement sous-estimés. Une formation approfondie fut indispensable pour familiariser les équipes à Python, Git, Snowflake et aux pipelines Azure. Les coûts d’hébergement ont évolué, notamment en raison du nombre croissant de traitements nocturnes et de l’usage intensif par 35 utilisateurs, dont les actuaires aux besoins de calcul importants.
Les cas d’usage
Fort de cette nouvelle architecture, la Mutuelle ne s’est pas arrêtée à l’optimisation technique. Les fondations solides en place ont ouvert la voie à de nouveaux cas d’usage à forte valeur ajoutée, exploitant pleinement la puissance de la donnée. De l’analyse de données publiques pour booster l’activité, jusqu’à l’identification proactive des risques d’impayés grâce à des algorithmes d’intelligence artificielle, la donnée est désormais un véritable levier stratégique.
Utilisation de données publiques pour améliorer l’activité :
Qualité des données administratives (SIRENE vs données du gestionnaire)
Identification à J+1 des entreprises clientes en procédure collective (source BODACC)
Identification à J+1 des courtiers radiés à l’ORIAS et n’ayant plus le droit d’exercer
Identification du risque d’impayés par exploitation d’algorithmes d’intelligence artificielle
- Problématique : Quelle est la probabilité qu’un contrat individuel soit en impayé (résolu ou non) dans les 3 mois ?
- Données (profondeur de 4 ans)
- Données de gestion
- Données démographiques
- Données des ménages INSEE
- Données d’impayés réellement constatés
- Equipe mobilisée
- 1 Data Scientist Effidic
- 1 ingénieur de recherche de la Sorbonne SUMMIT
- 1 expert métier GSMC
- Durée
- 2 mois
- Outils utilisés
- Notebooks Snowflake
- DBeaver