12,9 millions de dollars perdus par an à cause de données pourries. Et si on en parlait sérieusement ?
On va dire un truc que tout le monde sait mais que personne ne veut quantifier. Vos données sont mauvaises. Pas un peu. Structurellement. Gartner estime que l'entreprise moyenne perd 12,9 millions de dollars par an à cause de la mauvaise qualité des données.
C'est un chiffre abstrait ? Décomposons. Des erreurs de tarification parce que les données client sont incomplètes. Des retards sinistres parce que les dossiers sont en doublon. Des non-conformités réglementaires parce que les référentiels ne sont pas à jour. Du reporting faux parce que les données sources sont incohérentes. C'est la sinistralité invisible de votre SI. Et contrairement à la vraie sinistralité, personne ne la mesure, personne ne la provisionne, personne n'en est responsable.
Le grand nettoyage ponctuel est une illusion
Le réflexe classique : on lance un projet de data quality. Pendant 3 mois, une équipe nettoie les données. Ça coûte cher. Ça mobilise du monde. Et 6 mois plus tard, les données sont à nouveau sales. Parce que la qualité des données, c'est comme la propreté d'un appartement. Un grand ménage annuel ne sert à rien si vous ne rangez jamais entre.
Les nouvelles saisies arrivent avec des erreurs. Les migrations polluent. Les intégrations partenaires apportent leur lot d'incohérences. Chaque jour, la dette data s'accumule. Et chaque grand nettoyage coûte plus cher que le précédent, parce que le volume croît et les interdépendances se complexifient.
La qualité des données n'est pas un projet. C'est un processus permanent. Les organisations qui traitent ça comme un projet ont un problème de données récurrent. Celles qui traitent ça comme un processus n'ont presque plus de problème.
QDD as a Service : le modèle opérationnel
Le Quality Data Delivery as a Service opère en continu. Trois couches en production.
Monitoring : chaque donnée entrante est scannée automatiquement - complétude, cohérence, conformité aux règles métier, fraîcheur. Le scan est continu, pas quotidien, pas hebdomadaire. Chaque intégration, chaque saisie, chaque migration passe à la moulinette en temps réel.
Correction : les corrections à haute confiance sont appliquées automatiquement. Un email sans @ ? Corrigé. Un doublon exact ? Fusionné. Un code postal incohérent avec la ville ? Corrigé. Les corrections incertaines sont soumises au data owner pour décision - avec le contexte et la recommandation.
Reporting : un dashboard temps réel avec les indicateurs de qualité par dataset, les tendances, les alertes. Le data owner voit en un coup d'œil si son domaine se dégrade. Et surtout, il peut intervenir avant que la dégradation n'ait un impact métier.
Le cas qui fait réfléchir
Assureur santé, 3 millions de bénéficiaires. Audit des données prestations : 15% de doublons, 8% de codes actes incohérents, 5% de montants aberrants. Coût estimé de la non-qualité : 18 millions par an - remboursements erronés, fraude non détectée, reporting faux envoyé au régulateur.
Après 6 mois de QDD as a Service en production : doublons à 2%, incohérences à 1%, montants aberrants à 0,5%. Économie directe : 12 millions par an. Coût du dispositif : 350 000 euros par an. Le ratio parle de lui-même. Et au-delà des économies, la confiance des équipes métier dans les données a changé - elles prennent des décisions sur des bases fiables, pas sur des intuitions corrigées à la main.
Ce qui empêche les organisations d'avancer
Pas de responsabilité claire. Si personne n'est responsable de la qualité d'un dataset, personne ne la maintient. Chaque dataset critique doit avoir un data owner identifié, avec des objectifs de qualité mesurables et un budget pour les atteindre. C'est une décision de gouvernance, pas un sujet technique.
Des métriques absentes. "Nos données sont propres" n'est pas un KPI. Complétude, fraîcheur, cohérence, unicité : chaque dimension doit être mesurée, monitorée, avec des seuils d'alerte. Ce qui ne se mesure pas ne s'améliore pas - c'est vrai partout, mais c'est particulièrement vrai pour les données.
L'approche one-shot. On l'a dit : nettoyer une fois ne suffit pas. Et ça coûte plus cher à chaque fois, parce que la dette data ne fait que s'accumuler.
La donnée est le socle de tout le reste
Sans données fiables, les modèles IA les plus sophistiqués sont inutiles. Le machine learning amplifie la qualité de vos données - dans les deux sens. Bonnes données, bons modèles. Mauvaises données, modèles qui prennent de mauvaises décisions à grande vitesse. Chaque euro investi dans un modèle IA sans avoir investi dans la qualité des données est un euro mal placé.
Le QDD as a Service n'est pas un sujet séduisant. C'est le socle sur lequel tout le reste tient. Et les 12,9 millions perdus chaque année ? C'est le coût de l'inaction. Il baisse dès qu'on commence à mesurer.
