Qualité des données : les 6 indicateurs à mesurer avant de lancer un projet IA

80% des échecs de projets IA sont liés à la qualité des données, pas à la complexité des modèles. Pourtant, la majorité des organisations se précipitent sur le choix de l'algorithme sans auditer sérieusement leurs données en amont.

Voici les 6 dimensions de qualité à évaluer systématiquement.

1. Complétude

Définition : pourcentage de valeurs non nulles pour chaque champ critique.

Un dataset avec 40% de valeurs manquantes sur un champ clé ne permettra pas d'entraîner un modèle fiable. Mesurez la complétude par table, par colonne et par période temporelle pour détecter les tendances.

Seuil recommandé : > 95% pour les champs utilisés comme features d'un modèle.

2. Exactitude

Définition : les données reflètent-elles la réalité ?

Une adresse email syntaxiquement valide mais qui n'existe pas est complète mais inexacte. L'exactitude se mesure par comparaison avec une source de vérité (référentiel externe, vérification terrain).

3. Cohérence

Définition : les mêmes données sont-elles identiques dans différents systèmes ?

Si le chiffre d'affaires Q4 diffère entre le CRM, l'ERP et le data warehouse, c'est un problème de cohérence. Identifiez les sources maîtresses (golden sources) et mesurez les écarts.

4. Fraîcheur

Définition : à quelle fréquence les données sont-elles mises à jour ?

Un modèle de scoring entraîné sur des données de 6 mois ne sera pas pertinent pour des prédictions en temps réel. Définissez le SLA de fraîcheur adapté à chaque use case.

5. Unicité

Définition : absence de doublons.

Les doublons faussent les agrégations, biaisént les modèles et dégradent l'expérience utilisateur. Mettez en place des règles de dédoublonnage et des contrôles automatisés.

6. Conformité

Définition : les données respectent-elles les formats et règles métier attendus ?

Un code postal à 4 chiffres en France, une date au format américain dans un système français, un montant négatif pour un chiffre d'affaires - ces anomalies doivent être détectées automatiquement.

Comment intégrer ces contrôles

L'évaluation de la qualité ne doit pas être un exercice ponctuel. Intégrez des checks automatisés dans vos pipelines de données :

Great Expectations ou Soda pour les tests de qualité dans les pipelines
Monte Carlo ou Anomalo pour le monitoring continu
dbt tests pour la validation dans la couche de transformation

La qualité des données n'est pas un projet, c'est une discipline continue.

Qualité des données : les 6 indicateurs à mesurer avant de lancer un projet IA

1. Complétude

2. Exactitude

3. Cohérence

4. Fraîcheur

5. Unicité

6. Conformité

Comment intégrer ces contrôles

Poursuivre votre exploration

Ce sujet vous intéresse ?

1. Complétude

2. Exactitude

3. Cohérence

4. Fraîcheur

5. Unicité

6. Conformité

Comment intégrer ces contrôles

Poursuivre votre exploration

Data Mesh : décentraliser sans perdre la gouvernance

Gouvernance fédérée : cohérence globale, autonomie locale

Traiter la donnée comme un produit - pas comme un résidu de pipeline

12,9 millions de dollars perdus par an à cause de données pourries. Et si on en parlait sérieusement ?

Ce sujet vous intéresse ?