Qualité des données : les 6 indicateurs à mesurer avant de lancer un projet IA

Qualité des données : les 6 indicateurs à mesurer avant de lancer un projet IA

Jean-Emmanuel Orfèvre
Jean-Emmanuel Orfèvre
2 min
Qualité des données : les 6 indicateurs à mesurer avant de lancer un projet IA

En bref

Garbage in, garbage out. Avant de déployer un modèle IA, mesurez ces 6 indicateurs de qualité de données pour éviter les échecs prévisibles.

80% des échecs de projets IA sont liés à la qualité des données, pas à la complexité des modèles. Pourtant, la majorité des organisations se précipitent sur le choix de l'algorithme sans auditer sérieusement leurs données en amont.

Voici les 6 dimensions de qualité à évaluer systématiquement.

1. Complétude

Définition : pourcentage de valeurs non nulles pour chaque champ critique.

Un dataset avec 40% de valeurs manquantes sur un champ clé ne permettra pas d'entraîner un modèle fiable. Mesurez la complétude par table, par colonne et par période temporelle pour détecter les tendances.

Seuil recommandé : > 95% pour les champs utilisés comme features d'un modèle.

2. Exactitude

Définition : les données reflètent-elles la réalité ?

Une adresse email syntaxiquement valide mais qui n'existe pas est complète mais inexacte. L'exactitude se mesure par comparaison avec une source de vérité (référentiel externe, vérification terrain).

3. Cohérence

Définition : les mêmes données sont-elles identiques dans différents systèmes ?

Si le chiffre d'affaires Q4 diffère entre le CRM, l'ERP et le data warehouse, c'est un problème de cohérence. Identifiez les sources maîtresses (golden sources) et mesurez les écarts.

4. Fraîcheur

Définition : à quelle fréquence les données sont-elles mises à jour ?

Un modèle de scoring entraîné sur des données de 6 mois ne sera pas pertinent pour des prédictions en temps réel. Définissez le SLA de fraîcheur adapté à chaque use case.

5. Unicité

Définition : absence de doublons.

Les doublons faussent les agrégations, biaisént les modèles et dégradent l'expérience utilisateur. Mettez en place des règles de dédoublonnage et des contrôles automatisés.

6. Conformité

Définition : les données respectent-elles les formats et règles métier attendus ?

Un code postal à 4 chiffres en France, une date au format américain dans un système français, un montant négatif pour un chiffre d'affaires - ces anomalies doivent être détectées automatiquement.

Comment intégrer ces contrôles

L'évaluation de la qualité ne doit pas être un exercice ponctuel. Intégrez des checks automatisés dans vos pipelines de données :

  • Great Expectations ou Soda pour les tests de qualité dans les pipelines
  • Monte Carlo ou Anomalo pour le monitoring continu
  • dbt tests pour la validation dans la couche de transformation

La qualité des données n'est pas un projet, c'est une discipline continue.

Poursuivre votre exploration

Découvrez d'autres articles de Data Strategy de l'univers Data

Articles recommandés

Ce sujet vous intéresse ?

Nos experts peuvent approfondir ce thème lors d'un échange dédié. Prenez rendez-vous pour en discuter.

Discuter avec un expert →