80% des échecs de projets IA sont liés à la qualité des données, pas à la complexité des modèles. Pourtant, la majorité des organisations se précipitent sur le choix de l'algorithme sans auditer sérieusement leurs données en amont.
Voici les 6 dimensions de qualité à évaluer systématiquement.
1. Complétude
Définition : pourcentage de valeurs non nulles pour chaque champ critique.
Un dataset avec 40% de valeurs manquantes sur un champ clé ne permettra pas d'entraîner un modèle fiable. Mesurez la complétude par table, par colonne et par période temporelle pour détecter les tendances.
Seuil recommandé : > 95% pour les champs utilisés comme features d'un modèle.
2. Exactitude
Définition : les données reflètent-elles la réalité ?
Une adresse email syntaxiquement valide mais qui n'existe pas est complète mais inexacte. L'exactitude se mesure par comparaison avec une source de vérité (référentiel externe, vérification terrain).
3. Cohérence
Définition : les mêmes données sont-elles identiques dans différents systèmes ?
Si le chiffre d'affaires Q4 diffère entre le CRM, l'ERP et le data warehouse, c'est un problème de cohérence. Identifiez les sources maîtresses (golden sources) et mesurez les écarts.
4. Fraîcheur
Définition : à quelle fréquence les données sont-elles mises à jour ?
Un modèle de scoring entraîné sur des données de 6 mois ne sera pas pertinent pour des prédictions en temps réel. Définissez le SLA de fraîcheur adapté à chaque use case.
5. Unicité
Définition : absence de doublons.
Les doublons faussent les agrégations, biaisént les modèles et dégradent l'expérience utilisateur. Mettez en place des règles de dédoublonnage et des contrôles automatisés.
6. Conformité
Définition : les données respectent-elles les formats et règles métier attendus ?
Un code postal à 4 chiffres en France, une date au format américain dans un système français, un montant négatif pour un chiffre d'affaires - ces anomalies doivent être détectées automatiquement.
Comment intégrer ces contrôles
L'évaluation de la qualité ne doit pas être un exercice ponctuel. Intégrez des checks automatisés dans vos pipelines de données :
- Great Expectations ou Soda pour les tests de qualité dans les pipelines
- Monte Carlo ou Anomalo pour le monitoring continu
- dbt tests pour la validation dans la couche de transformation
La qualité des données n'est pas un projet, c'est une discipline continue.

