Dans une migration CRM ou ERP, personne ne parle des ateliers de mapping. C'est pourtant là que les projets s'enlisent. Quand on bascule un CRM vertical santé vers une plateforme généraliste, il faut comparer champ par champ deux modèles de données qui ne se parlent pas nativement. Quelques centaines d'objets, quelques milliers de champs, des règles métier invisibles dans la documentation.
La méthode classique : workshops à rallonge avec les équipes fonctionnelles, tableurs qui vieillissent mal, livrable de mapping jamais vraiment figé. Budget consommé avant même le premier pipeline d'intégration.
Sur un projet récent, on a compressé cette phase de 3 semaines à 4 jours en mettant un LLM au bon endroit. Voilà ce qu'on a appris, et surtout les limites qu'on a touchées.
Le vrai goulot : le mapping, pas l'ETL
Dans la plupart des migrations SaaS vers SaaS, la partie technique (pipelines d'extraction, transformation, chargement) est bien outillée. MuleSoft, Talend, Informatica IDMC, Workato : les outils savent lire un schéma, appliquer un mapping, gérer les retries. Ce n'est pas là que les projets dérapent.
Le blocage est en amont. Les équipes fonctionnelles et IT doivent se mettre d'accord sur quel champ va où. Sur un périmètre typique, ça représente 15 à 30 objets métier à cartographier, 300 à 600 champs à rapprocher, 50 à 100 cas nécessitant une décision (custom field, transformation, valeur par défaut), et plusieurs ateliers de 2 à 3 heures avec 5 à 8 personnes par session.
À la fin : un tableur Excel. Parfois deux ou trois versions en parallèle. Et une équipe intégration qui doit re-saisir tout ça dans son outil cible.
Ce que l'IA change concrètement
Les définitions d'objets sont disponibles via API. Describe sur Salesforce, Metadata API sur les CRM verticaux santé, schémas JSON ou WSDL sur la majorité des SaaS entreprise. Ces schémas sont exploitables directement par un LLM.
Le pattern qu'on a validé : un agent qui prend en entrée les deux schémas (source et cible), les passe dans un prompt structuré en trois étapes, et produit un JSON de mapping typé, validé par un output parser.
Schéma 1 · Du schéma API brut au mapping injectable dans l'outillage ETL
Du schéma API brut au mapping injectable dans l'outillage ETL.
Les trois étapes du prompt ne sont pas cosmétiques. Elles imitent la séquence qu'un expert intégration déroule mentalement.
Étape 1 : match exact par nom. On réconcilie les champs qui portent exactement le même nom. Évident, mais représente déjà 20 à 30% des correspondances sur des schémas homogènes.
Étape 2 : rapprochement sémantique. C'est là que le LLM gagne son billet. Email__c vers PersonEmail. Date_Naissance vers Birthdate. Suppression des suffixes __c, gestion camelCase vs snake_case, reconnaissance de synonymes fonctionnels. Un humain le fait aussi, mais lentement et avec des oublis. Le LLM le fait en quelques secondes sur 400 champs.
Étape 3 : proposition de champs custom. Pour les champs sans équivalent, le LLM propose un nom, un type et une description. L'expert garde le dernier mot, mais il démarre d'un draft, pas d'une page blanche.
Le livrable change de nature
Avant, le livrable était un Excel. Difficile à versionner, impossible à injecter automatiquement dans un outil, reformaté à chaque passage de main.
Avec un LLM derrière un output parser, le livrable devient un JSON structuré conforme à un schéma. Pour chaque champ mappé :
Ce JSON n'est pas consommé nativement par les ETL du marché. Aucun d'entre eux n'accepte un manifest de mapping arbitraire en entrée. En revanche, il est exploitable via un code generator qu'on écrit une fois et qu'on cible sur l'outil : génération de scripts DataWeave pour MuleSoft, appels à l'API REST d'Informatica IDMC pour créer les mappings programmatiquement, manipulation des fichiers projet Talend via son SDK. Le JSON sert d'artefact normalisé qui alimente ces adaptateurs. On ne démarre plus l'intégration d'une feuille blanche, on démarre d'un pré-mapping injecté dans l'outil via l'adaptateur adéquat.
Les gains observés, et leurs limites
Sur un périmètre d'environ 15 objets métier et 400 champs :
- Phase de mapping initial : de 3 semaines à 4 jours
- Taux de couverture automatique (match exact + sémantique) : autour de 70%
- Livrable exploitable dès le premier passage, là où il fallait habituellement 2 ou 3 itérations
- Coût d'inférence marginal : quelques euros par passage complet sur un modèle rapide (Gemini, Qwen)
Ces chiffres viennent d'un seul projet. Ils ne se généralisent pas mécaniquement. La couverture chute sur des schémas très customisés, sur des modèles de données anciens ou mal documentés, ou quand le vocabulaire métier est spécifique à l'entreprise. Sur un schéma exotique, on tombe parfois à 40% d'automatisation. La valeur du pattern reste, mais l'ampleur du gain doit être requalifiée à chaque cas.
Le human-in-the-loop n'est pas négociable
C'est la partie que les équipes pressées veulent sauter. C'est aussi celle qui transforme une génération IA en livrable de confiance. Sans étape humaine, trois catégories d'erreurs passent en production.
Schéma 2 · Le LLM génère, deux passes humaines valident
Le LLM génère, deux passes humaines valident. Pas de raccourci possible.
Les règles métier invisibles. Un champ Status__c avec 4 valeurs peut masquer 15 ans de logique. Workflows, statuts transitoires, conventions internes. Aucun LLM ne devine que ACTIVE_PENDING_REVIEW doit mapper vers deux champs distincts dans la cible selon le contexte de création. Ces règles sortent des ateliers et des conversations, pas des APIs.
La conformité réglementaire. Les règles de data residency, de pseudonymisation, de droit à l'oubli ne se déduisent pas d'un schéma. Sur un secteur régulé (santé, finance, RH), une équipe gouvernance doit valider chaque champ sensible. C'est particulièrement vrai pour les données de santé (RGPD article 9, certification HDS en France).
Les transformations conditionnelles complexes. Un LLM produit bien la règle "formatage de date ISO vers format US". Il produit mal "si le patient a été créé avant 2018, appliquer la logique RGPD pré-refonte, sinon la logique actuelle". Les règles temporelles, les cas d'exception non documentés, les conventions non écrites : c'est du travail d'expert, pas d'agent.
Le piège classique
Prendre le JSON généré, le faire avaler par le code generator, et câbler l'ETL derrière sans sas de review. Gain de temps apparent, incident garanti à la première mise en prod. Le pré-mapping sans validation, c'est un draft qu'on a maquillé en livrable. Le sas humain n'est pas une étape optionnelle, c'est ce qui transforme la génération IA en asset de projet.Comment on le met en place
L'architecture tient dans une semaine de développement. Les briques : ingestion d'API (les deux schémas JSON via un simple endpoint HTTP, portable sur n8n, Lambda ou un microservice), agent LLM avec prompt structuré et output parser JSON typé en choisissant un modèle rapide pour le coût (Gemini, Qwen — pas besoin de la puissance d'un modèle frontière pour du mapping), UI de review légère pour accepter/modifier/rejeter champ par champ et exporter le JSON consolidé (trois jours de dev avec un framework standard), et un code generator vers l'ETL : un adaptateur par outil cible qui traduit le JSON validé vers le format exploitable (API REST pour Informatica IDMC, DataWeave pour MuleSoft, SDK pour Talend — dev one-shot, réutilisable sur tous les projets suivants).
Dernier élément non négociable : la traçabilité. Chaque décision de mapping est loggée avec horodatage, auteur et version du schéma source. Utile pour l'audit, indispensable sur un secteur régulé.
Le setup complet se déploie en 1 à 2 semaines. ROI visible dès le premier atelier évité. Sur une migration à 15 objets, on rembourse le build du premier coup et on réutilise l'outillage sur tous les projets suivants.
Pour aller plus loin
Si vous préparez une migration CRM, ERP ou une intégration SaaS à SaaS, et que vous voyez venir les ateliers de mapping avec appréhension, ce pattern est applicable à votre cas. On l'a déployé chez des acteurs santé, industriels et services depuis 2024. Premier mapping automatisé en moins de deux semaines, UI de review incluse.
