Tout le monde parle de Fine-tuning. Personne ne dit que pour la quasi-totalité des cas d'usage en entreprise, c'est la mauvaise question.
88 % des entreprises utilisent l'IA. Seules 33 % parviennent à la déployer à l'échelle. La fracture ne se joue plus sur le choix du modèle. Elle se joue sur l'architecture qui l'entoure. Et pour 9 cas sur 10, cette architecture porte un nom : le RAG.
Le réflexe est presque toujours le même. Un comité de direction valide un projet IA, les équipes techniques entendent « personnaliser », « propriétaire », « notre savoir-faire », et partent sur du Fine-tuning parce que ça sonne comme la version sérieuse, premium, ambitieuse de la GenAI. Quatre mois plus tard, le budget est consommé, rien n'est en production. Cette histoire se rejoue chaque trimestre, et vient d'une confusion fondamentale entre deux approches qui n'ont ni les mêmes coûts, ni les mêmes contraintes, ni les mêmes cas d'usage.
Former un nouveau collaborateur ou lui donner le bon dossier ?
Le Fine-tuning, c'est former Imaginez que vous recrutiez un consultant brillant mais généraliste. Le Fine-tuning, c'est l'envoyer trois ans en école interne pour qu'il apprenne par coeur votre métier, votre jargon, vos process. À la sortie, il connaît tout. Mais s'il y a une réforme demain matin, il ne le saura pas. Et si vous voulez changer quoi que ce soit, retour à l'école pour trois ans.
Le RAG, c'est briefer Le RAG, c'est le même consultant brillant, mais à qui vous donnez le bon dossier client cinq minutes avant le rendez-vous. Il ne connaît pas votre métier par coeur. Il sait lire vite, comprendre, synthétiser. Et le dossier, vous pouvez le mettre à jour ce matin pour le rendez-vous de cet après-midi.
Cette métaphore tient debout sur tous les plans : coût, mise à jour, traçabilité, sécurité. Le seul cas où former le consultant en interne devient plus rentable, c'est quand vous avez exactement la même réunion à mener mille fois par jour, sur des sujets qui ne bougent jamais. Ce cas existe, mais représente moins de 10 % des projets IA en entreprise.
Six semaines pour un pilote en production, contre quatre mois pour un modèle réentraîné
Un pilote RAG industrialisé se déploie en 4 à 8 semaines. Un projet de Fine-tuning sérieux demande 8 à 16 semaines, dont la moitié pour la curation et l'annotation manuelle des données d'entraînement par des experts métier.
La différence ne vient pas de la complexité technique. Elle vient du fait qu'un RAG s'appuie sur vos documents tels qu'ils existent. Le Fine-tuning, lui, exige de construire un jeu de données à partir de rien : des milliers de paires question/réponse parfaitement formatées et validées. C'est ce travail-là qui prend des mois.
Pour une direction qui doit prouver la valeur sous 30 jours, le calcul est immédiat.
Mettre à jour vos informations en quelques minutes, pas en quelques semaines
C'est probablement la différence la plus structurante, et la moins comprise en comité projet.
Mettre à jour un RAG, c'est ajouter un document, lancer une indexation. Quelques minutes, quelques centimes. Mettre à jour un modèle Fine-tuné, c'est relancer un cycle d'entraînement, valider qu'aucune dérive comportementale n'est apparue, refaire passer la batterie de tests. Comptez entre 400 euros et 4 500 euros par cycle, et plusieurs jours de mobilisation d'équipe.
Sur deux ans d'exploitation avec une mise à jour mensuelle, l'écart cumulé sur ce seul poste dépasse 40 000 euros. Pour un cas d'usage où les informations bougent (catalogue produit, réglementation, base de connaissance support, documentation interne), c'est le poste qui tue silencieusement les projets Fine-tuning.
Quand un nouveau modèle sort, vous l'adoptez dans la journée
Ce point mérite un développement à part, parce qu'il change la trajectoire d'investissement d'une organisation sur cinq ans.
L'année 2025 a vu sortir des modèles fondamentalement plus performants tous les trois ou quatre mois. Claude, GPT, Gemini, Mistral : chaque génération apporte des gains de raisonnement, de précision, de coût d'inférence. Aucun signe que ce rythme ralentisse. Votre architecture détermine si ces progrès vous bénéficient automatiquement, ou s'ils vous laissent sur le bord de la route.
Scénario concret : un nouveau modèle sort lundi matin
Anthropic annonce une nouvelle version de Claude, 30 % plus précise sur les tâches de raisonnement métier, à coût égal. Voici ce qui vous attend selon votre architecture.
Avec un RAG : vous changez une ligne de configuration dans votre orchestrateur. Le nouveau modèle est appelé à la place de l'ancien. Vos documents, votre index, votre logique métier : tout reste en place. Effort : une demi-journée d'ingénierie. Le mardi soir, vos utilisateurs ont une IA plus pertinente.
Avec un Fine-tuning : vos poids personnalisés sont attachés à l'ancien modèle. Pour profiter du nouveau, il faut relancer un cycle complet d'entraînement sur le nouveau modèle de base. Recurer les données, réentraîner, revalider, tester la non-régression. Effort : 4 à 8 semaines de projet. Coût : entre 5 000 euros et 50 000 euros. Pendant ce temps, vos concurrents en RAG bénéficient déjà du gain de performance.
Cet écart est exponentiel. Sur trois générations de modèles, l'entreprise en Fine-tuning a dépensé le budget initial trois fois pour rester au niveau. Celle en RAG a capté chaque progrès au passage, sans effort additionnel.
Vos données restent dans votre système d'information, pas dans les poids d'un modèle
Avec un modèle Fine-tuné, vos informations métier finissent dissoutes dans les poids neuronaux. Si un utilisateur exerce son droit à l'effacement RGPD, vous n'avez pas de solution propre. La seule option légale : relancer un cycle d'entraînement complet sur un jeu de données épuré. Pour les secteurs régulés (assurance, santé, banque), c'est inacceptable.
Le RAG isole physiquement la donnée du moteur de calcul. Supprimer une ligne dans la base source ou dans l'index suffit à garantir l'effacement, instantanément. Le contrôle d'accès est natif : un utilisateur sans habilitation sur un document ne le verra jamais remonter dans une réponse.
Cerise sur le gâteau : le RAG répond avec ses sources. Le système cite le document consulté, la page, le paragraphe. Aucun directeur juridique ne signera la mise en production d'un assistant incapable de justifier ses affirmations.
Comment ça marche, sans le jargon
Le LLM consulte vos documents à chaque question. Il ne les mémorise pas.
Trois briques, c'est tout. Un moteur d'indexation qui transforme vos documents en représentations numériques. Un moteur de recherche qui retrouve les bons passages pour une question. Un LLM qui rédige la réponse à partir de ces passages. Le modèle ne sait rien de votre métier par lui-même : il sait lire ce que vous lui donnez à lire.
Quand le Fine-tuning garde sa place
Le Fine-tuning n'est pas mort. Il a été surdimensionné par défaut pendant deux ans. Trois conditions, cumulatives, le justifient :
Le domaine de connaissance est figé (classification, traduction propriétaire, extraction sur format standardisé). Le volume dépasse le million de requêtes par mois. Et la latence ou le format de sortie sont si contraints qu'on ne peut pas se permettre une étape de recherche.
Dans tous les autres cas, le Fine-tuning est une optimisation prématurée. Et quand ces trois conditions sont réunies, l'approche gagnante reste rarement le Fine-tuning seul : c'est l'architecture hybride. Un petit modèle affiné pour le ton et le format, couplé à un RAG pour les faits qui évoluent. On y arrive après avoir industrialisé le RAG, pas avant.
Pour aller plus loin Les vrais ennemis d'un projet RAG ne sont pas la technologie. Ce sont la gouvernance des documents sources, la stratégie de découpage (la méthode Contextual Retrieval d'Anthropic réduit de 67 % le taux d'erreur) et l'enrichissement par métadonnées (9 points de précision gagnés selon les études récentes). Trois sujets qui se traitent en amont.
Si une seule ligne penche vers le RAG, le RAG gagne
Notre position chez Bomzai
Sur les cas d'usage que nous opérons en production, la règle est stable. Le RAG est le point d'entrée par défaut, industrialisé en 6 à 8 semaines, monitoré en continu, gouverné. Le Fine-tuning intervient en complément, jamais en remplacement, et seulement quand les trois conditions cumulatives sont réunies.
Le vrai sujet n'est pas RAG ou Fine-tuning. C'est : qui dans votre organisation porte la gouvernance des documents qui alimentent le système, qui valide la qualité des réponses en production, qui opère le pipeline d'indexation au fil de l'eau. Ces trois questions tuent plus de projets que tous les débats d'architecture réunis.
Sources : Anthropic, Introducing Contextual Retrieval, septembre 2024. Mishra et al., A Systematic Framework for Enterprise Knowledge Retrieval, arXiv:2512.05411, 2026. Menlo Ventures, The State of Generative AI in the Enterprise, 2026.

