L'IA aussi a ses préjugés. Elle les reproduit à l'échelle industrielle

L'IA ne fait pas que refléter les préjugés. Elle les capte, les encode dans ses paramètres, et les reproduit à grande échelle avec l'apparence de l'objectivité. Le problème s'amplifie avec l'industrialisation : 88 % des entreprises utilisent l'IA dans au moins une fonction, mais seulement 33 % parviennent à la déployer à l'échelle (McKinsey, State of AI 2025). Quand un biais reste dans un prototype, il affecte quelques tests. Quand il passe en production, il affecte des milliers de décisions par jour.

Le 24 février dernier, France 2 diffusait Sommes-nous tous sexistes ?, avec Marie Portolano et Jamy Gourmaud embarquaient 50 volontaires dans des expériences scientifiques pour débusquer leurs biais inconscients. Résultat : tout le monde est tombé de sa chaise, y compris celles et ceux qui étaient certains d'être au-dessus de tout ça. Les biais, c'est précisément ça : on en est porteur sans le voir. Maintenant, imaginez qu'on confie ces mêmes biais à un algorithme qui traite des milliers de décisions par seconde : tri de CV, attribution de crédits, génération d'images. C'est ainsi que se construit le problème de l'IA sexiste : nos travers humains, reproduits à l'échelle industrielle avec l'assurance d'une machine qui se croit objective.

Le biais d'allocation : quand l'algorithme distribue les chances

Le biais d'allocation, c'est l'algorithme qui décide qui obtient un crédit, un emploi, un soin, avec les préjugés d'hier encodés dans ses données. Voici trois cas documentés, vérifiés, publiés dans des revues à comité de lecture.

En santé : l'algorithme qui sous-allouait les soins aux patients noirs. En 2019, une équipe de UC Berkeley menée par Ziad Obermeyer publie dans Science une étude sur l'algorithme d'Optum (UnitedHealth Group), utilisé pour 200 millions de patients américains. L'algo utilisait les coûts de santé comme indicateur de gravité. Or les patients noirs dépensaient en moyenne 1 800 $ de moins par an à pathologies égales, non pas parce qu'ils étaient en meilleure santé, mais parce qu'ils avaient un accès inégal aux soins. Résultat : l'algorithme leur allouait moins de ressources. Corriger ce biais aurait fait passer la proportion de patients noirs recevant une aide complémentaire de 17,7 % à 46,5 %. Un écart de 28 points, sur 200 millions de personnes.

En recrutement : les LLM qui ne sélectionnent jamais les candidats noirs. En mars 2025, une étude publiée dans PNAS Nexus teste les cinq principaux LLM (GPT-3.5, GPT-4o, Gemini 1.5, Claude 3.5, Llama 3) sur 361 000 CV fictifs avec des compétences identiques mais des noms signalés ethniquement et par genre. Les noms à consonance blanche sont favorisés dans 85 % des comparaisons directes. Les candidats hommes noirs ne sont jamais classés devant un candidat blanc : zéro pour cent de préférence, sans exception. Ces biais se traduisent par 1 à 3 points d'écart sur les probabilités d'embauche. Et quand un recruteur humain discrimine 10 candidats par jour, un algorithme en discrimine 10 000 par heure.

En crédit : l'Apple Card et le scoring genré invisible. Fin 2019, David Heinemeier Hansson découvre que l'Apple Card lui accorde 20 fois plus de crédit qu'à sa femme, à patrimoine identique. Steve Wozniak confirme un ratio similaire avec la sienne. Le Département des Services Financiers de New York lance une enquête. Goldman Sachs répond que le genre n'est pas un facteur. Le régulateur conclut en 2021 qu'il n'y a pas de discrimination intentionnelle. Mais l'affaire expose un problème structurel : quand l'algorithme reproduit des inégalités historiques sans utiliser explicitement le genre, prouver le biais devient quasiment impossible. C'est le proxy bias : le genre n'est pas dans l'équation, mais il est partout dans les données.

Le biais de stéréotype dans les LLM : le vocabulaire qui crée la différence

Avec les grands modèles de langage, le biais a changé de forme. On ne parle plus seulement de données tabulaires qui discriminent en silence. On parle de textes générés à la volée, où le stéréotype se niche dans le choix des adjectifs.

En février 2025, un chercheur entre une phrase en finnois dans Google Traduction. Le finnois est une langue entièrement non genrée. Il n'existe qu'un seul pronom, « hän », pour désigner tout le monde. Aucune indication de genre dans la phrase d'origine. Résultat en anglais : "He is a doctor. She is a nurse." L'algorithme a décidé seul qui était médecin et qui était infirmière, en inventant une distinction qui n'existait pas dans le texte source. Google a depuis corrigé certains cas flagrants, mais la correction de surface ne suffit pas : dès qu'une phrase complète est traitée, les stéréotypes ressurgissent. Le biais est ancré dans les données d'entraînement, pas dans l'interface.

L'UNESCO a publié en mars 2024 une étude qui documente le même phénomène à grande échelle : les LLM décrivent les femmes dans des rôles domestiques quatre fois plus souvent que les hommes. Les mots associés aux prénoms féminins ? « Maison », « famille », « enfants ». Aux prénoms masculins ? « Commerce », « cadre », « salaire ». En 2024, avec des milliards de paramètres.

L'expérience Gemini sur le data engineering. Testez vous-même : demandez à Gemini de décrire un data engineer, puis une data engineer. Pour le data engineer, le portrait est construit autour de la puissance et de l'architecture : « robuste », « esprit logique », « résolution de problèmes complexes », il « crée des systèmes ». Pour la data engineer, le vocabulaire change : « précision chirurgicale », « attention aux détails », « vision transversale », « collaboration avec les décideurs ». Elle est qualifiée de « maillon indispensable de la chaîne de valeur ». Même pipeline, deux portraits.

Ce que révèle ce vocabulaire ne relève pas du détail stylistique. L'homme construit, crée, résout. La femme supporte, coordonne, facilite. Les attributs masculins valorisent une compétence autonome et une capacité à agir sur les systèmes. Les attributs féminins valorisent des qualités relationnelles et une position de soutien dans la chaîne. C'est précisément ce que les sociologues appellent une sous-valorisation du travail féminin : à compétences égales, les tâches associées aux femmes sont décrites comme moins stratégiques, moins centrales, moins décisives. L'algorithme ne dit pas "elle est moins compétente". Il dit "elle est précieuse parce qu'elle s'adapte aux autres". Ce n'est pas neutre. C'est une hiérarchie implicite encodée dans le choix des mots.

Il y a aussi une dimension d'assignation sociale : la data engineer ne "crée" pas des systèmes, elle les "comprend" et "collabore" autour d'eux. Elle est définie par ses relations aux autres acteurs, pas par ses actes techniques. Ce glissement est invisible si on lit les deux portraits séparément. Il devient évident dès qu'on les pose côte à côte.

Quand Gemini analyse lui-même ses réponses, il identifie trois biais dans son propre texte. Il les nomme, il en explique le mécanisme. Et il les reproduira quand même à la prochaine question. C'est ça qui est vertigineux : le modèle diagnostique son propre biais avec lucidité, et ne peut pas s'en affranchir seul.

Qui surveille ? Le cadre réglementaire qui se construit

Jusqu'à récemment, la réponse était : peu de monde. Mais les choses changent, et vite.

L'IA Act européen, adopté en 2024, entre en application complète le 2 août 2026 pour les systèmes à haut risque : recrutement, scoring crédit, éducation, justice. Ces systèmes doivent être documentés, auditables, transparents, avec intervention humaine obligatoire. Le Bureau européen de l'IA (AI Office), créé au sein de la Commission européenne, supervise l'application du règlement avec plus de 140 experts. Les amendes peuvent atteindre 15 millions d'euros ou 3 % du chiffre d'affaires mondial.

En France, la CNIL est désignée comme autorité de contrôle pour l'IA Act et a annoncé une intensification de ses contrôles sur les systèmes RH à partir de l'automne 2026. La DGCCRF et l'Arcom complètent le dispositif. Le Défenseur des droits joue également un rôle central : son rapport de novembre 2024 (Algorithmes, systèmes d'IA et services publics) documente les risques concrets pour les usagers des services publics français. Un cadre existe désormais. La question, c'est l'exécution.

Les outils techniques qui s'attaquent au problème

L'ingénierie a commencé à s'organiser face à ce problème. Plusieurs approches existent, à condition d'être intégrées dans un pipeline de production, pas laissées dans un notebook.

IBM AI Fairness 360 propose notamment le Re-weighing, qui redistribue les poids statistiques pour que le modèle accorde une importance égale aux résultats favorables quel que soit le genre, et le Disparate Impact Remover, qui rend le genre statistiquement invisible pour l'apprentissage.

Microsoft Fairlearn attaque le problème à la source de l'entraînement : ses algorithmes de réduction forcent le modèle à maintenir des performances similaires pour tous les groupes de genre. Parfois, être juste implique un léger coût en précision globale. C'est le compromis équité-performance, et c'est un compromis documenté, pas une dérive.

AWS SageMaker Clarify intègre la détection de biais directement dans le pipeline de développement, en utilisant les valeurs de Shapley (empruntées à la théorie des jeux). Si le genre apparaît comme facteur déterminant là où il n'a rien à faire, le système alerte.

Anthropic et la Constitutional AI prennent une approche différente : plutôt que de corriger les biais après coup, le modèle est entraîné à s'auto-critiquer selon une « constitution » de principes explicites. Des expériences menées avec le public américain ont montré qu'une constitution co-rédigée par les citoyens réduisait les scores de biais — un exemple prometteur d'approche systémique.

Tous ces outils ont un point commun : ils fonctionnent quand ils sont intégrés dans un pipeline industriel, gouverné et monitoré en continu. Un toolkit de débiaisage qui reste en phase expérimentale, c'est comme un extincteur qui n'est jamais installé. 80 % des projets Data & IA ne dépassent jamais cette phase. C'est précisément là que les biais se fixent pour durer.

La diversité des équipes : un impératif technique autant qu'éthique

Les données qui entraînent une IA sont choisies par des humains. Les métriques d'équité sont définies par des humains. Les seuils d'acceptabilité sont fixés par des humains. Si ces humains forment un groupe homogène, en genre, en origine, en discipline : les angles morts de leurs biais collectifs deviennent les angles morts de leur IA. C'est mathématique.

Le BCG résume l'enjeu avec son principe 10-20-70 : la valeur de l'IA vient à 10 % des algorithmes, 20 % de la technologie, et 70 % des personnes, des processus et de la transformation culturelle. Un audit de biais algorithmique sans équipe diversifiée pour l'interpréter, c'est traiter 30 % du problème.

Capgemini promeut l'Ethics by Design : des équipes diversifiées en genre ET en disciplines (ingénierie, sciences sociales, droit). Accenture a automatisé l'équité dans ses propres processus : suppression du diplôme STEM obligatoire pour certains postes techniques, investissement dans des startups qui utilisent l'IA pour corriger les écarts de rémunération. Utiliser la technologie pour corriger ce que la technologie a contribué à construire.

Chez Bomzai, on vit cette conviction au quotidien. Nos équipes sont pluridisciplinaires par conception : data engineers, spécialistes IA, experts métiers, profils issus des sciences sociales. Parce qu'on accompagne nos clients sur des systèmes en production, gouvernés et monitorés dans la durée, la question du biais fait partie de notre quotidien opérationnel. Un modèle en production sans audit de biais, c'est un risque réglementaire, réputationnel, et tout simplement éthique.

On ne naît pas biaisé, on le programme. Et ce qu'on a programmé, on peut le corriger, à condition de le vouloir vraiment, avec des équipes qui ressemblent au monde qu'elles construisent, et des systèmes qui passent en production avec des garde-fous, pas juste de bonnes intentions.

Quand on parle de data et d'IA, on a tendance à sortir les graphiques et le jargon technique. Ce qui m'intéresse, c'est l'humain derrière la machine. Le code, au fond, c'est toujours une histoire de gens.

Sources principales : Obermeyer et al., Science 2019 · An et al., PNAS Nexus 2025 · UNESCO, Bias Against Women and Girls in LLMs 2024 · McKinsey, State of AI 2025 · BCG, AI Adoption 2024 · IA Act, Union Européenne 2024 · Défenseur des droits, rapport 2024.

L'IA aussi a ses préjugés. Elle les reproduit à l'échelle industrielle

Le biais d'allocation : quand l'algorithme distribue les chances

Le biais de stéréotype dans les LLM : le vocabulaire qui crée la différence

Qui surveille ? Le cadre réglementaire qui se construit

Les outils techniques qui s'attaquent au problème

La diversité des équipes : un impératif technique autant qu'éthique

Poursuivre votre exploration

Ce sujet vous intéresse ?

Le biais d'allocation : quand l'algorithme distribue les chances

Le biais de stéréotype dans les LLM : le vocabulaire qui crée la différence

Qui surveille ? Le cadre réglementaire qui se construit

Les outils techniques qui s'attaquent au problème

La diversité des équipes : un impératif technique autant qu'éthique

Poursuivre votre exploration

Sans évaluation systématique, vous naviguez à l'aveugle

Ce que personne ne surveille dans vos pipelines LLM et qui coûte cher

RAG en production : les 5 pièges à éviter pour réussir votre déploiement

Vos clients appellent pour des questions dont la réponse est dans leur contrat. C'est un problème d'architecture, pas de service.

Ce sujet vous intéresse ?