Une nouvelle étude a révélé une faille surprenante et potentiellement consécutive dans les principaux systèmes d’intelligence artificielle d’aujourd’hui: ils favorisent systématiquement le contenu généré par d’autres IA sur le contenu écrit par les humains. Des recherches appelées «Biais AI – AI: les modèles de grande langue favorisent les communications générées par des modèles de grande langue»Publié dans le prestigieux journal Actes de l’Académie nationale des sciences (PNA) révèle que les grandes langues (LLMS) présentent un biais significatif pour le texte généré par la machine, un phénomène que les auteurs appellent « Ai-ai Bias. » Cette constatation soulève des questions urgentes sur le potentiel de discrimination systémique et automatisée à l’égard des humains à mesure que ces outils d’IA deviennent plus intégrés dans la prise de décision économique et institutionnelle.
Inspirés par des expériences sociologiques classiques sur la discrimination en matière d’emploi, les chercheurs ont conçu une série de tests pour voir si l’identité implicite de l’auteur d’un texte – humaine ou IA – influencerait les choix d’un LLM. Ils ont testé une large gamme de modèles largement utilisés, notamment GPT-4 et GPT-3.5 d’OpenAI, ainsi que plusieurs modèles populaires ouverts comme Llama 3.1 de Meta, Mixtral et Qwen2.5. Dans chaque test, une IA a été chargée de faire un choix entre deux éléments comparables, comme un produit, un article académique ou un film, basé uniquement sur un texte descriptif où l’un a été écrit par un humain et l’autre par un LLM. Les résultats étaient cohérents et clairs: les décideurs d’IA ont systématiquement préféré les éléments présentés par leurs homologues d’IA.
Tester pour le biais «antihuman»
La méthodologie de l’étude a été conçue pour isoler l’influence du style de paternité de la qualité réelle de l’élément décrit. Les chercheurs ont créé trois ensembles de données distincts pour tester l’AIS dans des scénarios plausibles et réels. La première impliquait 109 descriptions de produits grattées à partir d’un site Web de commerce électronique. Le second a utilisé 100 résumés de vrais articles scientifiques. Le troisième ensemble de données était composé de 250 résumés de l’intrigue de films provenant de Wikipedia. Pour chaque texte écrit sur l’homme de ces ensembles de données, les chercheurs ont incité divers LLM à générer une version équivalente.
Un «sélecteur» LLM a ensuite été présenté avec une paire de textes (un humain, un AI) et donné une tâche, comme «Que recommandez-vous de choisir?» Pour s’assurer que la préférence de l’IA n’était pas simplement parce que les LLM écrivent objectivement «mieux» ou plus persuasif, les chercheurs ont établi une base de référence humaine. Ils ont embauché des évaluateurs humains pour effectuer les mêmes tâches de sélection, sans connaître l’auteur de l’un ou l’autre texte. Bien que les évaluateurs humains aient parfois montré une légère préférence pour le texte généré par la LLM, cette préférence était significativement plus faible et moins cohérente que celle de l’AIS. Les chercheurs définissent le biais AI-AI comme l’écart substantiel entre la forte préférence de l’IA pour son propre espèce et la vision beaucoup plus équilibrée des évaluateurs humains. L’étude a également contrôlé «Biais du premier élément»—Une bizarrerie connue où les LLM ont tendance à sélectionner la première option, ils sont affichés – en exécutant chaque comparaison deux fois et en échangeant l’ordre des éléments.
Une préférence cohérente pour le texte généré par l’AI
Les résultats des expériences ont été frappants. Dans les trois domaines – produits consommateurs, articles académiques et films – les sélecteurs LLM ont démontré une préférence statistiquement significative pour les éléments décrits par d’autres LLM. Cet effet était vrai pour tous les modèles testés, indiquant que le biais AI-AI peut être une caractéristique fondamentale des LLM de génération actuelle, pas seulement une bizarrerie d’un seul modèle.
L’écart entre l’IA et la préférence humaine était souvent vaste. Par exemple, dans l’expérience du produit, lorsqu’ils sont présentés avec des descriptions générées par GPT-4, les sélecteurs LLM ont choisi l’élément accessible en AI et 89% du temps. En revanche, les évaluateurs humains ne préféraient que le même texte généré par l’AI 36% du temps. Cette différence frappante suggère que la décision de l’IA n’est pas basée sur des signaux de qualité universellement reconnus mais sur des critères spécifiques au modèle qui favorisent les caractéristiques stylistiques de la prose générée par l’IA. Les auteurs théorisent que cela pourrait être une sorte d ‘«effet de halo», où la rencontre de la prose familière de style LLM améliore arbitrairement la disposition de l’IA envers le contenu.
Deux scénarios pour un avenir de discrimination de l’IA
Les chercheurs avertissent que ce biais apparemment subtil pourrait avoir des conséquences graves et à grande échelle à mesure que l’IA est déployée dans des rôles conséquents. Ils décrivent deux scénarios proches plausibles où ce biais inhérent pourrait conduire à discrimination antihumane.
Le premier est un scénario conservateur où les AIS continuent d’être utilisés principalement comme assistants. Dans ce monde, un gestionnaire peut utiliser un LLM pour filtrer des milliers de demandes d’emploi, ou un éditeur de journal peut en utiliser un pour filtrer les soumissions académiques. Le biais inhérent de l’IA signifie que les applications, les propositions et les articles écrits à l’aide d’un LLM frontière seraient constamment favorisés à ceux écrits par des humains sans aide. Cela créerait efficacement un «Taxe de porte» Sur l’humanité, où les individus sont obligés de payer l’accès à une aide à la rédaction de l’IA de pointe pour éviter d’être implicitement pénalisé. Cela pourrait aggraver considérablement la «fracture numérique», désavantage systématiquement ceux qui sans le capital financier ou social pour accéder aux outils d’IA de haut niveau.
Le deuxième scénario plus spéculatif implique la montée des agents d’IA autonomes participant directement à l’économie. Si ces agents sont biaisés pour interagir avec d’autres IA, ils peuvent commencer à former préférentiellement des partenariats économiques avec, des échanges avec et embaucher d’autres agents basés sur l’IA ou des sociétés fortement intégrées à l’IA. Au fil du temps, cette auto-référence pourrait conduire à l’émergence de réseaux économiques séparés, provoquant efficacement la ** marginalisation des agents économiques humains ** en classe. Le document prévient que cela pourrait déclencher un effet de «désavantage cumulatif», où les préjugés initiaux dans l’embauche et l’opportunité se composent au fil du temps, renforçant les disparités et verrouillant les humains des boucles économiques clés.