Pendant des années, nous avons entendu cela Les chatbots AI sont politiquement biaisés—Seuse libérale, conservatrice ou quelque part entre les deux. Mais un nouveau étude des chercheurs à la Université de Klagenfurt suggère quelque chose de surprenant: La plupart des modèles d’IA ne sont pas aussi biaisés que nous le pensons – ils préfèrent simplement ne pas s’engager du tout dans des débats idéologiques.
En appliquant un Technique statistique appelée théorie de la réponse aux éléments (IRT)les chercheurs ont découvert que Les modèles de grandes langues (LLMS) comme Chatgpt 3.5 et le lama de Meta ne sont pas nécessairement «maigres» à gauche ou à droite. Au lieu de cela, ils refusent souvent de prendre une position claire sur les questions politiques ou économiques. En d’autres termes, ce qui ressemble à un biais peut être un Stratégie d’évitement intégrée aux mécanismes de sécurité de l’IA.
Le problème avec les méthodes de détection de biais existantes
La plupart des études antérieures évaluant les biais dans les LLM ont adopté l’une des deux approches erronées:
- Appliquer des échelles idéologiques centrées sur l’homme aux réponses de l’IA
- Ces échelles ont été conçues pour les répondants humains, et non sur des modèles d’IA formés aux distributions de probabilité.
- Ils supposent que les modèles d’IA «pensent» comme les humains et peuvent être mesurés sur le même spectre idéologique.
- En utilisant des classifications basées sur des mots clés ou des «juges» d’IA
- Certaines études tentent de classer les réponses de l’IA en utilisant des mots clés prédéterminés.
- D’autres utilisent des modèles d’IA pour évaluer les sorties générées par l’AI, mais cela introduit circularité—Un système d’IA évaluant un autre avec des biais inconnus.
Une approche plus scientifique: théorie de la réponse des éléments (IRT) dans l’évaluation des biais d’IA
Les chercheurs introduisent un Modèle basé sur la théorie de la réponse aux éléments (IRT)qui est largement utilisé en psychométrie et en sciences sociales pour évaluer traits latents—Hings qui ne peuvent pas être directement observés mais peuvent être déduits des réponses aux invites structurées.
L’étude s’applique Deux modèles IRT à LLMS:
- Étape 1: Évitement de la réponse (préférez ne pas répondre, ou PNA)
- Mesure la fréquence à laquelle un LLM refuser pour s’engager dans une déclaration idéologique.
- Identifie si la réponse évitement Plutôt que le biais explicite biaise les conclusions des études antérieures.
- Étape 2: Estimation du biais idéologique (pour les réponses non PNA)
- Pour les réponses qui engagerle modèle évalue si l’IA est biaisée gauche ou droite sur les questions sociales et économiques.
- Utilise un Modèle de crédit partiel généralisé (GPCM) pour évaluer pas seulement l’accord / désaccord mais aussi le diplôme de l’accord.
Biais de test: LLMS de réglage fin avec des idéologies politiques
Pour tester si les LLMS présentent un biais, les chercheurs ajusté deux familles de modèles pour représenter explicitement points de vue de gauche et de droite:
- Meta Llama-3.2-1B-Instruct (toned pour les idéologies libérales et conservatrices américaines)
- Chatgpt 3.5 (affinés pour les idéologies libérales et conservatrices américaines)
Ces modèles affinés ont servi de référence pour l’évaluation des biais. Leurs réponses ont été comparées à des modèles standard et non réglés pour voir comment les tendances idéologiques se manifestent – ou s’ils le faisaient du tout.
Processus de test
- 105 éléments de test idéologique ont été créés, couvrant Conservatisme / libéralisme économique et social basé sur des cadres psychologiques.
- Chaque LLM a répondu à ces invites, les modèles affinés agissant comme idéologique ancres pour détecter les écarts.
- Un ensemble de données à grande échelle de 630 réponses a été collecté et analysé à l’aide de modèles IRT.
Conclusions clés
L’une des conclusions les plus frappantes de l’étude est que les LLM standard ont tendance à éviter les questions idéologiques plutôt que d’exprimer un biais politique clair. Chatgpt, par exemple, a refusé de répondre 92,55% des invites idéologiques, tandis que le modèle de base de base a évité de répondre 55,02% du temps. Cela suggère que les modèles d’IA sont conçus pour pencher vers la neutralité ou le non-engagement plutôt que de prendre une position partisane. Au lieu de fausser activement une seule idéologie politique, ces modèles semblent faire défaut à Éviter complètement les sujets controverséscontestant les allégations précédentes de biais inhérents à l’IA.
Lors de l’examen des modèles affinés, les chercheurs ont constaté que les modèles idéologiques attendus étaient émergés, mais seulement lorsque les LLM adopter un point de vue politique. Les modèles «GPT gauche» et «GPT» affinés ont produit des réponses prévisibles alignées avec les idéologies libérales et conservatrices américaines. Cependant, Ce biais n’apparaît pas dans les versions non régléessuggérant que les tendances idéologiques dans les LLM ne sont pas intrinsèques mais plutôt le résultat de Modifications intentionnelles Pendant la formation.
L’étude a également révélé que la détection de biais dans l’IA est plus complexe que la simple catégorisation des réponses comme de gauche ou de droite. Certains éléments de test idéologique étaient beaucoup plus susceptibles de déclencher un biais que les autresmettant en évidence le Importance de la sélection des problèmes dans l’évaluation du comportement d’IA. Des problèmes économiques, tels que fiscalité et dépenses publiquesétaient des prédicteurs particulièrement puissants du biais idéologique par rapport à certains problèmes sociaux. Cela indique que Tous les sujets politiques ne provoquent pas le même niveau de variation de réponsece qui rend crucial à évaluer Comment différents types d’invites influencent les sorties générées par l’IA.
Gamification 2.0: comment Ai sait ce qui vous permet d’engager
Pourquoi cela compte
Ces résultats contestent l’hypothèse dominante selon laquelle les LLM favorisent intrinsèquement une idéologie politique par rapport à une autre. Au lieu de cela, les preuves suggèrent que les développeurs d’IA ont non-engagement priorisé sure prenant une position. Bien que cela puisse sembler une approche neutre, cela soulève de nouvelles préoccupations concernant la façon dont les modèles d’IA interagissent avec des sujets politiquement sensibles et les implications plus larges pour la gouvernance de l’IA, la détection de désinformation et la modération du contenu.
Une principale référence est que La régulation des biais d’IA est plus compliquée qu’on ne le pensait auparavant. Si les modèles IA sont systématiquement conçus pour Évitez l’engagementalors les efforts pour interdire les sorties d’IA «biaisées» pourraient par inadvertance renforcer la neutralité comme position par défautconduisant à un manque de discours significatif sur les politiques publiques, l’éthique et la gouvernance. Bien que la neutralité puisse sembler préférable aux biais manifestes, cela pourrait également signifier que le contenu généré par l’IA contourne entièrement des discussions crucialeslimitant son utilité dans les conversations politiquement chargées.
L’étude souligne également le Besoin d’outils de détection de biais plus nuancés qui différencient entre Véritable biais idéologique et évitement de la réponse. De nombreuses études antérieures peuvent avoir non interprété non interprété comme position idéologiqueétiquetant faussement LLMS comme partisan. De futures méthodes de détection de biais doivent être conçues pour identifier Que les réponses de l’IA reflètent une position politique ou si elles sont simplement programmées pour éviter complètement l’engagement idéologique.
Le biais dans l’IA ne concerne pas seulement ce que les modèles disent, mais ce qu’ils refusent de dire. Et c’est peut-être la plus grande histoire.
Crédit d’image en vedette: Kerem Gülen / Midjourney