Les modèles de grandes langues (LLM) sont célébrés pour leurs capacités multilingues, mais comment traitent-ils réellement les langues non anglophones? Une étude récente appelée «Les LLM multilingues pensent-ils en anglais?»Par Lisa Schut, Yarin Gal et Sebastian Farquhar de l’Université d’Oxford et Google Deepmind suggèrent que les LLM peuvent être plus axées sur l’anglais qu’on ne le pensait auparavant. Leurs résultats révèlent que, quelle que soit la langue d’entrée ou de sortie, ces modèles ont tendance à raisonner dans un espace de représentation interne le plus proche de l’anglais avant de traduire leurs pensées dans la langue cible.
Un processus de réflexion centré sur l’anglais
Les LLM sont formées sur de grandes quantités de données multilingues, mais le langage dominant de leur corpus de formation dicte souvent comment ils structurent les informations en interne. L’étude a analysé plusieurs modèles open source, notamment LLAMA-3.1-70B, MIXTRAL-8X22B, GEMMA-2-27B et AYA-23-35Bpour déterminer si ces systèmes traitent la signification d’une manière agnostique linguistique ou si elles sont par défaut dans un espace de représentation centré sur l’anglais.
Utilisation d’une technique appelée lentille logitles chercheurs ont décodé les représentations latentes de ces modèles et découvert un modèle frappant: lors de la génération de texte dans des langues non anglophones, la première carte LLMS mots sémantiquement significatifs (comme les noms et les verbes) à leurs équivalents anglais avant de les convertir en langue cible. Ce phénomène a été observé dans plusieurs langues, notamment le français, l’allemand, le néerlandais et le mandarin.
Par exemple, lorsque le modèle a reçu la phrase française « Le Bateau Naviguait en Douceur sur l’Eau » («Le bateau a navigué en douceur sur l’eau»), les représentations internes ont montré que des mots comme eau et bateau ont d’abord été cartographiés sur leur signification anglaise avant d’être traduits en français. Cependant, éléments grammaticaux Comme les prépositions et les déterminants sont restés dans la langue d’origine, suggérant que seuls les mots chargés sémantiquement subissent ce traitement centré sur l’anglais.
L’IA gère maintenant les simulations moléculaires: grâce à mdcrow
L’expérience vectorielle de direction
Une autre expérience clé de l’étude concernait direction d’activationune technique utilisée pour manipuler les réponses LLM en les poussant vers des concepts spécifiques. Les chercheurs ont constaté que les vecteurs de direction – des représentations mathématiques qui guident la prise de décision du modèle – étaient beaucoup plus efficaces lorsqu’ils sont calculés en anglais que dans la langue d’entrée ou de sortie. Cela soutient en outre l’idée que le raisonnement central du modèle se produit dans un espace aligné en anglais.
Par exemple, lorsqu’un LLM a été invité à écrire une phrase sur les animaux en allemand, le modèle a répondu de manière plus cohérente lorsque le vecteur de direction a été dérivé du mot anglais animal plutôt que son homologue allemand Étage. Cela suggère que même lorsque les modèles produisent du texte non anglaise fluide, leur logique sous-jacente reste liée aux représentations anglaises.
La nature centrée sur l’anglais des LLM Les avantages et les inconvénients. D’une part, il permet à ces modèles de bien fonctionner dans plusieurs langues malgré leur formation principalement sur les données anglaises. D’un autre côté, il présente biais et limitations:
- Baisse maîtrise des langues non anglophones: Les modèles formés avec une structure axée sur l’anglais ont tendance à produire des phrases contre nature lors de la génération de texte dans d’autres langues. Cela peut rendre leur son de sortie guindé, en particulier dans les langues avec une syntaxe et une grammaire significativement différentes.
- Biais culturel et linguistique: Étant donné que la structure interne favorise l’anglais, certaines langues peuvent être sous-représentées, entraînant des inconvénients injustes dans la performance. Des recherches antérieures ont déjà mis en évidence Biais centrés sur l’Ouest Dans les modèles d’IA, et cette étude ajoute une autre couche au problème.
- Artefacts de traduction: Parce que les modèles traduisent leurs pensées internes de l’anglais, ils peuvent générer phrasé ou erreurs maladroites Lorsque vous travaillez avec des langues qui n’ont pas d’équivalents anglais directs pour certains mots ou expressions.
Tous les LLM présentent-ils ce comportement?
Fait intéressant, tous les modèles ne présentaient pas le même degré de traitement centré sur l’anglais. AYA-23-35B, un modèle formé sur 23 langues, a montré le moins de routage anglaisalors que Gemma-2-27b, formé principalement sur l’anglais, a montré le plus. Cela suggère que le degré de compétence multilingue influence directement si un modèle s’appuie sur les représentations anglaises.
En plus, Les modèles plus petits présentaient une plus grande tendance à faire défaut à l’anglais, Probablement en raison de leur capacité limitée à stocker efficacement les intérêts multilingues. Les modèles plus importants, avec plus de paramètres et de données d’entraînement, semblent avoir une compréhension légèrement meilleure de la sémantique multilingue, bien que le biais anglais demeure.
Les LLM peuvent-ils vraiment penser à plusieurs?
Les résultats de l’étude contestent l’hypothèse que les LLM fonctionnent dans un véritable VOYAGE AGNOSTIQUE LANGUE. Au lieu de cela, ils suggèrent que l’IA multilingue est Toujours fondamentalement façonné par la langue dominante dans son corpus de formation. Cela soulève des questions importantes pour les développeurs et les chercheurs de l’IA:
- Les ensembles de données de formation devraient-ils être restructurés pour promouvoir des représentations multilingues plus équilibrées?
- Comment pouvons-nous atténuer le biais anglais pour améliorer la maîtrise et l’équité dans différentes langues?
- Existe-t-il des architectures alternatives qui pourraient mieux coder des représentations indépendantes du langage?
S’adressant au Biais centré sur l’anglais dans les LLMS sera crucial pour développer vraiment multilingue, culturellement conscient Systèmes. Les chercheurs suggèrent des améliorations potentielles telles que:
- Formation sur des données plus diverses: L’intégration d’une gamme plus large de langues pendant la pré-formation pourrait aider les LLMS à développer un espace de représentation plus équilibré.
- Amélioration de la direction croisée: Le développement de meilleures méthodes de direction du LLMS dans les langues non anglophones pourrait améliorer leurs performances dans divers contextes linguistiques.
- Exploration de nouvelles architectures: Les futurs modèles d’IA pourraient incorporer des mécanismes pour décentraliser les représentations de la langues’assurer que les processus de raisonnement et de prise de décision sont Vraiment agnostique.
Pour l’instant, une chose est claire: alors que l’IA multilingue a fait des progrès impressionnants, la façon dont elle «pense» est toujours profondément liée à l’anglais. Comprendre ce biais est la première étape vers la création de systèmes d’IA plus équitables et plus efficaces pour les utilisateurs mondiaux.
Crédit d’image en vedette: Kerem gülen / idéogramme