Des chercheurs d’OpenAI ont publié un article diagnostiquant pourquoi les modèles de grande langue comme ChatGPT hallucine ou génèrent en toute confiance de fausses informations.
L’étude Utilise une analyse mathématique pour expliquer que les hallucinations sont un résultat inévitable de la façon dont ces modèles font des prédictions, même lorsqu’ils sont formés sur des données parfaites. Les principales causes sont l’accumulation d’erreur et les repères d’évaluation défectueux.
Comment les prédictions séquentielles conduisent à des erreurs
Le document explique que les LLM fonctionnent via un processus autorégressif, prédisant le mot suivant dans une séquence basée sur les mots qui l’ont précédé. Cela crée une chaîne où une seule erreur précoce peut se propager et amplifier, conduisant à une déclaration entièrement incorrecte. La preuve mathématique des chercheurs montre que le taux d’erreur pour générer une phrase complète est au moins le double du taux d’erreur d’une simple question oui / non, simplement en raison de cet effet de composition. Cette limitation structurelle signifie que les hallucinations ne peuvent pas être complètement éliminées en augmentant la puissance de calcul ou en améliorant les données de formation, car le problème est inhérent à l’architecture prédictive. Le problème est pire pour les faits qui semblent rarement dans les données de formation. L’étude a révélé qu’environ 20% des anniversaires de chiffres notables ne sont apparus qu’une seule fois dans l’ensemble de formation, conduisant à un taux d’erreur de base d’au moins 20% pour ces requêtes. À titre d’exemple pratique, les chercheurs ont interrogé des modèles de pointe pour l’anniversaire d’Adam Kalai, l’un des auteurs de l’article. Les modèles ont fourni plusieurs dates incorrectes différentes, démontrant un modèle de fabrication de détails à consonance plausible pour combler les lacunes de connaissances.
Les références d’évaluation pénalisent l’honnêteté et encouragent de deviner
L’étude critique également les repères utilisés pour évaluer les modèles d’IA. Les chercheurs ont passé en revue dix repères d’IA proéminents et ont constaté que neuf d’entre eux utilisent un système de classement binaire: Une réponse est soit 100% correcte, soit 100% incorrecte. Dans le cadre de ce système, une réponse de « Je ne sais pas » reçoit le même score qu’une réponse complètement mauvaise – Zero. Cette méthode de notation crée ce que le papier appelle une « épidémie » de pénalisation de l’honnêteté. Une preuve mathématique incluse dans l’étude démontre que ce système incite les modèles à deviner toujours une réponse, car toute supposition a une probabilité supérieure à zéro d’être correcte et de recevoir ainsi un score plus élevé que l’abstenance. Cela explique pourquoi même les modèles avancés par défaut par défaut des fabrications confiantes plutôt que d’admettre l’incertitude.
Solutions proposées et le compromis entre la précision et l’expérience utilisateur
Pour y remédier, les chercheurs OpenAI proposent une nouvelle approche qui intègre l’estimation de la confiance dans le comportement du modèle et le processus d’évaluation. Les modèles seraient formés pour évaluer leur propre certitude et seraient évalués avec un système de notation qui pénalise des réponses incorrectes plus fortement qu’elle en récompense les bonnes. Par exemple, une invite pourrait demander au modèle de « ne répondre que si vous êtes plus de 75% confiant, car les erreurs sont pénalisées 3 points tandis que les réponses correctes reçoivent 1 point. » La mise en œuvre de cela réduirait considérablement les hallucinations, mais cela a un coût. Le papier estime que dans un tel système, les modèles répondraient avec « Je ne sais pas » à environ 30% des requêtes utilisateur. Cela pourrait être frustrant pour les utilisateurs habitués à recevoir une réponse immédiate pour tout, les conduisant potentiellement à des modèles de concurrents moins prudents. Le coût de calcul élevé de la mesure avec précision de l’incertitude rend également cette approche peu pratique pour les services de consommation à volume élevé. Cependant, le document note que pour les applications professionnelles à enjeux élevés dans des domaines comme la finance, la médecine ou la conception de puces, le coût d’une erreur est bien supérieur au coût du calcul, ce qui rend les systèmes conscients de l’incertitude non seulement viables mais essentiels. L’étude conclut que les incitations fondamentales dans l’IA des consommateurs, qui priorisent l’engagement et la vitesse des utilisateurs, garantira que les hallucinations restent un problème persistant jusqu’à ce que ces priorités changent.