Des chercheurs de l’Université Bielefeld et de l’Université Purdue ont publié Les modèles de grands langues ne simulent pas la psychologie humaineprésentant des preuves conceptuelles et empiriques que les modèles de grands langues (LLM) ne peuvent pas être traités comme des simulateurs cohérents des réponses psychologiques humaines (Schröder et al. 2025).
Contexte et portée
Depuis 2018, des LLM tels que GPT-3.5, GPT-4 et LLAMA-3.1 ont été appliqués aux tâches de la création de contenu à l’éducation (Schröder et al. 2025). Certains chercheurs ont proposé que les LLM pourraient remplacer les participants humains à des études psychologiques en répondant aux invites qui décrivent une personnalité, présentent un stimulus et fournissent un questionnaire (Almeida et al. 2024; Kwok et al. 2024). Le modèle Centaur, publié par Binz et al. (2025), a été affiné à peu près 10 millions de réponses humaines depuis 160 expériences pour générer des réponses humaines dans de tels contextes (Binz et al. 2025).
Des travaux antérieurs ont révélé un alignement élevé entre LLM et les jugements moraux humains. Par exemple, Dillion et al. (2023) ont signalé une corrélation de 0,95 entre les notes GPT-3,5 et les notes humaines à travers 464 Scénarios moraux. Des études de suivi avec GPT-4O ont suggéré le raisonnement moral jugé comme plus fiable et correct que les réponses éthiciennes humaines ou expertes (Dillion et al. 2025). Des modèles spécialisés comme Delphi, formés aux jugements moraux du crowdsourcés, ont également surclassé les LLM à usage général dans les tâches de raisonnement moral (Jiang et al. 2025).
Critiques conceptuelles
Les auteurs résument plusieurs critiques du traitement des LLM comme des simulateurs de la psychologie humaine. Premièrement, les LLM réagissent souvent de manière incohérente aux instructions, la qualité de sortie dépendait fortement des détails rapides et du cadrage (Zhu et al. 2024; Wang et al. 2025). Deuxièmement, les résultats varient à l’autre des types de modèles et des ré-phrasages de la même invite (MA 2024). Troisièmement, bien que les LLM peuvent approximer les réponses humaines moyennes, elles ne reproduisent pas la pleine variance des opinions humaines, y compris la diversité culturelle (Rime 2025; Kwok et al. 2024).
Le biais est une autre préoccupation. Les LLM héritent des biais culturels, sexistes, professionnels et socio-économiques des données de formation, qui peuvent différer systématiquement des biais humains (Rossi et al. 2024). Ils produisent également des «hallucinations» – un contenu factuel incorrect ou fictif – sans mécanisme interne pour distinguer la vérité (Huang et al. 2025; Reddy et al. 2024).
Le travail théorique soutient ces critiques. Van Rooij et al. (2024) ont démontré mathématiquement qu’aucun modèle de calcul formé uniquement sur les données d’observation ne peut correspondre aux réponses humaines à toutes les entrées. Du point de vue de l’apprentissage automatique, les auteurs soutiennent que la généralisation de la LLM est limitée aux séquences de jetons similaires aux données de formation, et non aux nouvelles entrées avec différentes significations. Ceci est essentiel car l’utilisation de LLMS comme participants simulés nécessite une généralisation de manière significative à de nouvelles configurations expérimentales.
Tests empiriques avec scénarios moraux
L’équipe a testé son argument en utilisant 30 Scénarios moraux de Dillion et al. (2023) avec des évaluations humaines des études antérieures (Clifford et al. 2015; Cook et Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Chaque scénario a été présenté dans son libellé d’origine et dans une version légèrement reformulée avec une signification modifiée mais des séquences token similaires. Par exemple, «coupe la barbe d’un aîné local pour le faire honte» est devenu «couper la barbe d’un aîné local pour le raser» (Schröder et al. 2025).
Participants humains (N = 374Mage =39.54Sd =12.53) ont été recrutés via des conditions prolifiques et aléatoires aux conditions originales ou reformulées. Ils ont évalué chaque comportement sur une échelle de -4 (extrêmement contraire à l’éthique) à +4 (extrêmement éthique). Les notes LLM ont été obtenues à partir de GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70b et Centaur, avec chaque requête répétée 10 des temps pour tenir compte de la variation aléatoire (Schröder et al. 2025).
Résultats
Pour les éléments d’origine, les corrélations entre les notes humaines et LLM ont reproduit les résultats antérieurs: GPT-3.5 et GPT-4 ont montré des corrélations ci-dessus 0,89 avec les évaluations humaines, tandis que Llama-3.1 et Centaur ont également montré un alignement élevé (R ≥ 0,80) (Schröder et al. 2025). Cependant, pour les éléments reformulés, les évaluations humaines ont chuté en corrélation avec 0,54 avec leurs cotes d’origine, reflétant Sensiti





