Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’étude trouve que les LLM ne peuvent pas simuler de manière fiable la psychologie humaine

byKerem Gülen
août 12, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Des chercheurs de l’Université Bielefeld et de l’Université Purdue ont publié Les modèles de grands langues ne simulent pas la psychologie humaineprésentant des preuves conceptuelles et empiriques que les modèles de grands langues (LLM) ne peuvent pas être traités comme des simulateurs cohérents des réponses psychologiques humaines (Schröder et al. 2025).

Contexte et portée

Depuis 2018, des LLM tels que GPT-3.5, GPT-4 et LLAMA-3.1 ont été appliqués aux tâches de la création de contenu à l’éducation (Schröder et al. 2025). Certains chercheurs ont proposé que les LLM pourraient remplacer les participants humains à des études psychologiques en répondant aux invites qui décrivent une personnalité, présentent un stimulus et fournissent un questionnaire (Almeida et al. 2024; Kwok et al. 2024). Le modèle Centaur, publié par Binz et al. (2025), a été affiné à peu près 10 millions de réponses humaines depuis 160 expériences pour générer des réponses humaines dans de tels contextes (Binz et al. 2025).

Des travaux antérieurs ont révélé un alignement élevé entre LLM et les jugements moraux humains. Par exemple, Dillion et al. (2023) ont signalé une corrélation de 0,95 entre les notes GPT-3,5 et les notes humaines à travers 464 Scénarios moraux. Des études de suivi avec GPT-4O ont suggéré le raisonnement moral jugé comme plus fiable et correct que les réponses éthiciennes humaines ou expertes (Dillion et al. 2025). Des modèles spécialisés comme Delphi, formés aux jugements moraux du crowdsourcés, ont également surclassé les LLM à usage général dans les tâches de raisonnement moral (Jiang et al. 2025).

Critiques conceptuelles

Les auteurs résument plusieurs critiques du traitement des LLM comme des simulateurs de la psychologie humaine. Premièrement, les LLM réagissent souvent de manière incohérente aux instructions, la qualité de sortie dépendait fortement des détails rapides et du cadrage (Zhu et al. 2024; Wang et al. 2025). Deuxièmement, les résultats varient à l’autre des types de modèles et des ré-phrasages de la même invite (MA 2024). Troisièmement, bien que les LLM peuvent approximer les réponses humaines moyennes, elles ne reproduisent pas la pleine variance des opinions humaines, y compris la diversité culturelle (Rime 2025; Kwok et al. 2024).

Le biais est une autre préoccupation. Les LLM héritent des biais culturels, sexistes, professionnels et socio-économiques des données de formation, qui peuvent différer systématiquement des biais humains (Rossi et al. 2024). Ils produisent également des «hallucinations» – un contenu factuel incorrect ou fictif – sans mécanisme interne pour distinguer la vérité (Huang et al. 2025; Reddy et al. 2024).

Le travail théorique soutient ces critiques. Van Rooij et al. (2024) ont démontré mathématiquement qu’aucun modèle de calcul formé uniquement sur les données d’observation ne peut correspondre aux réponses humaines à toutes les entrées. Du point de vue de l’apprentissage automatique, les auteurs soutiennent que la généralisation de la LLM est limitée aux séquences de jetons similaires aux données de formation, et non aux nouvelles entrées avec différentes significations. Ceci est essentiel car l’utilisation de LLMS comme participants simulés nécessite une généralisation de manière significative à de nouvelles configurations expérimentales.

Tests empiriques avec scénarios moraux

L’équipe a testé son argument en utilisant 30 Scénarios moraux de Dillion et al. (2023) avec des évaluations humaines des études antérieures (Clifford et al. 2015; Cook et Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Chaque scénario a été présenté dans son libellé d’origine et dans une version légèrement reformulée avec une signification modifiée mais des séquences token similaires. Par exemple, «coupe la barbe d’un aîné local pour le faire honte» est devenu «couper la barbe d’un aîné local pour le raser» (Schröder et al. 2025).

Participants humains (N = 374Mage =39.54Sd =12.53) ont été recrutés via des conditions prolifiques et aléatoires aux conditions originales ou reformulées. Ils ont évalué chaque comportement sur une échelle de -4 (extrêmement contraire à l’éthique) à +4 (extrêmement éthique). Les notes LLM ont été obtenues à partir de GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70b et Centaur, avec chaque requête répétée 10 des temps pour tenir compte de la variation aléatoire (Schröder et al. 2025).

Résultats

Pour les éléments d’origine, les corrélations entre les notes humaines et LLM ont reproduit les résultats antérieurs: GPT-3.5 et GPT-4 ont montré des corrélations ci-dessus 0,89 avec les évaluations humaines, tandis que Llama-3.1 et Centaur ont également montré un alignement élevé (R ≥ 0,80) (Schröder et al. 2025). Cependant, pour les éléments reformulés, les évaluations humaines ont chuté en corrélation avec 0,54 avec leurs cotes d’origine, reflétant Sensiti

Tags: IALLMS

Related Posts

Les scientifiques découvrent plus de 17 000 nouvelles espèces

Les scientifiques découvrent plus de 17 000 nouvelles espèces

décembre 26, 2025
GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

décembre 24, 2025
Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

décembre 23, 2025
Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

décembre 19, 2025
Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

décembre 15, 2025
Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

décembre 15, 2025

Recent Posts

  • Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet
  • Bethesda vise 600 heures de jeu pour Fallout 5
  • ASUS défend le port d’alimentation mal aligné du RTX 5090 HyperX comme "conception intentionnelle"
  • NVIDIA open source CUDA Tile IR sur GitHub
  • Le PDG de MicroStrategy explique les fondamentaux du Bitcoin "ça ne pourrait pas être mieux"

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.