Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’étude trouve que les LLM ne peuvent pas simuler de manière fiable la psychologie humaine

byKerem Gülen
août 12, 2025
in Recherche
Home Recherche
Share on FacebookShare on Twitter
Google Preferred Source

Des chercheurs de l’Université Bielefeld et de l’Université Purdue ont publié Les modèles de grands langues ne simulent pas la psychologie humaineprésentant des preuves conceptuelles et empiriques que les modèles de grands langues (LLM) ne peuvent pas être traités comme des simulateurs cohérents des réponses psychologiques humaines (Schröder et al. 2025).

Contexte et portée

Depuis 2018, des LLM tels que GPT-3.5, GPT-4 et LLAMA-3.1 ont été appliqués aux tâches de la création de contenu à l’éducation (Schröder et al. 2025). Certains chercheurs ont proposé que les LLM pourraient remplacer les participants humains à des études psychologiques en répondant aux invites qui décrivent une personnalité, présentent un stimulus et fournissent un questionnaire (Almeida et al. 2024; Kwok et al. 2024). Le modèle Centaur, publié par Binz et al. (2025), a été affiné à peu près 10 millions de réponses humaines depuis 160 expériences pour générer des réponses humaines dans de tels contextes (Binz et al. 2025).

Des travaux antérieurs ont révélé un alignement élevé entre LLM et les jugements moraux humains. Par exemple, Dillion et al. (2023) ont signalé une corrélation de 0,95 entre les notes GPT-3,5 et les notes humaines à travers 464 Scénarios moraux. Des études de suivi avec GPT-4O ont suggéré le raisonnement moral jugé comme plus fiable et correct que les réponses éthiciennes humaines ou expertes (Dillion et al. 2025). Des modèles spécialisés comme Delphi, formés aux jugements moraux du crowdsourcés, ont également surclassé les LLM à usage général dans les tâches de raisonnement moral (Jiang et al. 2025).

Critiques conceptuelles

Les auteurs résument plusieurs critiques du traitement des LLM comme des simulateurs de la psychologie humaine. Premièrement, les LLM réagissent souvent de manière incohérente aux instructions, la qualité de sortie dépendait fortement des détails rapides et du cadrage (Zhu et al. 2024; Wang et al. 2025). Deuxièmement, les résultats varient à l’autre des types de modèles et des ré-phrasages de la même invite (MA 2024). Troisièmement, bien que les LLM peuvent approximer les réponses humaines moyennes, elles ne reproduisent pas la pleine variance des opinions humaines, y compris la diversité culturelle (Rime 2025; Kwok et al. 2024).

Le biais est une autre préoccupation. Les LLM héritent des biais culturels, sexistes, professionnels et socio-économiques des données de formation, qui peuvent différer systématiquement des biais humains (Rossi et al. 2024). Ils produisent également des «hallucinations» – un contenu factuel incorrect ou fictif – sans mécanisme interne pour distinguer la vérité (Huang et al. 2025; Reddy et al. 2024).

Le travail théorique soutient ces critiques. Van Rooij et al. (2024) ont démontré mathématiquement qu’aucun modèle de calcul formé uniquement sur les données d’observation ne peut correspondre aux réponses humaines à toutes les entrées. Du point de vue de l’apprentissage automatique, les auteurs soutiennent que la généralisation de la LLM est limitée aux séquences de jetons similaires aux données de formation, et non aux nouvelles entrées avec différentes significations. Ceci est essentiel car l’utilisation de LLMS comme participants simulés nécessite une généralisation de manière significative à de nouvelles configurations expérimentales.

Tests empiriques avec scénarios moraux

L’équipe a testé son argument en utilisant 30 Scénarios moraux de Dillion et al. (2023) avec des évaluations humaines des études antérieures (Clifford et al. 2015; Cook et Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Chaque scénario a été présenté dans son libellé d’origine et dans une version légèrement reformulée avec une signification modifiée mais des séquences token similaires. Par exemple, «coupe la barbe d’un aîné local pour le faire honte» est devenu «couper la barbe d’un aîné local pour le raser» (Schröder et al. 2025).

Participants humains (N = 374Mage =39.54Sd =12.53) ont été recrutés via des conditions prolifiques et aléatoires aux conditions originales ou reformulées. Ils ont évalué chaque comportement sur une échelle de -4 (extrêmement contraire à l’éthique) à +4 (extrêmement éthique). Les notes LLM ont été obtenues à partir de GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70b et Centaur, avec chaque requête répétée 10 des temps pour tenir compte de la variation aléatoire (Schröder et al. 2025).

Résultats

Pour les éléments d’origine, les corrélations entre les notes humaines et LLM ont reproduit les résultats antérieurs: GPT-3.5 et GPT-4 ont montré des corrélations ci-dessus 0,89 avec les évaluations humaines, tandis que Llama-3.1 et Centaur ont également montré un alignement élevé (R ≥ 0,80) (Schröder et al. 2025). Cependant, pour les éléments reformulés, les évaluations humaines ont chuté en corrélation avec 0,54 avec leurs cotes d’origine, reflétant Sensiti

Tags: IALLMS

Related Posts

Une étude établit un lien entre les devoirs assistés par l’IA et la baisse des résultats aux examens

Une étude établit un lien entre les devoirs assistés par l’IA et la baisse des résultats aux examens

juin 22, 2026
La plupart des PME britanniques consultent désormais l’IA avant leurs comptables

La plupart des PME britanniques consultent désormais l’IA avant leurs comptables

juin 17, 2026
Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026

Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026

juin 17, 2026
L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

juin 17, 2026
Un rapport Adobe révèle que 86 % des créateurs utilisent désormais l’IA générative dans leurs flux de travail

Un rapport Adobe révèle que 86 % des créateurs utilisent désormais l’IA générative dans leurs flux de travail

juin 17, 2026
Un nouveau procédé du MIT pourrait rendre la production de lithium moins chère et plus propre

Un nouveau procédé du MIT pourrait rendre la production de lithium moins chère et plus propre

juin 5, 2026

Recent Posts

  • Meta suspend son programme de suivi des employés après une fuite de données internes
  • Apple lance iOS 27 bêta 2 avec la nouvelle fonctionnalité « Écrire avec Siri »
  • Valve ouvre les réservations de Steam Machine à partir de 1 049 $
  • Instagram for TV est lancé sur les téléviseurs Samsung aux États-Unis
  • Getty Images s’associe à OpenAI pour fournir des visuels sous licence pour ChatGPT

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.