Une nouvelle étude de Université de New York et Université de Tübingenconduit par Hanna M. Dettki, Brenden M. Lake, Charley M. Wu et Bob Rehderdemande si l’IA peut raisonner sur les causes comme le font les humains ou s’il s’appuie plutôt sur des modèles. Leur papier, « Les grands modèles de langage raisonne-t-il causalement comme nous? Encore mieux?», Approche quatre modèles populaires – GPT-3.5, GPT-4O, Claude-3 et Gemini-Pro – pour voir s’ils saisissent les structures causales complexes ou imitent simplement le langage humain.
Comment l’étude a testé le raisonnement causal dans l’IA
Les chercheurs ont comparé le raisonnement humain avec quatre LLMGPT-3.5, GPT-4O, CLAUDE-3 et GEMINI-PRO-en utilisant graphiques de collisionneursun test classique en inférence causale. Les participants (humains et IA) ont été invités à évaluer la probabilité d’un événement compte tenu de certaines relations causales. La question principale: les LLM raisonnent-elles de manière causale de la même manière que les humains le font ou suivent-ils une logique différente?
L’IA gère maintenant les simulations moléculaires: grâce à mdcrow
Résultats clés: l’IA peut raisonner mais pas comme les humains
Les résultats ont révélé un spectre de raisonnement causal parmi les modèles d’IA.
- GPT-4O et Claude-3 a montré le plus raisonnement normatifce qui signifie qu’ils ont suivi la théorie des probabilités plus étroitement que les participants humains.
- Gemini-Pro et GPT-3.5d’un autre côté, affiché plus raisonnement associatifce qui signifie qu’ils s’appuyaient davantage sur les modèles statistiques plutôt que sur une logique causale stricte.
- Tous les modèles ont présenté des biaiss’écarter de l’indépendance attendue des causes. Cependant, Claude-3 était le moins biaiséce qui signifie qu’il adhérait le plus étroitement aux normes causales mathématiques.
Fait intéressant, Les humains appliquent souvent une heuristique qui s’écartent de la théorie des probabilités strictes – comme l’effet «expliquant», où l’observation d’une cause réduit la probabilité d’une autre. Alors que les modèles d’IA ont reconnu cet effet, leurs réponses variaient considérablement en fonction des données de formation et du contexte.
AI vs raisonnement humain: une différence fondamentale
L’une des idées les plus intrigantes de l’étude est que les LLM Ne vous contentez pas d’imiter le raisonnement humain– Ils abordent la causalité différemment. Contrairement aux humains, dont les jugements sont restés relativement stables dans différents contextes, Les modèles d’IA ont ajusté leur raisonnement en fonction de la connaissance du domaine (par exemple, économie contre sociologie).
- GPT-4O, en particulier, a traité les liens causaux comme déterministesen supposant que certaines causes produisent toujours des effets spécifiques.
- Les humains, en revanche, tiennent compte de l’incertitudereconnaissant que les relations causales ne sont pas toujours absolues.
Cela suggère que bien que l’IA puisse être plus précis Dans certaines tâches structurées, il manque la flexibilité de la pensée humaine lorsqu’il s’agit de situations ambiguës ou multi-causales.
Pourquoi cela compte pour l’IA dans la prise de décision
L’étude révèle une limitation importante: Les LLM peuvent ne pas généraliser les connaissances causales au-delà de leurs données de formation sans guidage solide. Cela a des implications essentielles pour le déploiement de l’IA dans la prise de décision du monde réel, des diagnostics médicaux aux prévisions économiques.
Les LLM pourraient surpasser les humains dans l’inférence basée sur les probabilités, mais leur raisonnement reste fondamentalement différent – qui manque souvent la logique intuitive et adaptative que les humains utilisent dans la résolution de problèmes quotidiens.
En d’autres termes, l’IA peut raisonner sur la causalité, mais pas tout à fait comme nous.
Crédit d’image en vedette: Kerem gülen / idéogramme