Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Un nouveau cadre de test de stress révèle des défauts dans le raisonnement AI avancé

byKerem Gülen
juillet 29, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Tandis que des systèmes d’IA avancés appelés Grands modèles de raisonnement (LRM) ont démontré des performances impressionnantes sur des références complexes de résolution de problèmes, leurs véritables capacités de raisonnement peuvent être surestimées par les méthodes d’évaluation actuelles. Selon un récent article de Sajjad Ansari, un nouveau cadre de tests de stress multi-problèmes révèle que même des modèles de pointe luttent dans des conditions plus réalistes.

Le cadre, détaillé dans l’article REST: Un cadre de test de stress pour évaluer le raisonnement multi-problèmes dans de grands modèles de raisonnementa été développé par des chercheurs de l’Université Tsinghua, OpenDatalab, Shanghai AI Laboratory et Renmin University pour combler les lacunes critiques dans la façon dont ces modèles avancés sont testés.

Pourquoi les tests à question unique deviennent obsolètes

Les repères les plus récents utilisés pour évaluer les LRM, tels que GSM8K et les mathématiques, évaluent les modèles en posant une question à la fois. Cette approche présente deux inconvénients importants qui limitent son efficacité pour mesurer la véritable capacité de raisonnement. Premièrement, le pouvoir discriminant de ces repères diminue à mesure que les modèles top obtiennent des scores presque parfaits, ce qui rend difficile la distinction d’améliorations significatives entre elles. Par exemple, certains modèles atteignent maintenant 97% Précision sur des repères comme Math500, un niveau de saturation qui force la création coûteuse de jeux de données toujours plus durables.

Deuxièmement, les tests à question unique ne reflètent pas les scénarios du monde réel où les systèmes d’IA doivent raisonner à travers plusieurs problèmes potentiellement interférents en même temps. Des applications telles que le support technique, le tutorat pédagogique ou les assistants multitâches d’IA nécessitent une gestion dynamique de la charge cognitive, une compétence que les tests isolés ne peuvent pas mesurer. Pour y remédier, les chercheurs ont développé REST (raisonnement d’évaluation par le biais de tests simultanés), une méthode qui soulève plusieurs questions des repères existants en une seule invite pour mieux simuler les demandes du monde réel.


Le grand paradoxe de l’IA Trust baisse à mesure que sa valeur monte en flèche


Résultats clés des tests de stress multi-problèmes

En appliquant le cadre de repos à 34 SGMR avancés, les chercheurs ont découvert plusieurs informations révolutionnaires sur leurs véritables capacités. L’évaluation, effectuée sur 7 Diverses repères ont révélé que les performances se dégradent considérablement lorsque les modèles sont obligés de gérer plusieurs problèmes simultanément.

  • Dégradation significative des performances: Même les modèles les plus performants comme Deepseek-R1 ont montré une baisse notable de précision lorsqu’elle est testée avec REST. Sur les références difficiles comme AIME24, la précision du modèle est tombée de presque 30% par rapport à ses performances dans les tests de questions isolés.
  • Pouvoir discriminant amélioré: Le repos a considérablement amplifié les différences de performances entre les modèles qui semblaient similaires dans les tests à question unique. Sur la référence MATH500, deux modèles avec des scores initiaux étroits de 93% et 94,6% a montré un énorme 22% Écart de performance sous repos, leurs précisions tombant à 66,75% et 88,97%respectivement.
  • Informations sur la méthode de formation: L’étude a révélé que les modèles affinés avec des méthodes communes comme l’apprentissage du renforcement sur les tâches à problème unique ne parviennent souvent pas à maintenir leur avantage dans un cadre multi-problèmes. Cependant, les modèles formés avec des techniques «long2short», qui encouragent un raisonnement plus concis et efficace, ont maintenu une précision plus élevée sous le stress, suggérant une direction prometteuse pour le développement futur.

Le cadre de repos simule un haut charge cognitiveForcer les modèles à allouer dynamiquement les ressources, à résister aux interférences des tâches simultanées et à éviter de trop réfléchir à un seul problème. Cette méthode permet également une analyse plus nuancée des erreurs qui sont invisibles dans les tests à question unique, tels que l’omission de questions, où un modèle ignore les questions ultérieures dans une invite, et les erreurs sommaires, où elle synthétise incorrectement les réponses de plusieurs problèmes. En revitalisant les ensembles de données existants et en reflétant les demandes du monde réel, le cadre fournit un paradigme plus fiable et à l’épreuve de l’avenir pour évaluer les systèmes d’IA de raisonnement de nouvelle génération.

Tags: LLMLRM

Related Posts

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

janvier 19, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026

Recent Posts

  • Microsoft propose une mise à jour d'urgence OOB pour corriger la boucle de redémarrage de Windows 11
  • Musk cherche 134 milliards de dollars à OpenAI et Microsoft
  • Threads atteint 141 millions d'utilisateurs quotidiens pour revendiquer le trône mobile de X
  • Les intégrations de Google Wallet et Tasks font surface dans une nouvelle fuite du Pixel 10
  • iOS 27 : tout ce que nous savons jusqu'à présent

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.