Tandis que des systèmes d’IA avancés appelés Grands modèles de raisonnement (LRM) ont démontré des performances impressionnantes sur des références complexes de résolution de problèmes, leurs véritables capacités de raisonnement peuvent être surestimées par les méthodes d’évaluation actuelles. Selon un récent article de Sajjad Ansari, un nouveau cadre de tests de stress multi-problèmes révèle que même des modèles de pointe luttent dans des conditions plus réalistes.
Le cadre, détaillé dans l’article REST: Un cadre de test de stress pour évaluer le raisonnement multi-problèmes dans de grands modèles de raisonnementa été développé par des chercheurs de l’Université Tsinghua, OpenDatalab, Shanghai AI Laboratory et Renmin University pour combler les lacunes critiques dans la façon dont ces modèles avancés sont testés.
Pourquoi les tests à question unique deviennent obsolètes
Les repères les plus récents utilisés pour évaluer les LRM, tels que GSM8K et les mathématiques, évaluent les modèles en posant une question à la fois. Cette approche présente deux inconvénients importants qui limitent son efficacité pour mesurer la véritable capacité de raisonnement. Premièrement, le pouvoir discriminant de ces repères diminue à mesure que les modèles top obtiennent des scores presque parfaits, ce qui rend difficile la distinction d’améliorations significatives entre elles. Par exemple, certains modèles atteignent maintenant 97% Précision sur des repères comme Math500, un niveau de saturation qui force la création coûteuse de jeux de données toujours plus durables.
Deuxièmement, les tests à question unique ne reflètent pas les scénarios du monde réel où les systèmes d’IA doivent raisonner à travers plusieurs problèmes potentiellement interférents en même temps. Des applications telles que le support technique, le tutorat pédagogique ou les assistants multitâches d’IA nécessitent une gestion dynamique de la charge cognitive, une compétence que les tests isolés ne peuvent pas mesurer. Pour y remédier, les chercheurs ont développé REST (raisonnement d’évaluation par le biais de tests simultanés), une méthode qui soulève plusieurs questions des repères existants en une seule invite pour mieux simuler les demandes du monde réel.
Le grand paradoxe de l’IA Trust baisse à mesure que sa valeur monte en flèche
Résultats clés des tests de stress multi-problèmes
En appliquant le cadre de repos à 34 SGMR avancés, les chercheurs ont découvert plusieurs informations révolutionnaires sur leurs véritables capacités. L’évaluation, effectuée sur 7 Diverses repères ont révélé que les performances se dégradent considérablement lorsque les modèles sont obligés de gérer plusieurs problèmes simultanément.
- Dégradation significative des performances: Même les modèles les plus performants comme Deepseek-R1 ont montré une baisse notable de précision lorsqu’elle est testée avec REST. Sur les références difficiles comme AIME24, la précision du modèle est tombée de presque 30% par rapport à ses performances dans les tests de questions isolés.
- Pouvoir discriminant amélioré: Le repos a considérablement amplifié les différences de performances entre les modèles qui semblaient similaires dans les tests à question unique. Sur la référence MATH500, deux modèles avec des scores initiaux étroits de 93% et 94,6% a montré un énorme 22% Écart de performance sous repos, leurs précisions tombant à 66,75% et 88,97%respectivement.
- Informations sur la méthode de formation: L’étude a révélé que les modèles affinés avec des méthodes communes comme l’apprentissage du renforcement sur les tâches à problème unique ne parviennent souvent pas à maintenir leur avantage dans un cadre multi-problèmes. Cependant, les modèles formés avec des techniques «long2short», qui encouragent un raisonnement plus concis et efficace, ont maintenu une précision plus élevée sous le stress, suggérant une direction prometteuse pour le développement futur.
Le cadre de repos simule un haut charge cognitiveForcer les modèles à allouer dynamiquement les ressources, à résister aux interférences des tâches simultanées et à éviter de trop réfléchir à un seul problème. Cette méthode permet également une analyse plus nuancée des erreurs qui sont invisibles dans les tests à question unique, tels que l’omission de questions, où un modèle ignore les questions ultérieures dans une invite, et les erreurs sommaires, où elle synthétise incorrectement les réponses de plusieurs problèmes. En revitalisant les ensembles de données existants et en reflétant les demandes du monde réel, le cadre fournit un paradigme plus fiable et à l’épreuve de l’avenir pour évaluer les systèmes d’IA de raisonnement de nouvelle génération.





