Des recherches récentes d’Apple suggèrent que les modèles ayant obtenu un score élevé sur l’ensemble de données GSM8K ne sont peut-être pas aussi intelligents qu’il y paraît.
Les grands modèles linguistiques (LLM) ont été largement salués pour leurs capacités de raisonnement apparemment impressionnantes. Les modèles d’entreprises comme OpenAI, Google et Meta sont souvent présentés comme des outils puissants capables de résoudre des problèmes complexes, des tests comme l’ensemble de données GSM8K étant une référence populaire pour mesurer leurs capacités de raisonnement.
Pourtant, les recherches d’Apple sont sur le point de changer ce que l’on appelle le système digne de confiance.
Qu’est-ce que l’ensemble de données GSM8K ?
L’ensemble de données GSM8K (Grade School Math 8K) est une référence utilisée pour évaluer les capacités de résolution de problèmes et de raisonnement des grands modèles linguistiques (LLM). Il se compose de plus de 8 000 problèmes de mots mathématiques de niveau scolaire, qui nécessitent généralement des compétences arithmétiques, de raisonnement logique et de résolution de problèmes en plusieurs étapes pour arriver à la bonne réponse.
L’ensemble de données GSM8K se compose de :
- Mathématiques au niveau de l’école primaire: Les problèmes sont conçus pour imiter le type de questions qu’un élève de la 1re à la 8e année pourrait rencontrer, comme l’arithmétique de base, la géométrie, l’algèbre et les énigmes logiques.
- Problèmes de mots: Chaque question est présentée sous la forme d’un problème de mots, exigeant que le modèle interprète le problème, identifie les nombres et les opérations pertinents et résolve l’équation.
- Utilisé pour l’évaluation LLM: L’ensemble de données est souvent utilisé comme test pour voir dans quelle mesure les modèles de langage tels que GPT d’OpenAI, les modèles de Google ou LLaMA de Meta peuvent gérer des tâches de raisonnement au-delà de la simple prédiction de texte.
- Raisonnement en plusieurs étapes: Les problèmes nécessitent plusieurs étapes à résoudre, testant la capacité du modèle à suivre des séquences complexes de raisonnement, plutôt que de simplement produire une réponse en une seule étape.
L’ensemble de données GSM8K est devenu un outil populaire pour évaluer si les LLM peuvent raisonner logiquement et résoudre des problèmes du monde réel. Cependant, il est à craindre que de nombreux modèles d’IA fonctionnent bien sur cet ensemble de données grâce à une correspondance de modèles plutôt qu’à un véritable raisonnement, car ils auraient pu être exposés à des problèmes similaires lors de la formation.
Limites des LLM de l’ensemble de données GSM8K
Les chercheurs d’Apple affirment que ce succès pourrait être dû davantage à une correspondance de modèles sophistiquée qu’à un véritable raisonnement logique. Étant donné que l’ensemble de données GSM8K est si couramment utilisé, il existe un risque de contamination des données, ce qui signifie que de nombreux LLM ont peut-être déjà constaté ces problèmes au cours de la formation, gonflant ainsi leur intelligence apparente.
Pour résoudre ce problème, Apple a développé une nouvelle référence appelée Symbole GSM. Ce test conserve les principaux éléments de raisonnement de l’ensemble de données GSM8K mais introduit des changements tels que des noms, des nombres et une complexité différents, ainsi que des informations non pertinentes.
Les résultats? Chaque LLM testé, y compris des modèles comme celui d’OpenAI GPT-4 et les méta Lama 3a connu une baisse significative de ses performances face à ce nouveau défi. Ceci suggère que Les LLM ont du mal à comprendre le vrai raisonnement lorsque les variables sont modifiéesremettant davantage en question leurs capacités réelles à résoudre des problèmes.
Pourquoi les LLM ont-ils du mal ?
L’étude d’Apple met en lumière une faille critique dans les LLM : Ils sont excellents pour détecter des modèles dans les données d’entraînement, mais manquent de véritable raisonnement logique.. Par exemple, lorsque les problèmes mathématiques incluaient des détails non pertinents, tels que la taille des kiwis dans un scénario de cueillette de fruits, de nombreux LLM soustrayaient ces détails non pertinents de l’équation, démontrant ainsi leur incapacité à discerner quelles informations étaient nécessaires pour résoudre le problème.
Lors de tests avec le Ensemble de données GSM8Kles LLM comme les modèles d’OpenAI ont obtenu de meilleurs résultats que leurs homologues open source, mais la baisse de précision lorsque des informations non pertinentes ont été ajoutées suggère que ces systèmes sont loin d’atteindre une véritable intelligence. Cela a de profondes implications pour le développement futur de l’IA, montrant que même si les LLM peuvent imiter l’intelligence, ils ont encore du mal à vraiment comprendre le contexte.
Une IA plus intelligente ou simplement plus intelligente pour paraître intelligente ?
Les recherches d’Apple soulignent les limites du recours à des références telles que l’ensemble de données GSM8K pour évaluer l’intelligence de l’IA. Bien que ces tests puissent mesurer la reconnaissance de formes, ils ne capturent pas toujours les nuances du véritable raisonnement logique. L’introduction du benchmark GSM-Symbolic fournit un test plus rigoureux de la capacité d’une IA à gérer des variables inconnues et des informations non pertinentes, compétences essentielles à la résolution de problèmes du monde réel.
Sam Altman, PDG d’OpenAI, a même reconnu ces défis, qualifiant les LLM actuels de «incroyablement stupide» malgré leur apparence extérieure impressionnante dans une interview exclusive avec Revue technologique du MIT. Le véritable test pour les futurs LLM sera leur capacité à aller au-delà de la reconnaissance de formes et à développer des capacités de résolution de problèmes plus solides.
Les résultats de l’étude d’Apple offrent une perspective qui donne à réfléchir sur l’état actuel des LLM. Alors que les modèles formés sur des ensembles de données comme GSM8K peuvent bien fonctionner dans des environnements contrôlés, leurs capacités de raisonnement faiblissent lorsqu’elles sont testées sur des problèmes plus complexes du monde réel. Cela souligne l’importance de poursuivre la recherche et le développement pour garantir que les modèles d’IA vont au-delà de l’intelligence de surface et développent de véritables compétences de raisonnement logique.
Pour l’instantil est crucial de tempérer l’enthousiasme suscité par l’IA avec un scepticisme sain, en se concentrant sur des systèmes d’IA plus sûrs et plus intelligents, capables de gérer plus que la simple reconnaissance de formes.
Crédits images: DC Studio/Gratuit