Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Apple affirme qu’un score élevé sur l’ensemble de données GSM8K ne signifie pas que votre IA est plus intelligente

byEmre Çıtak
octobre 15, 2024
in Machine Learning
Home Machine Learning
Share on FacebookShare on Twitter

Des recherches récentes d’Apple suggèrent que les modèles ayant obtenu un score élevé sur l’ensemble de données GSM8K ne sont peut-être pas aussi intelligents qu’il y paraît.

Les grands modèles linguistiques (LLM) ont été largement salués pour leurs capacités de raisonnement apparemment impressionnantes. Les modèles d’entreprises comme OpenAI, Google et Meta sont souvent présentés comme des outils puissants capables de résoudre des problèmes complexes, des tests comme l’ensemble de données GSM8K étant une référence populaire pour mesurer leurs capacités de raisonnement.

Pourtant, les recherches d’Apple sont sur le point de changer ce que l’on appelle le système digne de confiance.

Qu’est-ce que l’ensemble de données GSM8K ?

L’ensemble de données GSM8K (Grade School Math 8K) est une référence utilisée pour évaluer les capacités de résolution de problèmes et de raisonnement des grands modèles linguistiques (LLM). Il se compose de plus de 8 000 problèmes de mots mathématiques de niveau scolaire, qui nécessitent généralement des compétences arithmétiques, de raisonnement logique et de résolution de problèmes en plusieurs étapes pour arriver à la bonne réponse.

L’ensemble de données GSM8K se compose de :

  • Mathématiques au niveau de l’école primaire: Les problèmes sont conçus pour imiter le type de questions qu’un élève de la 1re à la 8e année pourrait rencontrer, comme l’arithmétique de base, la géométrie, l’algèbre et les énigmes logiques.
  • Problèmes de mots: Chaque question est présentée sous la forme d’un problème de mots, exigeant que le modèle interprète le problème, identifie les nombres et les opérations pertinents et résolve l’équation.
  • Utilisé pour l’évaluation LLM: L’ensemble de données est souvent utilisé comme test pour voir dans quelle mesure les modèles de langage tels que GPT d’OpenAI, les modèles de Google ou LLaMA de Meta peuvent gérer des tâches de raisonnement au-delà de la simple prédiction de texte.
  • Raisonnement en plusieurs étapes: Les problèmes nécessitent plusieurs étapes à résoudre, testant la capacité du modèle à suivre des séquences complexes de raisonnement, plutôt que de simplement produire une réponse en une seule étape.

L’ensemble de données GSM8K est devenu un outil populaire pour évaluer si les LLM peuvent raisonner logiquement et résoudre des problèmes du monde réel. Cependant, il est à craindre que de nombreux modèles d’IA fonctionnent bien sur cet ensemble de données grâce à une correspondance de modèles plutôt qu’à un véritable raisonnement, car ils auraient pu être exposés à des problèmes similaires lors de la formation.

Ensemble de données GSM8K Recherche Apple GSM-Symbolic
L’ensemble de données GSM8K contient plus de 8 000 problèmes de mots mathématiques au niveau de l’école primaire

Limites des LLM de l’ensemble de données GSM8K

Les chercheurs d’Apple affirment que ce succès pourrait être dû davantage à une correspondance de modèles sophistiquée qu’à un véritable raisonnement logique. Étant donné que l’ensemble de données GSM8K est si couramment utilisé, il existe un risque de contamination des données, ce qui signifie que de nombreux LLM ont peut-être déjà constaté ces problèmes au cours de la formation, gonflant ainsi leur intelligence apparente.

Pour résoudre ce problème, Apple a développé une nouvelle référence appelée Symbole GSM. Ce test conserve les principaux éléments de raisonnement de l’ensemble de données GSM8K mais introduit des changements tels que des noms, des nombres et une complexité différents, ainsi que des informations non pertinentes.

Les résultats? Chaque LLM testé, y compris des modèles comme celui d’OpenAI GPT-4 et les méta Lama 3a connu une baisse significative de ses performances face à ce nouveau défi. Ceci suggère que Les LLM ont du mal à comprendre le vrai raisonnement lorsque les variables sont modifiéesremettant davantage en question leurs capacités réelles à résoudre des problèmes.

Pourquoi les LLM ont-ils du mal ?

L’étude d’Apple met en lumière une faille critique dans les LLM : Ils sont excellents pour détecter des modèles dans les données d’entraînement, mais manquent de véritable raisonnement logique.. Par exemple, lorsque les problèmes mathématiques incluaient des détails non pertinents, tels que la taille des kiwis dans un scénario de cueillette de fruits, de nombreux LLM soustrayaient ces détails non pertinents de l’équation, démontrant ainsi leur incapacité à discerner quelles informations étaient nécessaires pour résoudre le problème.

Lors de tests avec le Ensemble de données GSM8Kles LLM comme les modèles d’OpenAI ont obtenu de meilleurs résultats que leurs homologues open source, mais la baisse de précision lorsque des informations non pertinentes ont été ajoutées suggère que ces systèmes sont loin d’atteindre une véritable intelligence. Cela a de profondes implications pour le développement futur de l’IA, montrant que même si les LLM peuvent imiter l’intelligence, ils ont encore du mal à vraiment comprendre le contexte.

Ensemble de données GSM8K Recherche Apple GSM-Symbolic
Les recherches d’Apple montrent que les LLM ont du mal à comprendre le vrai raisonnement, souvent confus par des détails non pertinents dans les problèmes mathématiques.

Une IA plus intelligente ou simplement plus intelligente pour paraître intelligente ?

Les recherches d’Apple soulignent les limites du recours à des références telles que l’ensemble de données GSM8K pour évaluer l’intelligence de l’IA. Bien que ces tests puissent mesurer la reconnaissance de formes, ils ne capturent pas toujours les nuances du véritable raisonnement logique. L’introduction du benchmark GSM-Symbolic fournit un test plus rigoureux de la capacité d’une IA à gérer des variables inconnues et des informations non pertinentes, compétences essentielles à la résolution de problèmes du monde réel.

Sam Altman, PDG d’OpenAI, a même reconnu ces défis, qualifiant les LLM actuels de «incroyablement stupide» malgré leur apparence extérieure impressionnante dans une interview exclusive avec Revue technologique du MIT. Le véritable test pour les futurs LLM sera leur capacité à aller au-delà de la reconnaissance de formes et à développer des capacités de résolution de problèmes plus solides.

Les résultats de l’étude d’Apple offrent une perspective qui donne à réfléchir sur l’état actuel des LLM. Alors que les modèles formés sur des ensembles de données comme GSM8K peuvent bien fonctionner dans des environnements contrôlés, leurs capacités de raisonnement faiblissent lorsqu’elles sont testées sur des problèmes plus complexes du monde réel. Cela souligne l’importance de poursuivre la recherche et le développement pour garantir que les modèles d’IA vont au-delà de l’intelligence de surface et développent de véritables compétences de raisonnement logique.

Pour l’instantil est crucial de tempérer l’enthousiasme suscité par l’IA avec un scepticisme sain, en se concentrant sur des systèmes d’IA plus sûrs et plus intelligents, capables de gérer plus que la simple reconnaissance de formes.


Crédits images: DC Studio/Gratuit

Tags: En vedetteEnsemble de données GSM8KLLMPommeSymbole GSM

Related Posts

Pourquoi l’apprentissage automatique est devenu un outil clé de la tarification dynamique

Pourquoi l’apprentissage automatique est devenu un outil clé de la tarification dynamique

décembre 20, 2024
Détection automatique du format de fichier dans les projets de migration de données

Détection automatique du format de fichier dans les projets de migration de données

décembre 12, 2024
Explorer les portails de conseils d’administration en tant que logiciels technologiques

Explorer les portails de conseils d’administration en tant que logiciels technologiques

décembre 12, 2024
L’avenir est dans votre poche : comment déplacer l’IA vers les smartphones

L’avenir est dans votre poche : comment déplacer l’IA vers les smartphones

novembre 18, 2024
Une startup britannique développe un microprocesseur pliable capable d’exécuter des modèles ML pour moins de 1 USD

Une startup britannique développe un microprocesseur pliable capable d’exécuter des modèles ML pour moins de 1 USD

octobre 1, 2024
Le rôle de l’IA et de l’apprentissage automatique dans la sécurité du cloud

Le rôle de l’IA et de l’apprentissage automatique dans la sécurité du cloud

septembre 4, 2024

Recent Posts

  • La publicité de vacances Porsche 2025 devient virale car elle n’utilise absolument aucune IA
  • Le jeu en nuage Xbox arrive sur les modèles Amazon Fire TV
  • La violation de données Aflac a touché 22,65 millions de clients
  • La panne d’AWS perturbe Fortnite et Steam
  • Les scientifiques découvrent plus de 17 000 nouvelles espèces

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.