Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Les modèles d’IA standard échouent aux mathématiques simples sans formation spécialisée

byKerem Gülen
décembre 30, 2025
in Recherche
Home Recherche
Share on FacebookShare on Twitter
Google Preferred Source

Selon une étude récente, les grands modèles de langage ont du mal avec la multiplication à plusieurs chiffres sans méthodes de formation spécialisées, malgré leur capacité à gérer des tâches complexes de codage et de raisonnement. Recherche publiée sur le arXiv Le serveur de préimpression de Xiaoyan Bai et Chenhao Tan de l’Université de Chicago, ainsi que de collaborateurs du MIT, de l’Université Harvard, de l’Université de Waterloo et de Google DeepMind, ont identifié les raisons de cette limitation et trouvé des solutions. Les grands modèles de langage standard atteignaient une précision inférieure à 1 % lors de la multiplication de deux nombres à quatre chiffres, même avec des couches augmentées jusqu’à 12. Ces modèles ont convergé vers un « optimum local », incapables de stocker et de récupérer les calculs intermédiaires nécessaires à la multiplication à plusieurs chiffres, qui sont classés comme dépendances à longue portée. À l’inverse, un modèle entraîné avec la méthode Implicit Chain of Thought (ICoT) a atteint une précision de 100 %. Le modèle ICoT a démontré sa capacité à suivre les dépendances à longue portée et à internaliser les processus de raisonnement en supprimant progressivement les étapes de raisonnement intermédiaires au cours de la formation. L’équipe de recherche a décodé les valeurs intermédiaires, telles que les sommes cumulées, à partir des états internes du modèle ICoT, ce qui n’était pas possible avec le modèle de réglage fin standard. Le modèle ICoT a organisé son attention en voies distinctes, calculant les produits de paires de chiffres dans les premières couches et les stockant dans des emplacements spécifiques pour les récupérer dans les couches ultérieures. Cela a créé une structure interne efficace pour la multiplication. L’étude a également révélé que le modèle ICoT représentait les opérations utilisant des structures élégantes, codant les chiffres sous forme de modèles ondulatoires (bases de Fourier) et organisant l’arithmétique spatialement. Lors de la multiplication de paires de chiffres, le modèle a naturellement utilisé une opération géométrique appelée somme de Minkowski, qui n’a pas été explicitement programmée par les chercheurs. Les chercheurs ont atteint une précision de 99 % dans un modèle à deux couches en introduisant un objectif de formation modifié qui apprenait au modèle à suivre les sommes cumulées à chaque étape, reportant ainsi les valeurs intermédiaires et les produits partiels. Cet ajout a permis au modèle de développer des mécanismes similaires à ceux d’ICoT, notamment le stockage et la récupération de produits partiels et le suivi simultané de plusieurs paires de chiffres. Chenhao Tan a déclaré : « Nos recherches tentent de cartographier ce terrain. » L’étude souligne que les connaissances architecturales et les techniques de formation peuvent surmonter les obstacles que la mise à l’échelle seule ne peut pas résoudre, soulignant l’importance des conseils intégrés pour faire progresser les capacités de l’IA. Les résultats mettent en lumière des aspects fondamentaux de la façon dont les grands modèles de langage apprennent et « pensent », le problème de dépendance à long terme s’étendant au-delà de l’arithmétique à d’autres tâches séquentielles dans la modélisation du langage.


Crédit image en vedette

Tags: IAmathématiques

Related Posts

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

juin 3, 2026
Un sondage montre que 71 % des Américains pensent que l’IA progresse trop rapidement

Un sondage montre que 71 % des Américains pensent que l’IA progresse trop rapidement

mai 20, 2026
Les cartes de paiement volées au Royaume-Uni se vendent 12 $ sur le dark web, selon NordVPN

Les cartes de paiement volées au Royaume-Uni se vendent 12 $ sur le dark web, selon NordVPN

mai 20, 2026
Les centres de données et la cryptographie pourraient augmenter les coûts d’électricité de 57 % d’ici 2030

Les centres de données et la cryptographie pourraient augmenter les coûts d’électricité de 57 % d’ici 2030

mai 20, 2026
Les compétences en IA sont désormais vitales pour les promotions et les augmentations d’emploi, selon une étude

Les compétences en IA sont désormais vitales pour les promotions et les augmentations d’emploi, selon une étude

mai 20, 2026
Une nouvelle conception de puce magnétique pourrait surpasser les accélérateurs d’IA actuels

Une nouvelle conception de puce magnétique pourrait surpasser les accélérateurs d’IA actuels

mai 19, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.