Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Les modèles d’IA standard échouent aux mathématiques simples sans formation spécialisée

byKerem Gülen
décembre 30, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Selon une étude récente, les grands modèles de langage ont du mal avec la multiplication à plusieurs chiffres sans méthodes de formation spécialisées, malgré leur capacité à gérer des tâches complexes de codage et de raisonnement. Recherche publiée sur le arXiv Le serveur de préimpression de Xiaoyan Bai et Chenhao Tan de l’Université de Chicago, ainsi que de collaborateurs du MIT, de l’Université Harvard, de l’Université de Waterloo et de Google DeepMind, ont identifié les raisons de cette limitation et trouvé des solutions. Les grands modèles de langage standard atteignaient une précision inférieure à 1 % lors de la multiplication de deux nombres à quatre chiffres, même avec des couches augmentées jusqu’à 12. Ces modèles ont convergé vers un « optimum local », incapables de stocker et de récupérer les calculs intermédiaires nécessaires à la multiplication à plusieurs chiffres, qui sont classés comme dépendances à longue portée. À l’inverse, un modèle entraîné avec la méthode Implicit Chain of Thought (ICoT) a atteint une précision de 100 %. Le modèle ICoT a démontré sa capacité à suivre les dépendances à longue portée et à internaliser les processus de raisonnement en supprimant progressivement les étapes de raisonnement intermédiaires au cours de la formation. L’équipe de recherche a décodé les valeurs intermédiaires, telles que les sommes cumulées, à partir des états internes du modèle ICoT, ce qui n’était pas possible avec le modèle de réglage fin standard. Le modèle ICoT a organisé son attention en voies distinctes, calculant les produits de paires de chiffres dans les premières couches et les stockant dans des emplacements spécifiques pour les récupérer dans les couches ultérieures. Cela a créé une structure interne efficace pour la multiplication. L’étude a également révélé que le modèle ICoT représentait les opérations utilisant des structures élégantes, codant les chiffres sous forme de modèles ondulatoires (bases de Fourier) et organisant l’arithmétique spatialement. Lors de la multiplication de paires de chiffres, le modèle a naturellement utilisé une opération géométrique appelée somme de Minkowski, qui n’a pas été explicitement programmée par les chercheurs. Les chercheurs ont atteint une précision de 99 % dans un modèle à deux couches en introduisant un objectif de formation modifié qui apprenait au modèle à suivre les sommes cumulées à chaque étape, reportant ainsi les valeurs intermédiaires et les produits partiels. Cet ajout a permis au modèle de développer des mécanismes similaires à ceux d’ICoT, notamment le stockage et la récupération de produits partiels et le suivi simultané de plusieurs paires de chiffres. Chenhao Tan a déclaré : « Nos recherches tentent de cartographier ce terrain. » L’étude souligne que les connaissances architecturales et les techniques de formation peuvent surmonter les obstacles que la mise à l’échelle seule ne peut pas résoudre, soulignant l’importance des conseils intégrés pour faire progresser les capacités de l’IA. Les résultats mettent en lumière des aspects fondamentaux de la façon dont les grands modèles de langage apprennent et « pensent », le problème de dépendance à long terme s’étendant au-delà de l’arithmétique à d’autres tâches séquentielles dans la modélisation du langage.


Crédit image en vedette

Tags: IAmathématiques

Related Posts

JWST identifie SN Eos : la supernova la plus lointaine jamais confirmée par spectroscopie

JWST identifie SN Eos : la supernova la plus lointaine jamais confirmée par spectroscopie

janvier 21, 2026
Miggo Security contourne les défenses de Google Gemini via les invitations de calendrier

Miggo Security contourne les défenses de Google Gemini via les invitations de calendrier

janvier 21, 2026
Analyste Forrester : l’IA n’a pas réussi à faire avancer la productivité mondiale

Analyste Forrester : l’IA n’a pas réussi à faire avancer la productivité mondiale

janvier 20, 2026
Comment l'IA a créé le malware VoidLink en seulement sept jours

Comment l'IA a créé le malware VoidLink en seulement sept jours

janvier 20, 2026
OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

janvier 19, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026

Recent Posts

  • Spotify lance des listes de lecture guidées basées sur l'IA
  • Snap déploie un suivi granulaire du temps d'écran dans la mise à jour de Family Center
  • Google Photos repense le partage avec un carrousel plein écran immersif
  • NexPhone lance un téléphone triple OS pour 549 $
  • Anthropic revoit les tests d'embauche grâce à Claude AI

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.