Selon une étude récente, les grands modèles de langage ont du mal avec la multiplication à plusieurs chiffres sans méthodes de formation spécialisées, malgré leur capacité à gérer des tâches complexes de codage et de raisonnement. Recherche publiée sur le arXiv Le serveur de préimpression de Xiaoyan Bai et Chenhao Tan de l’Université de Chicago, ainsi que de collaborateurs du MIT, de l’Université Harvard, de l’Université de Waterloo et de Google DeepMind, ont identifié les raisons de cette limitation et trouvé des solutions. Les grands modèles de langage standard atteignaient une précision inférieure à 1 % lors de la multiplication de deux nombres à quatre chiffres, même avec des couches augmentées jusqu’à 12. Ces modèles ont convergé vers un « optimum local », incapables de stocker et de récupérer les calculs intermédiaires nécessaires à la multiplication à plusieurs chiffres, qui sont classés comme dépendances à longue portée. À l’inverse, un modèle entraîné avec la méthode Implicit Chain of Thought (ICoT) a atteint une précision de 100 %. Le modèle ICoT a démontré sa capacité à suivre les dépendances à longue portée et à internaliser les processus de raisonnement en supprimant progressivement les étapes de raisonnement intermédiaires au cours de la formation. L’équipe de recherche a décodé les valeurs intermédiaires, telles que les sommes cumulées, à partir des états internes du modèle ICoT, ce qui n’était pas possible avec le modèle de réglage fin standard. Le modèle ICoT a organisé son attention en voies distinctes, calculant les produits de paires de chiffres dans les premières couches et les stockant dans des emplacements spécifiques pour les récupérer dans les couches ultérieures. Cela a créé une structure interne efficace pour la multiplication. L’étude a également révélé que le modèle ICoT représentait les opérations utilisant des structures élégantes, codant les chiffres sous forme de modèles ondulatoires (bases de Fourier) et organisant l’arithmétique spatialement. Lors de la multiplication de paires de chiffres, le modèle a naturellement utilisé une opération géométrique appelée somme de Minkowski, qui n’a pas été explicitement programmée par les chercheurs. Les chercheurs ont atteint une précision de 99 % dans un modèle à deux couches en introduisant un objectif de formation modifié qui apprenait au modèle à suivre les sommes cumulées à chaque étape, reportant ainsi les valeurs intermédiaires et les produits partiels. Cet ajout a permis au modèle de développer des mécanismes similaires à ceux d’ICoT, notamment le stockage et la récupération de produits partiels et le suivi simultané de plusieurs paires de chiffres. Chenhao Tan a déclaré : « Nos recherches tentent de cartographier ce terrain. » L’étude souligne que les connaissances architecturales et les techniques de formation peuvent surmonter les obstacles que la mise à l’échelle seule ne peut pas résoudre, soulignant l’importance des conseils intégrés pour faire progresser les capacités de l’IA. Les résultats mettent en lumière des aspects fondamentaux de la façon dont les grands modèles de langage apprennent et « pensent », le problème de dépendance à long terme s’étendant au-delà de l’arithmétique à d’autres tâches séquentielles dans la modélisation du langage.




