Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Deepseek AI présente la NSA: une approche plus rapide de la modélisation à long contexte

byKerem Gülen
février 19, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Les grands modèles de langue (LLM) deviennent plus intelligents, mais ils frappent également un mur: la manipulation de longs morceaux de texte est lent et coûteux en calcul. Les mécanismes d’attention traditionnels – le cœur de la façon dont l’IA traite et se souvient des informations – à l’échelle efficace, ce qui rend les modèles coûteux pour s’entraîner et courir.

Maintenant, des chercheurs de Université Deepseek-ai et de Pékin avoir présenté Une approche qui change la donne appelée Attention nativement clairsemée (NSA). Cette nouvelle méthode promet de faire des modèles d’IA significativement plus rapide, moins cher et plus efficacetout en maintenant le même niveau de capacité de raisonnement que les approches traditionnelles.

Pourquoi le problème d’attention de l’IA a besoin d’un correctif

Imaginez lire un livre où vous devez garder chaque phrase à l’esprit à tout moment – c’est ainsi que Pleine attention Les mécanismes fonctionnent dans l’IA. Ils numérisent et stockent des informations sur de longues séquences, mais à mesure que la longueur du contexte augmente (pensez à des milliers de mots), cette approche devient incroyablement lente et lourde par calcul.

Pour y remédier, les chercheurs ont exploré Attention clairsemée— Qui ne traite sélectivement que les informations les plus importantes au lieu de tout. Cependant, les méthodes clairsemées existantes ont faiblesses majeures:

  1. Ils sont difficiles à entraîner à partir de zéronécessitant souvent des modèles pour apprendre d’abord en toute attention avant de passer à une approche clairsemée.
  2. Ils n’optimisent pas complètement pour le matériel modernece qui signifie que les améliorations théoriques de la vitesse ne se traduisent pas toujours par l’efficacité du monde réel.
Deepseek-ai-introduces-nsa-a-faster-approach-to-long-context-modeling
(Crédit d’image)

Comment la NSA change le jeu

L’équipe derrière la NSA, dont Jingyang Yuan, Huazuo Gao, Damai Dai et leurs collègues, a adopté une nouvelle approche. Leur méthode intègre nativement la rareté dès le débutplutôt que de l’appliquer après coup.

La NSA y parvient avec Deux innovations clés:

  • Efficacité alignée sur le matériel: La NSA est conçue pour maximiser les performances du GPU, en évitant les goulots d’étranglement de mémoire et en garantissant des accéléreuses du monde réel.
  • Entraînement de bout en bout: Contrairement aux méthodes clairsemées précédentes, la NSA est entièrement entraînable à partir de zéro, réduisant les coûts de formation sans perdre sa précision.

Vitesse et précision: l’avantage de la NSA

Alors, comment la NSA s’accumule-t-elle contre les modèles traditionnels de l’attention complète? Selon l’étude, La NSA atteint jusqu’à 11 × améliorations de vitesse tout en faisant la correspondance – ou même surperformant – une attention particulière sur les références clés.

Certaines des plus grandes victoires comprennent:

  • Traitement plus rapide: NSA accélère la capacité de l’IA à gérer les documents longs, les bases de code et les conversations multi-tournées.
  • Meilleur raisonnement: En dépit d’être «clairsemé», les modèles de la NSA faire correspondre ou dépasser Modèles d’attention complètes dans les tâches de raisonnement en chaîne.
  • Réduire les coûts: En réduisant le calcul sans sacrifier les performances, la NSA pourrait rendre l’IA avancée plus abordable pour s’entraîner et déployer.
Deepseek-ai-introduces-nsa-a-faster-approach-to-long-context-modeling
(Crédit d’image)

Méthodes d’attention clairsemées existantes

De nombreux mécanismes d’attention clairsemés existants tentent de réduire tokens d’élagage sélectif ou Optimisation de l’accès à la mémoire. Cependant, ils échouent souvent à la mise en œuvre pratique, soit parce qu’ils introduisent des composants non traçables ou ne parviennent pas à s’aligner sur les architectures GPU modernes.

Par exemple:

  • Clusterkv et magicpig Comptez sur des techniques de regroupement ou de hachage discrètes, qui perturbent le flux de gradient et entravent l’entraînement du modèle.
  • H2O et Minférence Appliquer la rareté uniquement pendant les stades spécifiques de l’inférence, limitant les améliorations de la vitesse à travers le pipeline complet.
  • Quête et infllm Utilisez des méthodes de sélection en blocs, mais leur notation basée sur l’heuristique entraîne souvent des taux de rappel plus bas.

NSA aborde ces limites en intégrant la rativité nativement—Efficacité de l’intention de la formation et de l’inférence tout en préservant la précision du modèle. Cela signifie Aucune approximation post-hoc ou des compromis entre la vitesse et la capacité de raisonnement.

Les performances de la NSA sur les tâches du monde réel

Pour valider l’efficacité de la NSA, les chercheurs l’ont testé à travers une gamme de tâches d’IA, en comparant ses performances avec des modèles d’attention complets traditionnels et des méthodes d’attention clairsemées de pointe. Les résultats mettent en évidence la capacité de la NSA à faire correspondre ou dépasser les modèles d’attention complets tout en réduisant considérablement les coûts de calcul.

Deepseek-ai-introduces-nsa-a-faster-approach-to-long-context-modeling
(Crédit d’image)

Performance générale de référence

La NSA a démontré Forte précision à travers les connaissances, le raisonnement et les références codantesy compris:

  • MMLU & CMMLU: Correspondant à toute l’attention des tâches basées sur les connaissances
  • GSM8K et mathématiques: Surpasser toute l’attention dans un raisonnement complexe
  • Humaneval & MBPP: Offrir des performances de codage solide

Compréhension du contexte à long terme

NSA excelle à gérer les séquences de contexte long dans des repères comme Secouer. Dans les tâches nécessitant une mémoire contextuelle profonde, la NSA a maintenu:

  • Rappel élevé dans les tâches de récupération (Aiguille dans un haystack, document QA)
  • Précision stable dans le raisonnement multi-HOP (HPQ, 2Wiki, Govrpt)

Gains de vitesse du monde réel

Les optimisations alignées sur le matériel dans la NSA conduisent à:

  • 9 × vitesses d’inférence plus rapides pour des séquences de longueur de 64 000
  • 6 × efficacité d’entraînement plus rapide par rapport aux modèles d’attention complets
  • Réduction de la consommation de bande passante de mémoirerendre les applications d’IA à grande échelle plus réalisables
Tags: en profondeurEn vedetteIA

Related Posts

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026
Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

décembre 31, 2025
Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

décembre 31, 2025
L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

décembre 30, 2025

Recent Posts

  • XBrew Lab dévoile une machine à café nitro sans cartouche au CES 2026
  • Snowflake va acquérir la plateforme d'observabilité Observe
  • Google transforme Gmail avec AI Inbox et la recherche en langage naturel
  • L'UE et le Royaume-Uni enquêtent sur X en raison du manque de garanties de Grok
  • TikTok signe un partenariat avec la FIFA pour les temps forts de la Coupe du Monde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.