NVIDIA a dévoilé une avancée majeure dans la formation des modèles d’IA avec le lancement du Transformateur normalisé (nGPT). Cette nouvelle architecture, conçue pour améliorer le processus de formation des grands modèles de langage (LLM), a le potentiel d’accélérer les temps de formation de 4 à 20 fois, tout en maintenant la stabilité et la précision du modèle. Le modèle nGPT rationalise le processus de formation, en utilisant moins de ressources et en offrant une solution plus efficace pour le développement de l’IA.
Ce qui différencie nGPT : apprentissage hypersphérique
Au cœur de l’efficacité du nGPT se trouve un concept appelé apprentissage de la représentation hypersphérique. Dans les modèles de transformateur traditionnels, les données sont souvent traitées sans cadre géométrique cohérent. Le nGPT de NVIDIA change cela en mappant tous les composants clés, tels que les intégrations, les matrices d’attention et les états cachés, sur la surface d’une hypersphère. Cette configuration géométrique permet de garantir que toutes les couches du modèle restent équilibrées pendant la formation, créant ainsi un processus d’apprentissage plus stable et plus efficace.
Cette approche réduit considérablement le nombre d’étapes de formation. Plutôt que d’appliquer la décroissance du poids directement aux poids du modèle comme les modèles précédents, le nGPT s’appuie sur paramètres de mise à l’échelle apprisqui optimisent la façon dont le modèle s’ajuste pendant l’entraînement. Il est important de noter que cette méthode élimine le besoin d’autres techniques de normalisation telles que Norme de calque ou Norme RMSrendant le processus à la fois plus simple et plus rapide.
Une formation plus rapide avec moins de ressources
Les résultats de l’architecture de nGPT sont clairs. Lors des tests effectués à l’aide de l’ensemble de données OpenWebText, le nGPT de NVIDIA a systématiquement surpassé les modèles GPT traditionnels en termes de vitesse et d’efficacité. Avec des saisies de texte pouvant atteindre 4 000 jetons, nGPT a nécessité beaucoup moins de cycles de formation pour obtenir une perte de validation similaire, réduisant ainsi considérablement le temps nécessaire à la formation de ces modèles complexes.
De plus, la structure hypersphérique du nGPT offre une meilleure intégration de la séparabilité. Cela signifie que le modèle peut plus facilement distinguer les différentes entrées, ce qui améliore la précision lors des tests d’IA standard. La généralisation améliorée du modèle lui permet également de mieux performer sur des tâches au-delà de sa formation initiale, accélérant la convergence tout en maintenant des niveaux élevés de précision.
Pourquoi c’est important pour la formation en IA
Un avantage clé du nGPT est sa capacité à combiner les deux normalisation et représentation apprendre dans un cadre unifié. Cette conception simplifie l’architecture du modèle, facilitant ainsi sa mise à l’échelle et son adaptation à des systèmes hybrides plus complexes. Cela pourrait potentiellement conduire au développement de systèmes d’IA encore plus puissants à l’avenir, dans la mesure où l’approche du nGPT pourrait être intégrée à d’autres types de modèles et d’architectures.
Crédit image en vedette : Kerem Gülen/Idéogramme