Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Intella est ici: le modèle de paramètre 3B d’AMD prend des prises sur Llama et Gemma

byKerem Gülen
mars 7, 2025
in Artificial Intelligence, News
Home Artificial Intelligence

AMD a dévoilé Intella, une famille de modèles de langage entièrement open source avec 3 milliards de paramètres, formés à partir de zéro sur les GPU AMD Instinct ™ MI300X. Les modèles Intella surpassent les modèles ouverts existants de tailles similaires et rivalisent efficacement avec les principaux modèles de poids ouvert, y compris LLAMA-3.2-3B, GEMMA-2-2B et QWEN-2.5-3B, y compris leurs versions réglées par l’instruction.

AMD dévoile Intella: les modèles de langue open source surpassent les rivaux

Intella utilise une architecture de transformateur autorégressive composée de 36 couches de décodeur et 32 ​​têtes d’attention, ce qui lui permet de traiter de longues séquences allant jusqu’à 4 096 jetons. Le modèle utilise un vocabulaire d’environ 50 000 jetons, gérés par le tokenizer Olmo, ce qui le rend apte à générer et à interpréter du texte dans divers domaines.

La procédure de formation pour Ingella met en évidence la collaboration entre les innovations matérielles et logicielles d’AMD. Ce nouveau modèle s’appuie sur les bases établies par les modèles précédents de 1 milliard de paramètres d’AMD, passant de l’entraînement sur 64 GPU Instinct Mi250 avec 1,3 billion de jetons à l’utilisation de 128 GPU Instinct Mi300X avec 4,15 billions de jetons pour le modèle actuel de 3 milliards de paramètres.

Intella-Is-Here-AMD-3B-Parameter-Model-Takes-on-Llama-and-Gemma
Image: AMD

En comparant Intella aux modèles antérieurs, AMD rapporte qu’il dépasse non seulement les modèles entièrement ouverts existants, mais réalise également des performances concurrentielles avec des modèles de pointe ouverte de pointe, marquant une étape importante dans le domaine du traitement du langage naturel. Cette initiative s’aligne sur l’engagement d’AMD à rendre les technologies de pointe plus accessibles et favoriser la collaboration et l’innovation au sein de la communauté de l’IA.


Les prix AMD RX 9000 pourraient vous faire repenser cet achat RTX 5090


Phases du modèle Intella et données de formation

Cette version comprend plusieurs versions des modèles Intella, chacun représentant différentes étapes de formation:

Modèle Scène Données de formation (jetons) Description
Intella-3b-stage1 Pré-formation (étape 1) 4,065 billions Première étape avant la formation pour développer la maîtrise du langage naturel.
Intella-3B Pré-formation (étape 2) 57,575 milliards Pré-formation en deuxième étape pour améliorer les capacités de résolution de problèmes.
Intella-3B-SFT SFT 8,902 milliards (x3 époques) Le réglage fin supervisé (SFT) pour permettre les capacités de suivi des instructions.
Instruct Intella-3B DPO 760 millions Alignement sur les préférences humaines et l’amélioration des capacités de chat avec l’optimisation directe des préférences (DPO).

Dans le pipeline de formation en plusieurs étapes, la première étape de pré-formation a utilisé 4,065 billions de jetons à partir de divers ensembles de données, établissant une compréhension des langues fondamentales. La formation ultérieure sur 57,575 milliards de jetons supplémentaires a encore amélioré les performances du modèle à travers des tâches et des domaines variés.

Pendant le réglage fin supervisé, Intella-3B-SFT a été formé avec 8,9 milliards de jetons, améliorant les capacités de réponse interactive. La dernière étape, Instructe Intella-3B, a suivi une formation d’alignement avec une optimisation directe de préférence en utilisant 0,76 milliard de jetons, garantissant que les résultats du modèle sont alignés sur les valeurs et les préférences humaines.

AMD a créé tous les artefacts associés aux modèles Intella entièrement open-source, y compris les poids des modèles, les configurations de formation, les ensembles de données et le code, favorisant la collaboration et l’innovation dans la communauté d’IA. Ces ressources sont accessibles via Visage étreint cartes modèles et Github référentiels.


Crédit d’image en vedette: DMLA

Tags: DMLAIAIntella

Related Posts

L’API anthropique permet à Claude de parcourir Internet pour vous

L’API anthropique permet à Claude de parcourir Internet pour vous

mai 8, 2025
Mistral Medium 3 détruit les autres dans les repères

Mistral Medium 3 détruit les autres dans les repères

mai 8, 2025
L’IA conduit maintenant l’arsenal frais des outils de création de Figma

L’IA conduit maintenant l’arsenal frais des outils de création de Figma

mai 8, 2025
Un visage étreint déchaîne une IA gratuite pour exécuter votre ordinateur

Un visage étreint déchaîne une IA gratuite pour exécuter votre ordinateur

mai 8, 2025
Reddit dit que les robots AI sont trop bons maintenant que certains utilisateurs doivent vérifier

Reddit dit que les robots AI sont trop bons maintenant que certains utilisateurs doivent vérifier

mai 8, 2025
Oubliez la prison de l’App Store Ce projet de loi veut vous remettre les clés

Oubliez la prison de l’App Store Ce projet de loi veut vous remettre les clés

mai 8, 2025

Recent Posts

  • Développement de produits LLM
  • Flux de travail d’apprentissage automatique
  • Précision du modèle d’apprentissage automatique
  • Paramètres LLM
  • Erreur carrée moyenne (MSE)

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.