Meta Llama 3.1 405b ouvre un nouveau chapitre pour les modèles de langage open source. Cette avancée apporte des compétences inégalées à la technologie de l’IA. Les débuts de Meta Llama 3.1 405b bouleversent la scène des grands modèles de langage, offrant des performances de premier ordre accessibles à tous.
Les chercheurs et les codeurs ont hâte de mettre la main sur Méta Llama 3.1 405b. Ce modèle fait un bond en avant dans l’IA open source, en rivalisant avec des modèles privés sophistiqués. Avec sa taille énorme et ses astuces astucieuses, Meta llama 3.1 405b est sur le point de bouleverser le traitement du langage naturel.
Meta Llama 3.1 405b présente un tas de compétences intéressantes, comme une intelligence générale plus pointue, un meilleur contrôle et des performances exceptionnelles en mathématiques et en parlant de nombreuses langues.
Ces mises à niveau font de Meta Llama 3.1 405b un Couteau suisse pour toutes sortes de travauxdes études scolaires au monde des affaires.
À partir d’aujourd’hui, l’open source ouvre la voie. Présentation de Llama 3.1 : nos modèles les plus performants à ce jour.
Aujourd’hui, nous lançons une collection de nouveaux modèles Llama 3.1, dont notre tant attendu 405B. Ces modèles offrent des capacités de raisonnement améliorées, un contexte de jeton plus large de 128 000 $… pic.twitter.com/1iKpBJuReD
— L’IA chez Meta (@AIatMeta) 23 juillet 2024
Qu’est-ce qui rend le Meta Llama 3.1 405b si spécial ?
L’arrivée du Meta Llama 3.1 405b est une Un grand pas en avant pour l’IA open sourceCe modèle peut rivaliser avec les meilleurs systèmes privés, ouvrant ainsi les portes à une technologie linguistique de pointe pour tous.
Le fait que Metallama 3.1 405b soit open source signifie que les codeurs et les chercheurs peuvent bricoler avec un modèle de langage de premier ordre comme jamais auparavant. Cette liberté d’action devrait accélérer l’émergence de nouvelles idées dans tous les domaines, de la compréhension du langage humain à la traduction automatique.
Le package Meta llama 3.1 405b est également livré avec des versions améliorées de modèles plus petitscomme le 8B et le 70B.
Ces modèles peuvent parler plusieurs langues et gérer des textes plus longs, ce qui les rend parfaits pour toutes sortes de tâches.
Fonctionnalités de Meta Llama 3.1 405b
Le modèle utilise une configuration de transformateur uniquement avec décodeur, modifiée pour fonctionner en douceur et avoir du punch à grande échelle.
La formation Meta Llama 3.1 405b a nécessité une montagne de puissance informatique, en utilisant plus de 16 000 GPU H100Ce traitement massif des nombres permet au modèle mâcher des tonnes de donnéeslui conférant ses compétences de premier ordre.
Les chercheurs de Meta proposent quelques de nouvelles façons pour améliorer le jeu du modèle. Ils ont utilisé un processus de formation aller-retour et de meilleures méthodes pour sélectionner et nettoyer les données avant et après la formation.
Pour rendre Meta Llama 3.1 405b plus facile à utiliser dans le monde réel, l’équipe je l’ai réduit de 16 bits à 8 bitsCette solution intelligente permet au modèle de fonctionner sur un seul serveur, ce qui le rend plus facile à utiliser.
Pousser à la limite!
Le nouveau modèle est devenu bien plus performant pour suivre les ordres et discuter. L’IA de Meta a subi plusieurs cycles de peaufinage, notamment :
- Réglage fin supervisé
- Échantillonnage de rejet
- Optimisation des préférences directes
La création de Meta Llama 3.1 405b a nécessité de jongler avec de nombreuses compétences. L’équipe a travaillé dur pour maintenir le niveau de précision avec différentes longueurs de texte tout en intégrant des mesures de sécurité.
Meta Llama 3.1 405b est destiné à jouer correctement avec d’autres outils d’IA comme GPT d’OpenAI et Gemini de GoogleCette configuration permet aux codeurs de mélanger et d’associer pour créer des solutions personnalisées pour des tâches spécifiques.
Le package Meta Llama 3.1 405b est livré avec des extras tels que Garde Lama 3un modèle de sécurité qui parle plusieurs langues, et Garde rapidequi bloque les astuces de saisie sournoises.
Ces outils visent à aider les gens construire et utiliser l’IA de manière responsable.
La sécurité d’abord
Meta est partout sur la sécurité de l’IA alors que les gouvernements tentent de la comprendre. Ils soutiennent de nouveaux groupes de sécurité et s’associent à des vétérans comme le NIST et ML Commons pour définir des idées communes, des modèles de menaces et des moyens de tester les choses.
Meta travaille également avec des équipes comme le Frontier Model Forum et le Partnership on AI pour former les meilleures pratiques et discuter avec tout le monde.
Comme expliqué dans leur récent article de blogAvant de lancer un modèle, Meta recherche et apprivoise les risques potentiels de diverses manières. Ils vérifient les dangers avant le lancement, effectuent des tests de sécurité et des ajustements, et soumettent le modèle à des tests avec des experts externes et internes.
Au fur et à mesure que Llama 3.1 a appris de nouvelles astuces comme parler plus de langues et gérer des textes plus longs, Meta a renforcé ses contrôles de sécurité en conséquence.
Meta veut aider les codeurs à se protéger contre une éventuelle utilisation abusive de Llama. Ils ont tissé mesures de sécurité tout au long de la croissance du modèle et a élaboré une boîte à outils de protection pour que les codeurs puissent personnaliser leurs applications d’IA.
L’entreprise s’associe à d’autres géants comme AWS, NVIDIA et Databricks pour s’assurer que les outils de sécurité sont fournis avec les modèles Llama, poussant (et exigeant) l’utilisation responsable des systèmes Llama.
L’équipe rouge en action
Meta organise de nombreux exercices en équipe rouge en utilisant à la fois des professionnels humains et des méthodes basées sur l’IA. Ils s’associent à des gourous du sujet dans les domaines à risque clés et ont réuni une équipe d’experts de tous horizons pour voir comment leurs modèles résistent à différents types de fauteurs de troubles.
L’entreprise a évalué et maîtrisé les risques dans des domaines tels que la cybersécurité, les armes dangereuses et la sécurité des enfants. Elle a effectué des tests pour voir si Llama 3.1 405B pouvait sérieusement améliorer la sécurité des acteurs malveillants dans ces domaines.
Jusqu’à présentils n’ont pas vu de grands sauts dans ce que les personnes mal intentionnées peuvent faire avec Llama 3.1 405B.
Meta est également déterminé à créer des modèles d’IA qui jouent selon les Règles de sécurité dès la conceptionsurtout lorsqu’il s’agit d’assurer la sécurité des enfants.
Ils ont intégré ces principes en sélectionnant soigneusement les données de formation et le garder propre de tout ce qui est dégoûtant en rapport avec les enfants.
Llama 3.1 405B est également passé par contrôles de confidentialité à divers moments de la formation. Meta a utilisé des astuces pour réduire la mémorisation des informations privées et a organisé des exercices en équipe rouge pour repérer et corriger les points faibles de la confidentialité.
Comment se compare le troupeau de modèles Llama 3 ?
Meta a fourni les résultats de référence de Meta Llama 3.1 405b dans son article de blog. En regardant ces graphiques, Meta Llama 3.1 405b se compare plutôt bien aux autres modèles d’IA de premier plan.
Voici l’essentiel :
Intelligence générale
Meta Llama 3.1 405b obtient un score de 88,6 au test MMLU, qui vérifie les connaissances générales. C’est un score à la hauteur de GPT-4 Omni (88,7) et Claude 3.5 Sonnet (88,3). Il bat GPT-4 (85,4) et Nemotron 4 (78,7) de loin.
Compétences en codage
Pour le codage (Évaluation humaine), Meta Llama 3.1 405b obtient Note de 89,0Il est au coude à coude avec GPT-4 Omni (90,2) et pas loin derrière Claude 3.5 Sonnet (92,0). Il est clairement devant Nemotron 4 (73,2) et GPT-4 de base (86,6).
Compétences mathématiques
Meta Llama 3.1 405b brille vraiment en mathématiques. obtient un score de 96,8 sur GSM8Ksurpassant tous les autres, y compris GPT-4 Omni (96,1) et Claude 3.5 Sonnet (96,4).
Compétences de réflexion
Dans le Défi ARC pour le raisonnementMéta Llama 3.1 405b obtient 96,9légèrement en retrait GPT-4 (96,4) et GPT-4 Omni correspondant et Claude 3.5 Sonnet (tous deux 96,7).
Gestion des textes longs
Meta Llama 3.1 405b scores 95,2 sur ZeroSCROLLS/Qualitéà égalité avec GPT-4 et battant GPT-4 Omni et Claude 3.5 Sonnet (tous deux 90,5).
Plusieurs langues
Pour les multilingues Test MGSMMéta Llama 3.1 405b obtient 91,6égalant Claude 3.5 Sonnet et battant GPT-4 (85.9) et GPT-4 Omni (90.5).
Versions plus petites
Les modèles plus petits du Meta Llama 3.1 (8B et 70B) sont également très performants pour leur taille. La version 70B surpasse souvent d’autres modèles comme le Mixtral 8x22B et GPT 3.5 Turbo à travers différents tests.
Comment utiliser Meta Llama 3.1 405b
Pour utiliser Meta llama 3.1 405b, vous avez plusieurs options :
Télécharge le
Se diriger vers lama.meta.com ou Hugging Face. Récupérez les fichiers du modèle et installez-le sur votre propre machine ou serveur. Cette méthode est la meilleure si vous disposez d’une puissance de calcul et d’un savoir-faire sérieux.
Plateformes cloud
Meta s’est associé à de grands acteurs comme AWS, NVIDIA et Databricks. Ils ont Meta Llama 3.1 405b prêt à être déployé sur leurs services cloud. Cette solution est idéale si vous souhaitez que le gros du travail soit fait pour vous.
Plateformes partenaires
De nombreuses entreprises d’IA se sont lancées dans l’aventure en proposant Meta Llama 3.1 405b via leurs services. Cela pourrait être le moyen le plus simple de commencer à bricoler sans devenir trop technique.
Configuration locale
Si vous êtes un expert en technologie et que vous disposez d’un ordinateur puissant, vous pouvez exécuter des versions plus petites de Meta Llama 3.1 en local. Le modèle 405B est cependant trop volumineux pour la plupart des configurations personnelles.
Réglage fin
Pour des tâches spécifiques, vous pouvez affiner Meta llama 3.1 405b sur vos propres données. Cela nécessite un certain savoir-faire, mais peut rendre le modèle extrêmement précis pour vos besoins.
Transformateurs de visages câlins
Si vous aimez le codage, la bibliothèque Hugging Face Transformers facilite le travail avec Meta Llama 3.1 405b en Python.
N’oubliez pas que Meta Llama 3.1 405b est un modèle open source. Cela signifie que vous pouvez creuser dans son noyau, ajuste-leet utilisez-le de la manière qui convient le mieux à votre projet.
Juste Gardez un œil sur les termes de la licence pour vous assurer que vous jouez selon les règles.
En rendant tout ce travail public, Meta espère donner aux codeurs le pouvoir de créer des systèmes adaptés à leur style et de personnaliser la sécurité en fonction de leurs besoins spécifiques.
Comme ceux-ci jouets technologiques en constante évolution, Meta prévoit de continuer à peaufiner ces fonctionnalités et ces modèles, aidant ainsi les gens à construire, créer et se connecter de manière nouvelle et passionnante.
Pendant ce temps dans le monde de Zuck
S’appuyant sur l’IA de Meta, Zuckerberg a de grands rêves pour les créateurs de contenu. Il prépare des assistants IA qui discuteront avec les fans, ce qui permettra aux créateurs de faire leur travail. Ces mini-moi numériques s’imprégneront de l’ambiance et des objectifs des médias sociaux d’un créateur, puis interagiront avec ses abonnés comme un remplaçant avisé.
Cela correspond parfaitement à la timonerie de Meta Llama 3.1 405b. Ce modèle intelligent pourrait être la sauce secrète qui alimente ces assistants IA, avec son talent pour le bavardage humain et son intelligence étendue. Il a les atouts pour peut-être réussir ce tour d’imitation de personnalité dont Zuck rêve.
Mais voici le hic : L’IA a encore quelques difficultés de croissance.
Se souvenir du L’incident de la crevette Jésus? Les premiers bots IA de Meta ont trébuché, débitant des bêtises dans les groupes Facebook. Bien que Meta Llama 3.1 405b ait intensifié son jeu, il n’est pas parfait. Les créateurs pourraient hésiter à confier les interactions des fans à un bot qui pourrait faire des erreurs.
Zuckerberg sait qu’il a du pain sur la planche. Il compte sur Metallama 3.1 405b et ses amis pour convaincre les gens. Mais avec certains créateurs qui regardent déjà de travers les habitudes d’entraînement de l’IA de Meta, la bataille s’annonce difficile.
La course est lancée pour créer des aides IA auxquelles les créateurs font réellement confiance.
Crédit de l’image en vedette: Méta