Meta a annoncé la sortie en production de Llama 3.2, une collection sans précédent de modèles d’intelligence artificielle gratuits et open source visant à façonner l’avenir de l’intelligence artificielle avec flexibilité et efficacité.
Alors que les entreprises sont à la recherche de solutions d’IA apocalyptiques capables de fonctionner sur le matériel le plus courant ou sur ceux qui sont populaires pour développer des solutions pour les grandes entreprises ainsi que pour les indépendants, Llama 3.2 propose de nouveaux modèles.
Llama 3.2 se concentre sur les appareils mobiles et de pointe
L’accent mis sur le tranchant et la mobilité est quelque chose d’assez évident chez Meta.
Quant aux nouveautés de cette version, les développeurs ont ajouté des LLM de petite et moyenne vision : 11B et 90B, et ont également introduit des alternatives de texte pur, 1B et 3B.
En particulier, les nouveaux modèles introduits ici sont adaptés au fonctionnement des appareils de pointe, ce qui rend la technologie de l’IA accessible à davantage de clients. Les modèles légers uniquement textuels, en particulier ceux sans aucune donnée visuelle, sont conçus pour des tâches plus simples telles que le résumé et le suivi des instructions en raison de la faible puissance de calcul.
En raison du traitement centralisé des données sur les appareils mobiles, avec exécution locale, aucune donnée n’est téléchargée vers le cloud, comme le déclare Meta,
« L’exécution locale sur des appareils mobiles garantit que les données restent sur l’appareil, améliorant ainsi la confidentialité des utilisateurs en évitant le traitement basé sur le cloud »,
Cette fonctionnalité est particulièrement utile pour les applications qui traitent des données sensibles, car elle permet à l’application d’effectuer des tâches importantes tout en préservant la confidentialité des données. Par exemple, les utilisateurs peuvent répondre à des messages personnels tout en les résumant, ou obtenir des éléments de liste de tâches à effectuer lors de réunions sans relayer les messages à des serveurs externes.
Progrès dans l’architecture des modèles
Le changement le plus significatif de Llama 3.2 réside dans diverses améliorations architecturales. Les nouveaux modèles utilisent une architecture basée sur des adaptateurs qui peut combiner des encodeurs d’images avec des modèles de texte pré-entraînés sans modification. Cette intégration conduit à des améliorations dans la capacité de raisonnement dans les domaines du texte et de l’image et élargit considérablement la gamme d’applications de ces modèles.
Les modèles pré-entraînés résultants ont été soumis à des exercices de réglage précis rigoureux qui ont nécessité l’utilisation d’énormes données de paires image-texte bruyantes.
Llama 3.2 11B et 90B prennent en charge une gamme de tâches de vision multimodale. Ces fonctionnalités permettent des scénarios tels que le sous-titrage d’images pour l’accessibilité, la fourniture d’informations en langage naturel basées sur des visualisations de données, etc. pic.twitter.com/8kwTopytaf
— L’IA chez Meta (@AIatMeta) 25 septembre 2024
Il y a un ajout important à la longueur du contexte du jeton, et il est passé à un niveau très impressionnant 128 000 pour les modèles légers 1B et 3B. Il permet un transport plus large des données, ce qui est particulièrement utile pour les documents longs et la réflexion élaborée.
Cette capacité à prendre en charge des tailles d’entrée aussi importantes place Llama 3.2 dans une position avantageuse par rapport à ses concurrents sur le marché de l’IA dynamique dominé par Les modèles GPT d’OpenAI.
Qu’en est-il des indicateurs de performance ?
Les modèles de Llama 3.2 ont démontré des performances exceptionnelles, renforçant encore leur avantage concurrentiel sur le marché. Le modèle 1B a obtenu un score de 49,3 sur le benchmark MMLU, tandis que le modèle 3B a obtenu un score de 63,4. Du côté de la vision, les modèles 11B et 90B ont démontré leurs capacités avec des scores de 50,7 et 60,3, respectivement, dans les tâches de raisonnement visuel.
En évaluant les performances sur des évaluations et des repères humains approfondis, les résultats suggèrent que les modèles de vision Llama 3.2 sont compétitifs avec les principaux modèles fermés sur la reconnaissance d’images + une gamme de tâches de compréhension visuelle. pic.twitter.com/QtOzExBcrd
— L’IA chez Meta (@AIatMeta) 25 septembre 2024
Ces mesures indiquent que les modèles Llama 3.2 non seulement atteignent mais dépassent souvent les performances des offres similaires d’autres sociétés, telles que Haïku Claude 3 et GPT4o-mini.
L’intégration de la technologie UnslothAI accroît également l’efficacité de ces modèles, permettant des vitesses de réglage et d’inférence deux fois plus rapides tout en réduisant l’utilisation de la VRAM de 70 %. Cette amélioration est cruciale pour les développeurs qui cherchent à mettre en œuvre des solutions d’IA en temps réel sans faire face à des limitations matérielles.
Collaboration et soutien de l’écosystème
L’un des facteurs clés qui définissent la capacité de Llama 3.2 à être commercialisé est son écosystème bien développé. Les partenariats avec d’autres leaders du secteur mobile comme Qualcomm, MediaTek et AWS permettent aux développeurs de mettre en œuvre ces modèles dans différents environnements, environnements cloud et appareils locaux.
Le Pile de lamas Les distributions telles que Llama Stack pour les installations sur l’appareil et Llama Stack pour l’installation sur un seul nœud offrent des solutions dont les développeurs peuvent tirer parti et intégrer ces modèles dans leurs projets sans complications supplémentaires.
Les modèles légers Llama 3.2 livrés aujourd’hui incluent la prise en charge de @Bras, @MediaTek & @Qualcomm pour permettre à la communauté des développeurs de commencer à créer des applications mobiles percutantes dès le premier jour. pic.twitter.com/DhhNcUviW7
— L’IA chez Meta (@AIatMeta) 25 septembre 2024
Comment utiliser Meta Llama 3.2 ?
La dernière version du modèle d’IA open source, Llama 3.2, est désormais disponible sur le Site Web de Meta Llamaoffrant des capacités améliorées de personnalisation, de réglage fin et de déploiement sur diverses plates-formes.
Les développeurs peuvent choisir parmi quatre tailles de modèle : 1B, 3B, 11B et 90B, ou continuer à utiliser l’ancienne Lama 3.1.
Meta ne se contente pas de diffuser ces modèles dans la nature ; elle souhaite s’assurer que les développeurs disposent de tout ce dont ils ont besoin pour exploiter efficacement Llama 3.2. Cet engagement comprend le partage d’outils et de ressources précieux pour aider les développeurs à créer de manière responsable. En mettant continuellement à jour ses meilleures pratiques et en s’engageant auprès de la communauté open source, Meta espère inspirer l’innovation tout en promouvant IA éthique usage.
« Nous sommes ravis de poursuivre les conversations que nous avons avec nos partenaires et la communauté open source, et comme toujours, nous avons hâte de voir ce que la communauté va construire en utilisant Llama 3.2 et Llama Stack »,
Meta a déclaré.
Cette approche collaborative améliore non seulement les capacités de Llama 3.2, mais favorise également un écosystème dynamique. Qu’il s’agisse de solutions de périphérie légères ou de tâches multimodales plus complexes, Meta espère que les nouveaux modèles offriront la flexibilité nécessaire pour répondre aux diverses demandes des utilisateurs.
Crédits images: Méta