Mistral, une startup française d’IA, a fait des vagues dans la communauté de l’IA avec la sortie de Mixtral 8x7B, son dernier modèle d’IA open source. Ce modèle a attiré l’attention car il surpasse potentiellement le GPT-3.5 d’OpenAI et le Llama 2 de Meta en termes de performances. La société a adopté une approche unique en publiant sans cérémonie son dernier grand modèle de langage via un lien torrent sur les réseaux sociaux. Cette décision contraste avec la fanfare typique associée aux versions d’IA, mettant en valeur l’attitude distincte de Mistral, semblable à celle d’un hacker.
Mistral 8x7B : une nouvelle centrale d’IA
Récemment, Mistral a soulevé une un impressionnant 415 millions de dollars dans un cycle de financement de série A, poussant sa valorisation à environ 2 milliards de dollars. Cette croissance financière met en évidence le succès et le potentiel de l’entreprise dans le secteur de l’IA. Mixtral 8x7B, employant une approche « mélange d’experts », intègre différents modèles, chacun spécialisé dans des tâches différentes. Cette technique innovante a conduit à ses performances impressionnantes, égalant ou surpassant GPT-3.5 et Llama 2 dans divers benchmarks. Mistral a publié ce modèle en ligne, suivi d’un article de blog officiel détaillant ses capacités, et a confirmé qu’il est disponible pour une utilisation commerciale sous une licence Apache 2.0.
Faible encombrement : il peut fonctionner sur un Mac
L’une des caractéristiques notables du Mixtral 8x7B est sa capacité à fonctionner sur des appareils non GPU, démocratisant potentiellement l’accès à la technologie avancée d’IA. Le modèle obtient des résultats de pointe parmi les modèles ouverts, avec des atouts en matière de génération de langage sur des contextes longs et de génération de code.
Pour ceux qui ne suivent pas de près l’IA :
1) Un modèle open source (gratuit, tout le monde peut télécharger ou modifier) bat GPT-3.5
2) Il n’a pas de garde-corps de sécurité
Il y a de bonnes choses dans cette version, mais les régulateurs, les experts en sécurité informatique, etc. devraient également noter que le génie est sorti de la bouteille. https://t.co/nHvlNKaItw– Ethan Mollick (@emollick) 11 décembre 2023
Les passionnés d’IA et les professionnels ont rapidement adopté Mixtral 8x7B, impressionnés par ses performances et sa flexibilité. Le faible encombrement du modèle lui permet de fonctionner sur des machines sans GPU dédiés, y compris les derniers ordinateurs Apple Mac. Cependant, son manque de garde-corps de sécurité, comme l’a observé Ethan Mollick, professeur à la Wharton School, a a soulevé des inquiétudes sur le contenu jugé dangereux par d’autres modèles.
6x plus rapide que Llama 2 70B
Mixtral 8x7B se démarque par sa vitesse d’inférence six fois plus rapide par rapport à Lama 2 70B, grâce à son architecture de modèle clairsemée et à huit blocs de rétroaction différents dans le Transformer. Il prend en charge des fonctionnalités multilingues, une excellente génération de code et une fenêtre contextuelle de 32 000 octets. La valorisation de Mistral a grimpé à plus de 2 milliards de dollars en seulement six mois, soulignant l’importance croissante des grands modèles de mélange d’experts dans le paysage de l’IA.
Open source sans limites
Mixtral 8x7B, un modèle open source, change la donne. Il surpasse non seulement certains concurrents américains comme la famille Llama 2 de Meta et le GPT-3.5 d’OpenAI, mais offre également des performances rapides et efficaces. La disponibilité open source du modèle contraste avec l’approche fermée d’OpenAI, s’alignant sur l’engagement de Mistral en faveur d’une « approche ouverte, responsable et décentralisée de la technologie ».
Le modèle de Mistral est un mélange clairsemé de modèles experts (SMoE) de haute qualité avec des pondérations ouvertes, sous licence Apache 2.0. Il a montré des performances supérieures sur la plupart des benchmarks par rapport au Llama 2 70B, réalisant une inférence six fois plus rapide. Cette efficacité fait du Mixtral 8x7B le modèle à poids ouvert le plus solide en termes de coût et de performances.