Microsoft intensifie son jeu dans le monde de l’IA avec la nouvelle série Phi-3.5, offrant trois modèles de pointe conçus pour différentes tâches. Ces modèles ne sont pas seulement puissants, ils sont également polyvalents, ce qui permet aux développeurs de s’attaquer plus facilement à tout, du codage de base à la résolution de problèmes complexes et même aux tâches visuelles. Que vous travailliez avec des ressources limitées ou que vous ayez besoin de fonctionnalités avancées intelligence artificielle En termes de capacités, les modèles Phi-3.5 ont quelque chose à offrir, et voici un aperçu rapide d’entre eux.
Analyse des modèles Phi-3.5 de Microsoft
La dernière version de Microsoft, la série Phi 3.5, introduit trois modèles d’IA avancés : Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct et Phi-3.5-vision-instruct. Chaque modèle est conçu pour répondre à des besoins spécifiques, du raisonnement de base aux tâches multimodales avancées.
Les trois modèles Microsoft Phi-3.5 sont disponibles sous licence MIT, ce qui permet aux développeurs d’utiliser, de modifier et de distribuer les modèles avec un minimum de restrictions. Cette approche open source favorise une adoption généralisée et favorise l’innovation dans diverses applications et domaines de recherche.
Phi-3.5 Mini Instruct : efficace et compact
Le Microsoft Phi-3.5 Mini Instruct Le modèle est conçu pour fonctionner de manière exceptionnelle dans des environnements aux ressources informatiques limitées. Avec 3,8 milliards de paramètres, il est adapté aux tâches qui nécessitent de solides capacités de raisonnement mais ne nécessitent pas une puissance de calcul importante. Formé sur 3,4 billions de jetons à l’aide de 512 GPU H100-80G sur 10 jours.
Caractéristiques principales :
- Paramètres: 3,8 milliards
- Longueur du contexte : 128 000 jetons
- Principaux cas d’utilisation : Génération de code, résolution de problèmes mathématiques, raisonnement basé sur la logique
- Performance: Malgré sa taille réduite, il affiche des performances compétitives dans les tâches conversationnelles multilingues et multi-tours. Il excelle dans des tests de performance tels que RepoQA, qui mesure la compréhension de code à contexte long, surpassant d’autres modèles de taille similaire comme Llama-3.1-8B-instruct.
La conception efficace du Phi-3.5 Mini Instruct lui permet de fournir des performances robustes tout en tenant compte des contraintes de ressources. Cela le rend adapté au déploiement dans des scénarios où les ressources de calcul sont limitées mais où des performances élevées sont toujours requises.
Phi-3.5 MoE : Mélange d’architecture experte
Le Microsoft Phi-3.5 MoE (Mélange d’experts) Le modèle représente une approche sophistiquée de l’architecture de l’IA en combinant plusieurs modèles spécialisés en un seul. Il présente une conception unique où différents « experts » sont activés en fonction de la tâche, optimisant ainsi les performances dans divers domaines. Formé sur 4,9 billions de jetons avec 512 GPU H100-80G sur 23 jours.
Caractéristiques principales :
- Paramètres: 42 milliards (actifs), dont 6,6 milliards utilisés activement pendant l’exploitation
- Longueur du contexte : 128 000 jetons
- Principaux cas d’utilisation : Tâches de raisonnement complexes, compréhension de code, compréhension de langage multilingue
- Performance: Le modèle MoE est particulièrement performant dans les tâches de codage et de mathématiques et présente une solide compréhension multilingue. Il surpasse fréquemment les modèles plus grands dans des tests de performance spécifiques, notamment un avantage notable sur GPT-4o mini dans le test MMLU (Massive Multitask Language Understanding) à 5 coups.
L’architecture Phi-3.5 MoE améliore l’évolutivité et l’efficacité en activant uniquement un sous-ensemble de paramètres pertinents pour une tâche donnée. Cela permet au modèle de gérer une large gamme d’applications tout en maintenant des performances élevées dans différents langages et sujets.
Phi-3.5 Vision Instruct : capacités multimodales avancées
Le Microsoft Phi-3.5 Vision Instruct Le modèle est conçu pour gérer à la fois les données textuelles et les données d’image, ce qui en fait un outil puissant pour les tâches d’IA multimodales. Il intègre un traitement d’image avancé avec une compréhension textuelle, prenant en charge une variété de tâches d’analyse visuelle et textuelle complexes. Formé sur 500 milliards de jetons à l’aide de 256 GPU A100-80G sur 6 jours.
Caractéristiques principales :
- Paramètres: 4,15 milliards
- Longueur du contexte : 128 000 jetons
- Principaux cas d’utilisation : Compréhension d’images, reconnaissance optique de caractères (OCR), compréhension de graphiques et de tableaux, résumé vidéo
- Performance: Formé sur une combinaison d’ensembles de données synthétiques et filtrés accessibles au public, le modèle Vision Instruct excelle dans la gestion de tâches visuelles complexes à plusieurs images et fournit une analyse complète des informations visuelles et textuelles.
La capacité de Phi-3.5 Vision Instruct à traiter et intégrer à la fois du texte et des images le rend extrêmement polyvalent pour les applications nécessitant une analyse visuelle détaillée. Cette capacité est particulièrement utile pour les tâches impliquant divers types et formats de données.
Le modèle Phi-3.5 Vision Instruct est également accessible via Azure AI Studio.