Microsoft Corp. a étendu Sa gamme PHI de modèles de langage open source avec l’introduction de deux nouveaux algorithmes conçus pour le traitement multimodal et l’efficacité matérielle: PHI-4-MINI et PHI-4-Multimodal.
Caractéristiques PHI-4-MINI et PHI-4-Multimodal
PHI-4-MINI est un modèle en texte uniquement qui intègre 3,8 milliards de paramètres, ce qui lui permet d’exécuter efficacement sur les appareils mobiles. Il est basé sur une architecture de transformateur uniquement au décodeur, qui analyse uniquement le texte précédant un mot pour déterminer sa signification, améliorant ainsi la vitesse de traitement et réduisant les exigences matérielles. De plus, PHI-4-MINI utilise une technique d’optimisation des performances connue sous le nom d’attention de la requête groupée (GQA) pour réduire l’utilisation du matériel associée à son mécanisme d’attention.
Microsoft PHI-4 AI s’attaque aux mathématiques complexes avec des paramètres 14B
Ce modèle est capable de générer du texte, de traduire des documents et d’exécuter des actions dans des applications externes. Microsoft affirme que PHI-4-Mini excelle dans les tâches nécessitant un raisonnement complexe, tel que les calculs mathématiques et les défis de codage, atteignant une précision considérablement améliorée dans les tests de référence interne par rapport à d’autres modèles de langage de taille similaire.
Le deuxième modèle, PHI-4-Multimodal, est une version améliorée de PHI-4-MINI, avec 5,6 milliards de paramètres. Il est capable de traiter des entrées de texte, d’images, d’audio et de vidéo. Ce modèle a été formé à l’aide d’une nouvelle technique appelée mélange de loras, qui optimise les capacités du modèle pour le traitement multimodal sans modifications étendues à ses poids existants.

Microsoft a effectué des tests de référence sur PHI-4-Multimodal, où il a obtenu un score moyen de 72 en traitement des données visuelles, juste timide du GPT-4 d’OpenAI, qui a marqué 73. Gemini Flash 2.0 de Google a mené avec un score de 74,3. Dans les tâches visuelles et audio combinées, le Gémini-2.0 surperformé à la GI-4 «par une grande marge» et internoncé interdit, qui est spécialisé pour le traitement multimodal.
PHI-4-Multimodal et PHI-4-Mini sont licenciés sous la licence du MIT et seront mis à disposition via Visage étreintpermettant une utilisation commerciale. Les développeurs peuvent accéder à ces modèles via Foundry Azure AI et Catalogue API NVIDIA pour explorer davantage leur potentiel.
PHI-4-Multimodal est particulièrement conçu pour faciliter les interactions naturelles et consacrées au contexte en intégrant plusieurs types d’entrée dans un modèle de traitement unique. Il comprend des améliorations telles qu’un vocabulaire plus important, des capacités multilingues et une amélioration de l’efficacité de calcul pour l’exécution à disposition.
PHI-4-MINI offre des performances impressionnantes dans des tâches textuelles, y compris les capacités de raisonnement et d’appel des fonctions, lui permettant d’interagir efficacement avec les interfaces de programmation structurées. La plate-forme prend en charge les séquences jusqu’à 128 000 jetons.
En outre, les deux modèles ont subi de vastes tests de sécurité et de sécurité, dirigés par l’équipe interne Azure AI Red (AIRT) de Microsoft, qui a évalué les modèles en utilisant des méthodologies d’évaluation complètes qui traitent les tendances actuelles de la cybersécurité, de l’équité et de la sécurité des utilisateurs.
La personnalisation et la facilité de déploiement sont des avantages supplémentaires de ces modèles, car leurs tailles plus petites leur permettent d’être affinées pour des tâches spécifiques avec des demandes de calcul relativement faibles. Des exemples de tâches adaptés à un réglage fin comprennent la traduction de la parole et la réponse aux questions médicales.
Pour plus de détails sur les modèles et leurs applications, les développeurs sont encouragés à se référer à Livre de cuisine PHI Disponible sur github.
Crédit d’image en vedette: Microsoft