Dans un geste discret, l’équipe de recherche d’Apple a a publié un document mettant en lumière les avancées de l’entreprise dans MM1, une suite de modèles de langage multimodaux avancés. Ces modèles sont conçus pour diverses applications, notamment l’inférence en langage naturel, le sous-titrage d’images et la réponse visuelle à des questions. Cette révélation indique qu’Apple, traditionnellement réticent à l’égard de ses projets d’IA alors que ses concurrents saluent l’IA comme l’avenir de la technologie, est non seulement en train de rattraper son retard, mais est également prêt à donner le ton dans l’industrie.
Quelle est l’étendue d’Apple MM1 ?
«Dans ce travail, nous discutons de la création de modèles multimodaux multimodaux (MLLM) performants. Nous démontrons que pour la pré-formation multimodale à grande échelle, l’utilisation d’un mélange judicieux de données de légende d’image, de texte d’image entrelacé et de données textuelles uniquement est cruciale pour obtenir des résultats de pointe en quelques prises de vue sur plusieurs benchmarks, comparés à d’autres résultats de pré-formation publiés », indique le document.
Le document développe MM1, le caractérisant comme un ensemble robuste de modèles multimodaux, capable de prendre en charge jusqu’à 30 milliards de paramètres. Il met en évidence leurs performances exceptionnelles, affinées sur un éventail de références multimodales, plaçant ces modèles à l’avant-garde des technologies fondamentales de l’IA. Selon l’équipe d’Apple, les modèles multimodaux de langage étendu (MLLM) représentent une évolution significative par rapport aux LLM traditionnels, dotés de capacités améliorées.
Les chercheurs d’Apple sont convaincus d’avoir franchi une étape importante dans la formation des modèles pour interpréter à la fois les images et le texte. Ils prévoient que leurs connaissances aideront considérablement la communauté à développer des modèles capables de gérer des ensembles de données de plus en plus volumineux de manière plus efficace et plus fiable. Cependant, malgré les idées prometteuses partagées dans le document, l’application pratique et les tests d’Apple MM1 restent à l’horizon, l’accès au modèle lui-même n’ayant pas encore été ouvert à une évaluation externe.

L’avenir de l’aventure d’Apple dans les grands modèles de langage, en particulier MM1, est en jeu, avec des spéculations autour du développement par l’entreprise d’un cadre LLM baptisé en interne « Ajax », dans le cadre d’un investissement ambitieux d’un milliard de dollars dans la recherche et le développement de l’IA. Pour alimenter cet incendie, des rumeurs ont circulé concernant l’acquisition par Apple de la startup DarwinAI plus tôt cette année, une décision censée viser à renforcer ces efforts.
Le PDG d’Apple, Tim Cook, a rompu le silence d’un an de l’entreprise sur ses ambitions en matière d’IA lors d’une conférence téléphonique post-résultats en février, en déclarant :
« Nous considérons l’IA et l’apprentissage automatique comme des technologies fondamentales, et elles font partie intégrante de pratiquement tous les produits que nous commercialisons. Nous sommes ravis de partager les détails de notre travail en cours dans cet espace plus tard cette année.
Plus encore, Apple a récemment présenté les capacités d’IA de son nouveau MacBook Air M3, faisant allusion au rôle important que l’IA jouera dans ses futures offres. Dans un pivot stratégique, l’entreprise a choisi de se dissoudre Projet Titan le mois dernier, réorientant son attention vers des domaines en plein essor comme l’intelligence artificielle, signalant un recalibrage de ses priorités en matière d’innovation.
Crédit image en vedette : Kerem Gülen/Milieu du voyage