L’Allen Institute for AI (Ai2) a rendu public Molmo, un ensemble innovant de modèles multimodaux open source qui contestent l’influence directrice des systèmes d’IA propriétaires. Avec ses atouts en matière de reconnaissance d’images supérieure et d’informations exploitables, Molmo est prêt à aider les développeurs, les chercheurs et les startups en proposant un outil de développement d’applications d’IA avancé mais facile à utiliser. Ce lancement attire l’attention sur un changement important dans le paysage de l’IA, en unissant les modèles open source et propriétaires et en améliorant l’accès de tous aux technologies d’IA de pointe.
Molmo propose des fonctionnalités qui offrent un degré exceptionnel de compréhension des images, lui permettant de lire correctement une grande variété de données visuelles, des éléments banals aux graphiques et menus complexes. Au lieu d’être comme la plupart Modèles d’IAMolmo dépasse la perception en permettant aux utilisateurs d’interagir avec des environnements virtuels et réels par le biais du pointage et d’une gamme d’actions spatiales. Cette capacité représente une avancée majeure, permettant l’introduction d’agents d’IA complexes, de robotique et de nombreuses autres applications qui dépendent d’une compréhension granulaire des données visuelles et contextuelles.
L’efficacité et l’accessibilité sont des aspects majeurs de la stratégie de développement de Molmo. Les compétences avancées de Molmo proviennent d’un ensemble de données de moins d’un million d’images, en contraste frappant avec les milliards d’images traitées par d’autres modèles tels que GPT-4V et Google GémeauxL’approche mise en œuvre a contribué à ce que Molmo soit non seulement très efficace dans l’utilisation des ressources informatiques, mais a également créé un modèle qui est aussi puissant que les systèmes propriétaires les plus efficaces et présente moins d’hallucinations et des taux de formation plus rapides.
Rendre Molmo entièrement open source s’inscrit dans le cadre d’un effort stratégique plus vaste d’Ai2 visant à démocratiser le développement de l’IA. Ai2 permet à un large éventail d’utilisateurs, des startups aux laboratoires universitaires, d’innover et de progresser dans la technologie de l’IA sans les coûts d’investissement élevés ou la puissance de calcul considérable. Il leur donne accès aux données d’entraînement linguistique et visuel de Molmo, aux pondérations des modèles et au code source.
Matt Deitke, chercheur à l’Institut Allen pour l’IA, a déclaré «Molmo est un modèle d’IA incroyable doté d’une compréhension visuelle exceptionnelle, qui repousse les limites du développement de l’IA en introduisant un paradigme permettant à l’IA d’interagir avec le monde par le biais du pointage. Les performances du modèle sont tirées par un ensemble de données organisées de qualité remarquable pour apprendre à l’IA à comprendre les images à travers le texte. La formation est tellement plus rapide, moins chère et plus simple que ce qui se fait aujourd’hui, de sorte que la publication ouverte de la manière dont il est construit permettra à l’ensemble de la communauté de l’IA, des startups aux laboratoires universitaires, de travailler à la frontière du développement de l’IA ».
Selon des évaluations internes, le plus grand modèle de Molmo, avec 72 milliards de paramètres, a surpassé le GPT-4V d’OpenAI et d’autres concurrents de premier plan sur plusieurs tests de performance. Le plus petit modèle Molmo, comprenant seulement un milliard de paramètres, est suffisamment grand pour fonctionner sur un appareil mobile tout en surpassant les modèles avec dix fois plus de paramètres. Ici vous pouvez voir les modèles et essayez-le par vous-même.