Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Les paramètres 256M peuvent-ils surpasser 80b? Les modèles Smolvlm de l’étreinte disent oui

byKerem Gülen
janvier 24, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Le visage étreint a libéré Deux nouveaux modèles d’IA, SMOLVLM-256M et SMOLVLM-500M, affirmant qu’ils sont les plus petits de leur genre capables d’analyser des images, des vidéos et du texte sur des appareils avec des RAM limités, tels que des ordinateurs portables.

Hugging Face lance des modèles d’IA compacts pour l’analyse d’image et de texte

UN Modèle de petite langue (SLM) est un réseau neuronal conçu pour produire du texte en langage naturel. Le descripteur «petit» s’applique non seulement aux dimensions physiques du modèle mais également à son nombre de paramètres, à la structure neuronale et au volume de données utilisé pendant la formation.

SMOLVLM-256M et SMOLVLM-500M se composent respectivement de 256 millions de paramètres et de 500 millions de paramètres. Ces modèles peuvent effectuer diverses tâches, notamment en décrivant des images et des clips vidéo, ainsi que des questions sur les PDF et leur contenu, tels que le texte et les graphiques numérisés.


Sam Altman pour brèves les fonctionnaires sur le «au niveau du doctorat» Super AI


Pour former ces modèles, Hugging Face a utilisé le chaudron, une collection organisée de 50 ensembles de données d’image et de texte de haute qualité, aux côtés de Docmatix, un ensemble de données comprenant des analyses de fichiers avec des légendes détaillées. Les deux ensembles de données ont été créés par l’équipe M4 de Hugging Face, axée sur les technologies multimodales d’IA.

Les paramètres 256M peuvent-ils surpasser 80b? Les modèles Smolvlm de l'étreinte disent oui
SMOLVLM-256M et SMOLVLM-500M se composent de 256 millions de paramètres et de 500 millions de paramètres (crédits d’image: SMOLVLM)

L’équipe affirme que SMOLVLM-256M et SMOLVLM-500M surpassent un modèle significativement plus important, IDEFICS 80B, dans des références telles que AI2D, qui évalue les capacités des modèles pour analyser les diagrammes scientifiques au niveau de l’école. Les nouveaux modèles sont disponibles pour l’accès Web et le téléchargement sous une licence Apache 2.0, qui permet une utilisation sans restriction.

Malgré leur polyvalence et leur rentabilité, des modèles plus petits comme SmolVLM-256M et SmolVLM-500M peuvent présenter des limitations non observées dans des modèles plus grands. Une étude de Google Deepmind, de Microsoft Research et du Mila Research Institute a souligné que les modèles plus petits fonctionnent souvent sous-optimalement sur des tâches de raisonnement complexes, potentiellement en raison de leur tendance à reconnaître les modèles au niveau de la surface plutôt que d’appliquer des connaissances dans de nouveaux contextes.

Le modèle SMOLVLM-256M de Hugging Face fonctionne avec moins d’un gigaoctet de mémoire GPU et surpasse le modèle IDEFICS 80B, un système 300 fois plus grand, réalisant cette réduction et amélioration dans les 17 mois. Andrés Marafioti, ingénieur de recherche sur l’apprentissage automatique à Hugging Face, a noté que cette réalisation reflète une percée importante dans les modèles de vision.

Les paramètres 256M peuvent-ils surpasser 80b? Les modèles Smolvlm de l'étreinte disent oui
Le modèle SmolVLM-256M de Hugging Face fonctionne avec moins d’un gigaoctet de mémoire GPU et surpasse le modèle IDEFICS 80B (crédits d’image: smolvlm)

L’introduction de ces modèles est opportune pour les entreprises confrontées à des coûts informatiques élevés associés aux implémentations de l’IA. Les modèles SMOLVLM sont capables de traiter les images et de comprendre le contenu visuel à des vitesses sans précédent pour les modèles de leur taille. La version 256m peut traiter 16 exemples par seconde tout en ne consommant que 15 Go de RAM avec une taille de lot de 64, conduisant à des économies de coûts considérables pour les entreprises qui gèrent de grands volumes de données visuelles.

IBM a formé un partenariat avec Hugging Face pour incorporer le modèle 256m dans son logiciel de traitement de document, docling. Comme l’a expliqué Marafioti, même les organisations avec des ressources informatiques substantielles peuvent bénéficier de l’utilisation de modèles plus petits pour traiter efficacement des millions de documents à des coûts réduits.

Les étreintes de la face ont réalisé des réductions de taille tout en maintenant les performances grâce à des progrès dans les composants de traitement de la vision et de langage, y compris un passage d’un encodeur de vision de paramètre de 400 m à une version de paramètre de 93 m et l’utilisation de techniques de compression de jetons agressives. Cette efficacité ouvre de nouvelles possibilités pour les startups et les petites entreprises, ce qui leur permet de développer plus rapidement des produits de vision informatique sophistiqués et de réduire leurs coûts d’infrastructure.Les paramètres 256M peuvent-ils surpasser 80b? Les modèles Smolvlm de l'étreinte disent oui

Les modèles SMOLVLM améliorent les capacités au-delà des économies de coûts, facilitant de nouvelles applications telles que la recherche de documents avancée via un algorithme nommé Colipali, qui crée des bases de données consultables à partir d’archives de documents. Selon Marafioti, ces modèles correspondent presque aux performances des modèles 10 fois leur taille tout en augmentant considérablement la vitesse de création et de recherche de base de données, ce qui rend la recherche visuelle à l’échelle de l’entreprise possible pour diverses entreprises.

Les modèles SMOLVLM remettent en question la croyance conventionnelle que des modèles plus grands sont nécessaires pour les tâches avancées en langue de vision, la version de paramètre de 500 m atteignant 90% des performances d’un homologue de paramètre 2.2b sur des références clés. Marafioti a souligné que ce développement démontre l’utilité des modèles plus petits, suggérant qu’ils peuvent jouer un rôle crucial pour les entreprises.


Crédit d’image en vedette: Visage étreint

Tags: En vedetteIAModèles de petit langagevisage étreint

Related Posts

Substack s'installe dans le salon avec le lancement de l'application bêta TV

Substack s'installe dans le salon avec le lancement de l'application bêta TV

janvier 23, 2026
JBL lance des amplis BandBox alimentés par l'IA

JBL lance des amplis BandBox alimentés par l'IA

janvier 23, 2026
Google déploie l'opt-in "Intelligence personnelle" pour les utilisateurs AI Pro et Ultra

Google déploie l'opt-in "Intelligence personnelle" pour les utilisateurs AI Pro et Ultra

janvier 23, 2026
Spotify lance des listes de lecture guidées basées sur l'IA

Spotify lance des listes de lecture guidées basées sur l'IA

janvier 22, 2026
Snap déploie un suivi granulaire du temps d'écran dans la mise à jour de Family Center

Snap déploie un suivi granulaire du temps d'écran dans la mise à jour de Family Center

janvier 22, 2026
Google Photos repense le partage avec un carrousel plein écran immersif

Google Photos repense le partage avec un carrousel plein écran immersif

janvier 22, 2026

Recent Posts

  • Barret Zoph dirigera le pivot commercial agressif d'OpenAI
  • Substack s'installe dans le salon avec le lancement de l'application bêta TV
  • LiveKit est valorisé à 1 milliard de dollars en tant que moteur du mode vocal de ChatGPT
  • Vimeo commence à licencier du personnel suite à l'acquisition de Bending Spoons
  • AWS et Prime Video frappés alors qu'Amazon prépare une nouvelle vague de licenciements

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.