Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Fara-7B de Microsoft : nouveau LLM agent à partir de captures d’écran

byKerem Gülen
novembre 25, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Recherche Microsoft libéré Fara-7B, un petit modèle de langage agentique de 7 milliards de paramètres destiné à une utilisation informatique, capable d’exécuter des tâches localement à partir de captures d’écran. Fara-7B fonctionne comme un agent d’utilisation d’ordinateur à poids ouvert, prédisant les actions de la souris et du clavier directement à partir de captures d’écran. Sa taille compacte permet une exécution sur un seul appareil utilisateur, ce qui réduit la latence et conserve les données de navigation localement. Contrairement aux grands modèles linguistiques (LLM) classiques de génération de texte, les agents utilisant l’ordinateur comme Fara-7B contrôlent les interfaces du navigateur ou du bureau pour effectuer des tâches telles que le remplissage de formulaires, la réservation de voyages ou la comparaison de prix. Ils interprètent l’écran, analysent les mises en page, puis produisent des actions de bas niveau, notamment des clics, des défilements, des saisies, des recherches sur le Web ou des visites d’URL. De nombreux systèmes actuels utilisent de grands modèles multimodaux intégrés à un échafaudage complexe qui analyse les arbres d’accessibilité et coordonne divers outils. Cela augmente la latence et nécessite souvent un déploiement côté serveur. Fara-7B condense les fonctionnalités de ces systèmes multi-agents en un seul modèle de décodeur multimodal uniquement, construit sur Qwen2.5-VL-7B. Il traite les captures d’écran du navigateur et le contexte du texte, puis génère un texte de pensée suivi d’un appel d’outil avec des arguments fondés, tels que des coordonnées, du texte ou des URL. La principale contrainte pour les agents utilisant l’ordinateur concerne les données, car les journaux de haute qualité des interactions humaines en plusieurs étapes sur le Web sont rares et coûteux à acquérir. Le projet Fara présente FaraGen, un moteur de données synthétiques qui génère et filtre les trajectoires Web sur les sites en direct. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4

Vidéo : Microsoft

FaraGen utilise un pipeline en trois étapes. Proposition de tâche commence par des URL de départ provenant de sociétés publiques comme ClueWeb22 et Tranco, classées dans des domaines tels que le commerce électronique, les voyages, le divertissement ou les forums. De grands modèles de langage convertissent chaque URL en tâches utilisateur réalistes, par exemple, réserver des billets de cinéma spécifiques ou créer une liste de courses avec des contraintes de révision et de matériel. Les tâches doivent être réalisables sans connexion ni paywall, entièrement spécifiées, utiles et automatiquement vérifiables.

Résolution de tâches utilise un système multi-agent basé sur Magentic-One et Magentic-UI. Un agent Orchestrator planifie une stratégie de haut niveau et maintient l’état des tâches. Un agent WebSurfer reçoit des arborescences d’accessibilité et des captures d’écran Set-of-Marks, puis émet des actions de navigateur via Playwright, notamment cliquer, taper, faire défiler, visit_url ou web_search. Un agent UserSimulator fournit des instructions de suivi pour les tâches nécessitant des éclaircissements.

Vérification de la trajectoire utilise trois vérificateurs basés sur LLM. Un vérificateur d’alignement vérifie que les actions et les réponses finales correspondent à l’intention de la tâche. Un vérificateur de rubrique génère une rubrique de sous-objectifs et obtient un score d’achèvement partiel. Un vérificateur multimodal inspecte les captures d’écran et la réponse finale pour détecter les hallucinations et confirmer que les preuves visibles soutiennent le succès. Ces vérificateurs démontrent leur accord avec les étiquettes humaines sur 83,3 pour cent de cas, avec des taux de faux positifs et de faux négatifs signalés autour de 17 à 18 pour cent. Après filtrage, FaraGen produit 145 603 trajectoires avec 1 010 797 pas à travers 70 117 domaines uniques. Les trajectoires vont de 3 à 84 pas, en moyenne 6,9 étapes et environ 0,5 domaine unique par trajectoire, ce qui indique que les tâches impliquent souvent des sites non présents ailleurs dans l’ensemble de données. Générer des données avec des modèles premium comme GPT-5 et o3 coûte environ 1 $ par trajectoire vérifiée. Fara-7B est un modèle multimodal uniquement avec décodeur utilisant Qwen2.5-VL-7B comme base. Il traite un objectif utilisateur, les captures d’écran actuelles du navigateur et l’historique complet des pensées et actions antérieures. La fenêtre contextuelle prend en charge 128 000 jetons. À chaque étape, le modèle génère d’abord une chaîne de réflexion détaillant l’état et le plan actuels, puis génère un appel d’outil spécifiant l’action suivante et ses arguments. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4

Vidéo : Microsoft

L’espace d’outils s’aligne sur l’interface d’utilisation de l’ordinateur de Magentic-UI, englobant la clé, le type, le déplacement de la souris, le clic gauche, le défilement, l’url de visite, la recherche Web, l’historique_back, la pause_and_memorize_fact, l’attente et la fin. Les coordonnées sont prédites directement sous forme de positions de pixels sur la capture d’écran, permettant au modèle de fonctionner sans accès à l’arborescence d’accessibilité pendant l’inférence. La formation impliquait une mise au point supervisée sur environ 1,8 million d’échantillonsmélangeant plusieurs sources de données. Ceux-ci incluent des trajectoires FaraGen divisées en étapes observer-penser-agir, des tâches de mise à la terre et de localisation de l’interface utilisateur, des réponses visuelles aux questions et des sous-titres basés sur des captures d’écran, ainsi que des ensembles de données de sécurité et de refus. Microsoft a mené des évaluations de Fara-7B sur quatre tests Web en direct : WebVoyager, Online-Mind2Web, DeepShop et le nouveau WebTailBench. WebTailBench se concentre sur des segments sous-représentés tels que les réservations de restaurants, les candidatures à un emploi, la recherche immobilière, les comparaisons de prix et les tâches de composition multi-sites. Sur ces benchmarks, Fara-7B a réalisé 73,5 % de réussite sur WebVoyager, 34,1 pour cent sur Online-Mind2Web, 26,2 pour cent sur DeepShopet 38,4 pour cent sur WebTailBench. Cela dépasse la référence UI-TARS-1.5-7B de l’agent d’utilisation de l’ordinateur 7B, qui a obtenu respectivement 66,4, 31,3, 11,6 et 19,5, et se compare favorablement aux systèmes plus grands tels que l’aperçu de l’utilisation de l’ordinateur OpenAI et les configurations de l’agent SoM construites sur GPT-4o. Sur WebVoyager, Fara-7B utilise en moyenne 124 000 jetons d’entrée et 1 100 jetons de sortie par tâcheavec environ 16.5 actions. En utilisant les prix symboliques du marché, l’équipe de recherche estime un coût moyen de 0,025 $ par tâchecontre environ 0,30 $ pour les agents SoM pris en charge par des modèles de raisonnement propriétaires tels que GPT-5 et o3. Fara-7B utilise un nombre similaire de jetons d’entrée mais environ un dixième des jetons de sortie de ces agents SoM.

  • Fara-7B : Un paramètre 7B, un agent d’utilisation d’ordinateur à poids ouvert construit sur Qwen2.5-VL-7B.
  • Opération: Fonctionne directement à partir de captures d’écran et de texte, génère des actions fondées sans arbres d’accessibilité au moment de l’inférence.
  • Données de formation : 145 603 trajectoires de navigateur vérifiées et 1 010 797 étapes générées par le pipeline FaraGen sur 70 117 domaines.
  • Succès de référence (WebVoyager) : 73,5 pour cent.
  • Succès de référence (Online-Mind2Web) : 34,1 pour cent.
  • Succès de référence (DeepShop) : 26,2 pour cent.
  • Succès de référence (WebTailBench) : 38,4 pour cent.
  • Coût sur WebVoyager : Environ 0,025 $ par tâcheen utilisant 124 000 jetons d’entrée et 1 100 jetons de sortie.
  • Efficacité du jeton de sortie : L’utilisation des jetons de sortie est environ un ordre de grandeur moins chère que les agents SoM soutenus par des modèles de classe GPT-5.

Fara-7B représente une évolution vers des agents pratiques d’utilisation d’ordinateurs capables de fonctionner localement avec du matériel avec des coûts d’inférence réduits tout en préservant la confidentialité. L’intégration de Qwen2.5-VL-7B, des trajectoires synthétiques FaraGen et de WebTailBench offre une voie allant de la génération de données multi-agents à un modèle unique et compact qui correspond ou surpasse les systèmes plus grands sur des critères clés, tout en intégrant des garanties de point critique et de refus.


Crédit image en vedette

Tags: fara-7bMicrosoft

Related Posts

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026

Recent Posts

  • Réparation de 20 $ de Verizon : comment réclamer votre crédit de panne aujourd'hui
  • Anthropic nomme Irina Ghose, vétéran de Microsoft, pour diriger l'expansion en Inde
  • Bluesky lance le badge Live Now et les cashtags dans une mise à jour majeure
  • Netflix conclut un accord mondial de 7 milliards de dollars pour une sélection de films de Sony Pictures
  • Samsung réorganise Mobile Gaming Hub pour réparer la découverte de jeux cassés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.