Que se passe-t-il si l’automatisation d’un bureau ne concernait pas les schémas de clics, mais que donner à votre système d’exploitation une équipe d’agents intelligente? C’est l’idée principale derrière Ufo2Le plus récent système open-source de Microsoft qui pousse au-delà des agents de consommation informatique actuels (CUAS) et réinvente l’automatisation en tant qu’abstraction du système d’exploitation de première classe. Il transforme votre bureau en un panneau de commande intelligent où les tâches axées sur la langue sont exécutées de manière nativement, de manière fiable et avec une perturbation minimale de votre flux de travail.
Les outils d’automatisation de bureau traditionnels comme les systèmes RPA ont toujours eu du mal avec la robustesse. Un changement mineur dans une interface utilisateur peut détruire un script entier. CUAS a essayé de résoudre ce problème avec des modèles de langue importants et une analyse de capture d’écran, mais ils sont restés limités par l’intégration du système peu profond et les expériences des utilisateurs maladroits. UFO2 retourne ce modèle en construisant à partir du système d’exploitation vers le haut. Il introduit une architecture multi-agents où un Hostangent central coordonnées spécialisées Applicateurs pour différentes applications. Chaque agent parle la langue maternelle de l’application via des API et des métadonnées d’interface utilisateur, pas seulement des pixels.

L’une des principales innovations techniques d’UFO2 est son modèle d’action hybride. Au lieu de simplement cliquer sur des boutons comme un humain, chaque appagent peut appeler de vraies API lorsqu’ils sont disponibles. Cela signifie que des tâches comme l’exportation d’une feuille de calcul ou du texte de formatage sont réduites de danses GUI en plusieurs étapes à un seul appel de fonction atomique. Le système spécule également à l’avance – en utilisant un seul appel LLM pour planifier plusieurs étapes et valider chacun en direct avec des données d’interface utilisateur Windows. Ce exécution multi-action spéculative réduit considérablement la latence sans risquer l’exactitude.
Isolement sans interruption
CUAS détourne généralement votre bureau, verrouillant la souris et le clavier pendant l’exécution. UFO2 Image dans la photo (PIP) Le mode résout cela avec une fenêtre de bureau virtuelle qui exécute les tâches d’automatisation en parallèle. L’agent fait son truc dans un environnement de sable, pendant que vous continuez à travailler dans la session principale. Il est transparent, sécurisé et utilise le bouclage Native Windows RDP pour maintenir l’intégrité de la session.

UFO2 intègre la documentation et l’exécution d’aide dans une mémoire de récupération, enrichissant ses invites avec des connaissances procédurales. Au fil du temps, cela crée un agent auto-amélioré qui s’améliore dans de nouvelles tâches sans recyclage. Chaque appagent tire de la documentation, des notes de mise en œuvre et des exécutions antérieures pour prendre des décisions plus intelligentes. Il s’agit d’un système d’automatisation avec mémoire, pas seulement de la génération de réponse.
Dans des références en tête Sur la référence OSWORLD-W, UFO2 atteint un taux de réussite de 32,7% en utilisant le modèle O1 – plus que de doubler 14,3% de l’opérateur. Sa planification spéculative réduit les étapes d’action jusqu’à 50%. La détection du contrôle hybride (combinant les API UIA et l’analyse de vision) récupère plus de 25% des interactions précédemment échouées. Autrement dit, UFO2 n’est pas seulement plus intelligent – c’est systématiquement meilleur.
Tout est un agent maintenant
L’extensibilité est cuite. UFO2 permet aux outils tiers, y compris d’autres CUA comme l’opérateur, d’être emballés sous forme d’applicants. Cela signifie que vous pouvez intégrer des copilotes spécialisés ou des backends d’automatisation propriétaires dans l’écosystème UFO2 sans recyclage ou réécriture du code. Il prend également en charge une architecture client-serveur pour le déploiement d’entreprise, en gardant l’orchestration centralisée et les appareils utilisateur.
Le papier décrit les objectifs futurs, y compris la compatibilité multiplateforme avec MacOS et Linux via des API accessibilité analogue, une réponse plus rapide via des LLM plus petits et un raisonnement amélioré à partir de ensembles de données d’interaction GUI dédiés. Mais même dans son état actuel, UFO2 représente un Nouvelle ligne de base pour l’automatisation de bureau. Il est open-source, surpasse déjà les systèmes commerciaux et apporte un nouveau niveau de modularité, de fiabilité et d’intelligence à l’interaction humaine-ordinateur.
Pour quiconque construit la prochaine génération d’agents intelligents – ou simplement fatigué des scripts cassants –UFO2 est disponible sur github ainsi que sa documentation.
Crédit d’image en vedette