L’intelligence artificielle apprend enfin à naviguer sur l’écran de votre téléphone comme un humain – sauf plus vite, plus intelligent et avec une pratique choquante. Un nouveau recherche Le projet de Vivo AI Lab et MMLAB à l’Université chinoise de Hong Kong présente un modèle appelé Ui-r1qui repense comment les agents de l’IA sont formés pour comprendre et interagir avec les interfaces utilisateur graphiques (GUIS). Et voici la torsion: elle ne s’appuie pas sur des ensembles de données massifs ou des milliers d’heures de GPU.
Au lieu de cela, UI-R1 fait quelque chose de rafraîchissant et intelligent. Il apprend à travers Apprentissage par renforcement (RL)—Les réglage fin supervisé (SFT), la méthode standard qui nécessite des données étiquetées manuellement et des cycles d’entraînement coûteux. Cela signifie pas besoin de le nourrir de dizaines de milliers d’exemples de boutons, de barres de défilement ou de zones de texte. Juste un lot soigneusement sélectionné de 136 tâches mobiles était suffisant pour construire un modèle qui fonctionne mieux que de nombreux modèles plus grands et fortement formés sur des tâches d’écran du monde réel.
Déborchons pourquoi cela compte et comment cela fonctionne.
Alors, que fait réellement UI-R1?
Imaginez ceci: vous regardez une capture d’écran d’un écran de téléphone et quelqu’un vous dit de «appuyer sur le bouton arrière». Vous regardez la disposition, déterminez où se trouve le bouton arrière et appuyez sur. Cela semble facile pour un humain.
Imaginez maintenant la formation d’une IA pour le faire. Pendant des années, cela a signifié la formation d’énormes modèles multimodaux (modèles qui peuvent comprendre les images et le texte ensemble) pour associer des commandes telles que «repousser» avec le bon endroit à l’écran. C’est ce que les agents GUI comme Cogagent, Aria-Gui et OS-Atlas – ils apprennent des énormes ensembles de données avec des exemples étiquetés d’actions et d’éléments.
Mais ce processus est lent, cher et ne se généralise pas bien. Lorsque vous déplacez l’IA d’un écran de téléphone vers une interface de bureau ou un navigateur Web, ses performances sont souvent des réservoirs. C’est comme entraîner un chien pour aller chercher une balle mais seulement dans une pièce de votre maison – prenez-le à l’extérieur, et le chien oublie quoi faire.
L’UI-R1 change cela. Au lieu d’essayer de «mémoriser» des milliers de dispositions d’interface, il apprend à raisonner à leur sujet en utilisant l’apprentissage du renforcement et un Système de récompense basé sur des règles intelligent.
Un système de récompense plus intelligent, pas un modèle plus grand
Le modèle derrière l’UI-R1 est appelé Qwen2.5-vl-3b—Un modèle multimodal de paramètres de 3 milliards, beaucoup plus petit que les géants 7b et 18b du jeu. Mais l’interface utilisateur s’adapte à l’utilisation de RL avec un système de récompense unique qui ne nécessite pas de rétroaction humaine.
Cette fonction de récompense juge le modèle sur trois choses:
- A-t-il choisi le bon type d’action? (Cliquez, faites défiler, revenez en arrière, ouvrez l’application, saisissez le texte)
- A-t-il sélectionné le bon endroit pour cliquer? (Les coordonnées doivent tomber dans la bonne boîte)
- A-t-il expliqué clairement son raisonnement et a-t-il fourni une réponse finale valide? (En utilisant un format structuré)
Cette boucle de rétroaction structurée aide le modèle à apprendre à faire de meilleures prédictions au fil du temps. Pensez-y comme un jeu: chaque fois que l’IA se rapproche de la bonne réponse, il marque des points en fonction de ces règles et découvre progressivement comment gagner plus souvent.
Surtout, ce n’est pas seulement apprendre à deviner – il apprend à expliquer pourquoi il pense qu’un certain bouton est le bon à taper. C’est la clé pour la construction d’agents en qui vous pouvez faire confiance pour faire fonctionner des logiciels, des applications et des appareils.
Ai Masters Language mais Fluns Lego 101
Petites données, gros gains
Voici où les choses deviennent sauvages. UI-R1 a été formé sur 136 exemples– et il a quand même surpassé de nombreux modèles supervisés formés sur des milliers de personnes.
Sur des repères comme Montant d’écran et Papot d’écran-Proquel test dans quelle mesure un modèle peut identifier les éléments d’interface utilisateur sur les plates-formes (mobile, bureau et web), l’interface utilisateur a fourni des précisions de mise à la terre jusqu’à 78,6%battre des modèles comme Seeclick (formé sur 1 million d’exemples!) Et même en correspondant des performances de modèles 7B plus grands.
Il a également accédé une autre référence appelée AndroidControloù il devait prédire à la fois le type d’action correct et où l’appliquer. UI-R1 a enregistré avec un 88,5% de précision moyennesurperformant des modèles formés sur 76 000 exemples – un niveau d’efficacité absurde pour seulement 136 tâches de formation.
C’est comme enseigner à quelqu’un des échecs en leur montrant seulement 10 matchs et en les regardant battre le champion du club.
Pourquoi cela fonctionne-t-il si bien?
Quelques choses distinguent UI-R1:
- Récompenses basées sur les règles: Pas besoin de données étiquetées ou de réviseurs humains. Le modèle score en fonction des règles simples et structurées.
- Renforcement sur la répétition: Au lieu de mémoriser des réponses (comme dans la formation supervisée), l’UI-R1 apprend des stratégies qui généralisent.
- Données soigneusement sélectionnées: L’équipe n’a condamné aucun exemple de formation. Ils ont choisi des tâches difficiles, diverses et de haute qualité. Pas de remplissage.
Et peut-être plus important encore, le modèle ne devine pas simplement aveuglément. Grâce à ses «jetons de raisonnement» et à son format de sortie structuré (
Qu’est-ce que cela signifie pour les interfaces AI?
Cela pourrait être le début d’une nouvelle vague d’agents GUI généralistes. Au lieu de former des modèles sur mesure pour chaque application, plate-forme ou tâche, nous pourrions être en mesure de créer des modèles compacts et adaptables comme UI-R1 qui peuvent raisonner via n’importe quel écran, n’importe quel appareil, toute instruction.
- Pour les développeurscela signifie réduire les coûts, moins de données et une itération plus rapide.
- Pour les utilisateurscela pourrait signifier des assistants virtuels plus intelligents qui comprennent réellement ce que vous voulez faire sur votre écran.
- Pour les chercheursc’est une preuve que l’apprentissage du renforcement avec des récompenses basées sur des règles n’est pas seulement pour les jeux et les problèmes mathématiques – c’est une véritable alternative à SFT pour les tâches d’interface.
C’est encore tôt
Bien que les résultats de l’UI-R1 soient impressionnants, il y a plus à faire. Par exemple, il nécessite toujours des formats d’entrée propres et des invites soigneusement écrites. Il suppose également que les captures d’écran et les instructions de l’appareil sont raisonnablement alignées – une hypothèse sûre dans un paramètre de référence, mais plus délicate dans le monde réel désordonné.
Pourtant, c’est un pas en avant majeur.
Et peut-être le plus excitant, cela montre que L’entraînement plus intelligent bat des modèles plus grands– du moins quand il s’agit de comprendre ce qu’il y a sur votre écran et de comprendre comment agir.
Dans un monde où nous sommes entourés de logiciels de plus en plus complexes, l’IA comme l’UI-R1 pourrait bientôt être celle qui clique, défile et tapant en notre nom – avec précision, raison et à peine aucune formation.