Un récent étude De l’Université des sciences appliquées de Zurich par Pascal J. Sager, Benjamin Meyer, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. a dépassé leur phase de chatbot.
Les agents de l’IA exécutent le spectacle, cliquent, défilent et tapent leur chemin à travers les workflows avec une précision étrange. Ces agents de contrôle informatique basés sur l’instruction (CCAS) peuvent exécuter des commandes, interagissant avec des environnements numériques comme les opérateurs humains chevronnés. Mais à mesure qu’ils se rapprochent de l’autonomie complète, une chose devient claire: plus nous leur donnons de puissance, plus il devient difficile de les garder en échec.
Comment les agents de l’IA apprennent à utiliser des ordinateurs comme vous
Les outils d’automatisation traditionnels sont des macros glorifiées – perpétibles, rigides et sans aucune idée en dehors de leurs chemins scénarisés. Les CCA, en revanche, sont construits pour improviser. Ils ne suivent pas seulement les instructions; Ils observent, interprètent et agissent en fonction de ce qu’ils «voient» sur un écran, grâce aux modèles de vision (VLM) et aux modèles de gros langues (LLM). Cela leur permet de:
- Lire des écrans comme un humainIdentifier le texte, les boutons et les champs d’entrée sans coordonnées prédéfinies.
- Exécuter des tâches en plusieurs étapescomme l’ouverture d’un e-mail, la copie des données, les coller dans une feuille de calcul et frapper l’envoi, le tout sans supervision directe.
- Comprendre les instructions du langage naturelsupprimant la nécessité pour les utilisateurs d’apprendre des scripts d’automatisation complexes.
- S’adapter à la modification des interfacesles rendant beaucoup plus flexibles que les outils d’automatisation basés sur des règles.
Dites à un CCA de «trouver les principaux prospects d’aujourd’hui et leur envoyer un e-mail un suivi» et qu’il passe par des applications, extrait les données pertinentes, compose un e-mail et l’envoie, tout comme un assistant humain. Contrairement à la RPA à l’ancienne (Robotic Process Automation) qui s’effondre lorsqu’une interface utilisateur change, les CCA peuvent s’adapter en temps réel, identifiant les éléments visuels et prenant des décisions à la volée.
La prochaine frontière? Intégration avec les référentiels de connaissances basés sur le cloud et la prise de décision autonome. Plus ces agents apprennent, plus leurs capacités deviennent sophistiquées – sur les questions sur la confiance que nous devrions y accorder.
Quelle est la transformation des modèles de langue
Les avantages: productivité, accessibilité et automatisation
Il est indéniable que les CCA viennent avec de sérieux avantages:
- Productivité sur les stéroïdes: Les tâches fastidieuses et longues disparaissent, permettant aux travailleurs de se concentrer sur des décisions de plus grande valeur plutôt que de cliquer sur des tableaux de bord.
- Révolution de l’accessibilité: Les personnes handicapées peuvent interagir avec la technologie de manière plus transparente grâce à la navigation et à l’automatisation des tâches alimentées par l’IA.
- Évolutivité à l’échelle de l’entreprise: Les entreprises peuvent automatiser des flux de travail entiers sans embaucher une armée de spécialistes informatiques pour créer des solutions personnalisées.
- Intégration à l’échelle du système: Les CCA fonctionnent sur différentes plateformes et applications, assurant des interactions numériques transparentes.
- Efficacité toujours contre: Contrairement aux travailleurs humains, ces agents ne sont pas fatigués, distraits ou ne font pas les pauses déjeuner.
Les risques: confidentialité, sécurité et confiance
Pour chaque victoire de productivité, il y a un cauchemar de sécurité égal et opposé qui se cache en arrière-plan. Donner un contrôle de l’IA sur les interfaces utilisateur n’est pas seulement l’automatisation – cela accorde un accès à la machine non clignotant aux flux de travail sensibles, aux transactions financières et aux données privées. Et c’est là que les choses se compliquent.
Les CCA fonctionnent en «regardant» les écrans et en analysant le texte. Qui garantit que les informations sensibles ne sont pas utilisées à mauvais escient ou enregistrées? Qui garde les frappes axées sur l’IA en échec?
Si un agent d’IA peut se connecter à votre application bancaire et transférer de l’argent avec une seule commande, que se passe-t-il s’il est piraté? Nous remettons les clés numériques du Royaume avec quelques garanties. Si un CCA fait une erreur catastrophique – élimine le mauvais fichier, envoie le mauvais e-mail ou approuve une transaction désastreuse – qui est responsable? Les humains peuvent être licenciés, condamnés à une amende ou formés. Ai? Pas tellement.
Et, si un acteur malveillant détourne un CCA, il n’a pas seulement accès – ils obtiennent un complice inlassable et automatisé capable de faire des ravages à grande échelle. Les législateurs se précipitent pour suivre le rythme, mais il n’y a pas de livre de jeu pour les assistants numériques axés sur l’AI, prenant des décisions à enjeux élevés en temps réel.
Qu’est-ce qui vient ensuite?
Les entreprises se déplacent avec prudence, essayant d’équilibrer les gains d’efficacité indéniables avec les risques imminents. Certaines entreprises appliquent des modèles «humains en boucle», où les agents de l’IA gèrent l’exécution mais nécessitent une approbation manuelle pour les actions critiques. D’autres investissent dans des politiques de gouvernance de l’IA pour créer des garanties avant que ces agents ne deviennent standard dans les opérations des entreprises.
Ce qui est certain, c’est que les CCA ne sont pas une tendance passagère – ils sont la prochaine phase de l’évolution de l’IA, s’intégrant tranquillement dans les flux de travail et les interfaces partout. À mesure qu’ils deviennent plus capables, le débat ne sera pas de savoir si nous devons les utiliser, mais comment nous pouvons les contrôler.
Images: Kerem Gülen / Midjourney