Le cadre d'Alibaba aurait réduit de 99 % l'utilisation des jetons d'agent IA

Des chercheurs d’Alibaba ont développé SkillWeaver, un framework visant à améliorer le routage des sous-tâches dans les systèmes d’IA d’entreprise. SkillWeaver crée des graphiques d’exécution pour les tâches et sélectionne les compétences appropriées pour chaque nœud. Le framework intègre la Skill-Aware Decomposition (SAD), une technique qui utilise une boucle de rétroaction pour la sélection itérative des outils, ce qui la distingue des frameworks qui choisissent les outils de manière unique.

SkillWeaver est spécialement conçu pour les applications d’IA du monde réel, telles que l’orchestration de plusieurs outils via le Model Context Protocol (MCP) pour diverses opérations commerciales, y compris la gestion des données et la création de rapports. Les tests montrent que l’approche de SkillWeaver augmente la précision tout en réduisant la consommation de jetons de plus de 99 % par rapport à l’exposition des agents à une bibliothèque d’outils complète.

Le principal défi rencontré par les systèmes d’IA est la granularité de la décomposition des tâches, car les requêtes pratiques impliquent souvent des requêtes de composition qui nécessitent plusieurs compétences. Les compétences sont définies comme des spécifications modulaires et réutilisables utilisant une documentation structurée en langage naturel. Les frameworks d’IA actuels ont souvent du mal à traiter le routage des outils comme une tâche de sélection d’une seule compétence, ce qui est insuffisant pour les flux de travail complexes.

Le fonctionnement de SkillWeaver comprend trois étapes : décomposer, récupérer et composer. Au cours de l’étape de décomposition, un LLM décompose les requêtes utilisateur complexes en sous-tâches gérables. Ensuite, l’étape de récupération utilise un modèle d’intégration pour identifier les outils candidats pour chaque sous-tâche à partir d’une bibliothèque de compétences. Enfin, l’étape Compose évalue la compatibilité de ces outils et formule un graphe acyclique dirigé (DAG) qui décrit le plan d’exécution.

SkillWeaver s’attaque également au problème des LLM générant des descriptions génériques en implémentant la boucle de rétroaction SAD. Ce mécanisme permet au LLM de rédiger un plan initial, de récupérer les compétences correspondantes et d’affiner sa décomposition en fonction des outils récupérés, garantissant ainsi l’alignement avec des vocabulaires techniques spécifiques.

Pour évaluer l’efficacité, les chercheurs ont créé CompSkillBench, une référence comprenant 300 requêtes en plusieurs étapes basées sur 2 209 compétences du monde réel. Le moteur principal utilisait un modèle de 7 milliards de paramètres (Qwen2.5-7B-Instruct) pour le processus de décomposition et un outil de recherche sémantique. Les tests ont révélé que la boucle de rétroaction SAD augmentait la précision de la décomposition de 51,0 % à 67,7 %, les modèles supérieurs atteignant une précision de 92 %.

Les résultats ont mis en évidence que moins de conseils peuvent entraîner une diminution des performances dans les modèles plus grands. Une configuration vanille utilisant un modèle plus grand a donné de moins bons résultats que le modèle plus petit en raison de répartitions inutiles des tâches. La recherche a démontré qu’un bon alignement avec le vocabulaire des outils a souvent plus d’impact que la simple utilisation d’un modèle plus grand.

D’importantes économies de jetons ont été constatées, SkillWeaver réduisant la consommation de la fenêtre contextuelle d’environ 884 000 jetons à environ 1 160 jetons par requête, ce qui a entraîné une réduction des coûts d’API et des temps de réponse plus rapides. En revanche, la méthode LLM-Direct n’a réussi qu’un taux de précision de 21,1 % dans la récupération des outils, tandis que les agents de style ReAct ont atteint une précision de 0 %.

Bien que le code source de SkillWeaver n’ait pas été publié, les chercheurs ont fourni des modèles d’invite que les développeurs peuvent implémenter à l’aide de bibliothèques existantes telles que LangChain et LlamaIndex. Le cadre nécessite une vectorisation initiale de la bibliothèque d’outils et la création d’un index FAISS, qui peut être complété en peu de temps, minimisant ainsi la latence lors de la récupération.

Une limitation de SkillWeaver est son manque de récupération d’erreur dans les chaînes d’outils en plusieurs étapes. L’étude indique que si une étape échoue, cela compromet la chaîne entière, soulignant la nécessité d’améliorer les mécanismes de gestion des erreurs au sein du cadre.

Crédit d’image en vedette