Des chercheurs de l’Université de Californie, de Berkeley, de l’Université de Stanford et de Databricks ont introduit une nouvelle méthode appelée Gepa Cela remplace l’apprentissage traditionnel, essais et erreurs par la compréhension du langage d’une IA. Selon un récent article résumant la recherche, cette approche est non seulement plus précise mais aussi beaucoup plus efficace, obtenant des résultats supérieurs avec jusqu’à 35 fois moins d’essai que les techniques établies.
L’inefficacité de l’apprentissage traditionnel du renforcement
Les applications d’IA d’entreprise modernes sont souvent des «systèmes d’IA composés», qui sont des flux de travail complexes qui connectent plusieurs modules d’IA et des outils externes comme les bases de données ou les interprètes de code. Une façon populaire d’optimiser ces systèmes est par le renforcement d’apprentissage (RL), qui traite le système comme une boîte noire. Cette méthode exécute une tâche, reçoit un score numérique simple ou une «récompense scalaire» (par exemple, 7/10), et utilise cette rétroaction pour ajuster lentement les paramètres du modèle. Le principal inconvénient de cette approche est son «échantillon d’inefficacité».
Pour apprendre efficacement à partir de ces scores numériques clairsemés, les méthodes RL nécessitent souvent des dizaines de milliers, voire des centaines de milliers de séries d’essais, appelées «déploiements». Pour toute application du monde réel impliquant des appels d’outils coûteux ou des modèles propriétaires puissants, ce processus est prohibitif lent et coûteux. En tant que l’un des co-auteurs du journal, Lakshya a Agrawal, noté, cette complexité rend RL impraticable pour de nombreuses équipes, qui recourent souvent à l’ingénierie rapide. GEPA a été conçu pour relever ce défi, en particulier pour les équipes qui ont besoin d’optimiser des systèmes construits sur des modèles de niveau supérieur qui ne peuvent pas être facilement affinés.
Comment Gepa utilise le langage pour apprendre et évoluer
Le cadre GEPA (génétique-Pareto) aborde l’inefficacité de la RL en remplaçant les récompenses numériques clairsemées par une rétroaction riche en langage naturel. Il exploite le fait que l’ensemble de l’exécution d’un système d’IA, y compris ses étapes de raisonnement, ses appels d’outils et ses messages d’erreur, peut être transformé en texte qu’un modèle d’IA peut lire et analyser. La méthodologie est construite sur trois piliers de base.
- Évolution génétique rapide: GEPA traite une collection d’invites comme un pool de gènes. Il «mute» de manière itérative ces invites à créer de nouvelles versions potentiellement meilleures à utiliser le système d’IA.
- Réflexion avec rétroaction du langage naturel: C’est l’innovation clé. Après quelques essais, GEPA fournit un modèle d’IA avec le texte intégral de ce que le système a essayé de faire et de ce qui n’a pas fonctionné. Le modèle «réfléchit ensuite» à cette rétroaction pour diagnostiquer le problème en langage clair et rédiger une invite améliorée. Par exemple, au lieu de simplement voir un score faible, il peut analyser une erreur de compilateur et conclure que l’invite doit spécifier une version de bibliothèque particulière.
- Sélection basée sur Pareto: Pour éviter de rester coincé sur une seule solution sous-optimale, GEPA maintient une liste diversifiée d’invites «spécialisées» hautement performantes. En suivant, ce qui invite le mieux fonctionne sur différents exemples, il explore un plus large éventail de stratégies et est plus susceptible de trouver une solution qui fonctionne bien sur de nombreuses intrants.
Les chercheurs ont évalué le GEPA sur quatre tâches diverses et ont constaté qu’il surpassait considérablement la méthode basée sur RL Grpo. Lors des tests, GEPA a atteint jusqu’à un 19% score plus élevé tout en utilisant jusqu’à 35 fois moins de déploiement. Dans un exemple concret, GEPA a optimisé un système de réponse aux questions d’environ 3 heures à un coût inférieur à 20 $tandis que l’approche basée sur RL a adopté 24 heures et coûter 300 $représentant une réduction de 8x dans le temps et une réduction de 15x du coût pour de meilleurs résultats.
Au-delà des performances brutes, les systèmes optimisés GEPA se sont révélés plus fiables sur de nouvelles données invisibles, que les chercheurs attribuent aux commentaires plus riches basés sur le langage. Les invites produites par GEPA étaient également à la hauteur 9.2 des temps plus courts que ceux d’autres optimisateurs, ce qui réduit la latence et le coût de la production. Les chercheurs ont également noté que le GEPA peut être utilisé comme solveur de problèmes «temps d’inférence», générant automatiquement et affinant automatiquement les solutions dans un pipeline d’intégration continue. Dans une expérience, cette approche a augmenté les performances des tâches de génération de code à un niveau d’expert 20% des tâchesun niveau qui a été atteint sur 0% des tâches par une tentative standard à un seul coup de GPT-4O.