Les modèles d’IA modernes avancent à une vitesse vertigineuse, mais la façon dont nous les évaluons a à peine suivi le rythme. Les références traditionnelles nous disent si un modèle a réussi ou échoué à un test, mais donne rarement un aperçu des raisons pour lesquelles elle a performé comme elle l’a fait ou comment cela pourrait s’en tirer sur des défis inconnus. Un nouvel effort de recherche de Microsoft et de ses collaborateurs propose un cadre rigoureux qui réinvente la façon dont nous évaluons les systèmes d’IA.
Évaluer l’IA par ce qu’il doit savoir
L’innovation de base présenté Dans cette étude est un cadre appelé Adele, abréviation des niveaux annotés-demande. Au lieu de tester les modèles isolément, Adele marque à la fois le modèle et la tâche sur le même ensemble d’échelles cognitives et basées sur les connaissances. Le résultat est un profil complet qui capture à quel point une tâche est exigeante et si un système d’IA spécifique a les capacités nécessaires pour le gérer.
Adele opère à travers 18 échelles généraleschacun reflétant un aspect clé des connaissances cognitives ou du domaine telles que le raisonnement, l’attention ou l’expertise formelle en la matière. Les tâches sont évaluées de 0 à 5 sur chaque dimension, indiquant combien cette capacité contribue à l’achèvement de la tâche réussie. Cette annotation à double côté crée une sorte de score de compatibilité entre les modèles et les tâches, ce qui permet de prédire les résultats et d’expliquer les échecs avant qu’ils ne se produisent.

Ce qui distingue Adele, c’est sa base en psychométrie – un domaine concernant la mesure des capacités humaines. En adaptant ces outils d’évaluation humaine pour l’IA, les chercheurs ont construit un cadre qui peut être utilisé de manière fiable par des systèmes automatisés. Adele a été appliquée à 63 tâches de 20 repères d’IA établis, couvrant plus que 16 000 exemples. Les chercheurs ont ensuite utilisé cet ensemble de données pour évaluer 15 modèles de grands langues, y compris des leaders de l’industrie comme GPT-4, LLAMA-3.1-405B et Deepseek-R1-Dist-Qwen-32B.
Le processus a généré des profils de capacité pour chaque modèle. Ces profils illustrent comment les taux de réussite varient avec la complexité des tâches à différentes compétences, offrant une compréhension granulaire des capacités du modèle. Les graphiques radar visualisent ces profils à travers les 18 dimensions de capacité, révélant des modèles nuancés que les scores de référence bruts ne peuvent pas seuls.
Cette évaluation approfondie a fait surface de plusieurs résultats qui remettent en question les hypothèses actuelles sur les performances et les progrès de l’IA.
- D’abord, Les repères d’IA existants ne parviennent souvent pas à tester ce qu’ils prétendent. Par exemple, une référence conçue pour le raisonnement logique peut également nécessiter une connaissance du domaine de niche ou des niveaux élevés de métacognition, diluant son objectif prévu.
- Deuxième, L’équipe a découvert des modèles de capacité distincts dans des modèles de grands langues. Les modèles axés sur le raisonnement ont systématiquement surpassé les autres dans des tâches impliquant la logique, l’abstraction et la compréhension du contexte social. Cependant, la taille brute seule ne garantit pas la supériorité. Au-delà d’un certain point, la mise à l’échelle des modèles a produit des rendements décroissants dans de nombreuses zones de capacité. Les techniques de formation et la conception du modèle semblent jouer un rôle plus important dans le raffinage des performances dans des domaines cognitifs spécifiques.
- Troisième, Et peut-être le plus important, Adele a permis des prédictions précises du succès du modèle sur des tâches inconnues. En comparant les demandes de tâches avec les capacités du modèle, les chercheurs ont atteint des précisions de prédiction allant jusqu’à 88%. Cela représente un saut substantiel au-dessus des approches de la boîte noire qui reposent sur des intégres ou des scores affinés sans comprendre la difficulté de la tâche ou la cognition du modèle.

En utilisant l’approche de correspondance de capacité à la demande, l’équipe a développé un système capable de prévoir le comportement de l’IA dans une large gamme de scénarios. Qu’il s’agisse de nouveaux repères ou de défis réels, ce système fournit une méthode structurée et interprétable pour anticiper les échecs et identifier des modèles appropriés pour des cas d’utilisation spécifiques. Cette capacité prédictive est particulièrement pertinente dans les environnements à enjeux élevés où la fiabilité et la responsabilité ne sont pas négociables.
Plutôt que de déployer l’IA en fonction de la réputation générale ou des scores de tâches limités, les développeurs et les décideurs peuvent désormais utiliser des évaluations au niveau de la demande pour faire correspondre les systèmes aux tâches avec beaucoup plus de confiance. Cela prend en charge non seulement une mise en œuvre plus fiable, mais aussi une meilleure gouvernance, car les parties prenantes peuvent retracer le comportement du modèle à des capacités et des limitations mesurables.
Votre partenaire générateur d’IA super utile rend-il secrètement votre travail ennuyeux?
Les implications d’Adele s’étendent au-delà des laboratoires de recherche. Cette méthode d’évaluation offre une base pour des évaluations standardisées et interprétables qui peuvent soutenir tout, de la recherche et du développement de produits en IA à la surveillance réglementaire et à la confiance du public. À mesure que l’IA à usage général devient intégrée dans des secteurs comme l’éducation, les soins de santé et le droit, comprendre comment les modèles se comporteront en dehors de leur contexte de formation deviennent non seulement utiles mais essentiels.
La conception modulaire d’Adele lui permet d’être adaptée aux systèmes multimodaux et incarnés, élargissant encore sa pertinence. Il s’aligne sur la position plus large de Microsoft sur l’importance de la psychométrie dans l’IA et fait écho aux appels dans les livres blancs récents pour des outils d’évaluation d’IA plus transparents, transférables et dignes de confiance.
Vers les normes d’évaluation plus intelligentes
Pour tout l’optimisme autour des modèles de fondation, l’un des risques imminents a été le manque de pratiques d’évaluation significatives. Les références ont motivé les progrès, mais ils ont également limité notre visibilité sur ce que les modèles comprennent réellement ou comment ils pourraient se comporter dans des situations inattendues. Avec Adele, nous avons maintenant une voie pour changer cela.
Ce travail recadre une évaluation non comme une liste de contrôle des scores mais comme une interaction dynamique entre les systèmes et les tâches. En traitant les performances comme une fonction de l’ajustement de la capacité, il jette les bases d’une compréhension plus scientifique, fiable et nuancée des capacités de l’IA. Cette fondation est critique non seulement pour les progrès techniques mais aussi pour l’adoption responsable de l’IA dans des contextes humains complexes.