Une nouvelle étude révèle que les méthodologies d’évaluation des systèmes d’IA surestiment souvent les performances et manquent de rigueur scientifique, soulevant des questions sur de nombreux résultats de référence. Des chercheurs de l’Oxford Internet Institute, en collaboration avec plus de trois douzaines d’établissementsexaminé 445 tests d’IA de pointeappelés benchmarks. Ces références mesurent les performances des modèles d’IA dans divers domaines. Les développeurs d’IA utilisent ces références pour évaluer les capacités des modèles et promouvoir les progrès techniques. Les affirmations sur les performances du génie logiciel et la capacité de raisonnement abstrait font référence à ces évaluations. Le document, publié mardi, suggère que ces tests fondamentaux pourraient ne pas être fiables. L’étude a révélé que de nombreux benchmarks de premier plan ne parviennent pas à définir leurs objectifs de test, à réutiliser les données et les méthodes des benchmarks existants et à utiliser rarement des méthodes statistiques fiables pour comparer les résultats des modèles. Adam Mahdi, chercheur principal à l’Oxford Internet Institute et auteur principal, a déclaré que ces critères peuvent être « alarmants et trompeurs ». Mahdi a déclaré à NBC News : « Lorsque nous demandons aux modèles d’IA d’effectuer certaines tâches, nous mesurons souvent des concepts ou des constructions complètement différents de ceux que nous cherchons à mesurer. » Andrew Bean, un autre auteur principal, convient que « même les critères de référence réputés suscitent trop souvent une confiance aveugle et méritent un examen plus approfondi ». Bean a également dit Actualités NBC« Vous devez vraiment le prendre avec des pincettes lorsque vous entendez des choses comme » un modèle atteint un niveau d’intelligence de doctorat. Nous ne sommes pas sûrs que ces mesures soient particulièrement bien effectuées. » Certains critères analysés évaluent des compétences spécifiques, telles que la maîtrise de la langue russe ou arabe. D’autres mesurent des capacités générales comme le raisonnement spatial et l’apprentissage continu. Une préoccupation centrale pour les auteurs était la « validité conceptuelle » d’un benchmark, qui se demande s’il teste avec précision le phénomène du monde réel qu’il entend mesurer. Par exemple, un benchmark examiné dans l’étude mesure les performances d’un modèle sur neuf tâches différentesnotamment en répondant à des questions par oui ou par non en utilisant les informations de Wikipédia en russe, au lieu d’une série interminable de questions pour évaluer la maîtrise du russe. Environ la moitié des benchmarks examinés ne définissent pas clairement les concepts qu’ils prétendent mesurer. Cela jette un doute sur leur capacité à fournir des informations utiles sur les modèles d’IA testés. L’étude met en évidence Grade School Math 8K (GSM8K), une référence commune en matière d’IA pour les questions mathématiques de base. Les classements du GSM8K sont souvent cités pour illustrer le raisonnement mathématique solide des modèles d’IA. La documentation du benchmark indique qu’il est « utile pour sonder la capacité de raisonnement informel des grands modèles de langage ». Cependant, Mahdi a fait valoir que les réponses correctes sur des critères tels que GSM8K n’indiquent pas nécessairement un raisonnement mathématique réel. Il a expliqué : « Lorsque vous demandez à un élève de première année ce que deux plus cinq font sept et qu’il répond sept, oui, c’est la bonne réponse. Mais pouvez-vous en conclure qu’un élève de cinquième année maîtrise le raisonnement mathématique ou arithmétique simplement en étant capable d’additionner des nombres ? Peut-être, mais je pense que la réponse est très probablement non. Bean a reconnu que mesurer des concepts abstraits comme le raisonnement implique d’évaluer un sous-ensemble de tâches, et que cette sélection sera intrinsèquement imparfaite. Il a déclaré : « Il y a de nombreux éléments en mouvement dans ces évaluations, et les satisfaire tous nécessite un équilibre. Mais ce document appelle à des critères de référence pour définir clairement ce qu’ils visent à mesurer. » Il a ajouté : « Avec des concepts comme l’innocuité ou le raisonnement, les gens se contentent souvent de lancer le mot pour choisir quelque chose qui se rapproche de cette catégorie et qu’ils peuvent mesurer et dire : « Super, maintenant je l’ai mesuré. » » Le nouveau document propose huit recommandations et une liste de contrôle pour systématiser les critères de référence et améliorer la transparence et la confiance. Les améliorations suggérées incluent la spécification de la portée de l’action évaluée, la construction de batteries de tâches qui représentent mieux les capacités globales et la comparaison des performances du modèle à l’aide d’une analyse statistique. Nikola Jurkovic, membre du personnel technique du centre de recherche METR AI, a salué les contributions du document. Jurkovic a déclaré à NBC News : « Nous avons besoin de plus de rigueur si nous voulons être en mesure d’interpréter les résultats des tests d’IA. Cette liste de contrôle est un point de départ permettant aux chercheurs de vérifier si leur test sera pertinent. » L’article de mardi s’appuie sur des recherches antérieures qui ont identifié des failles dans de nombreux benchmarks en matière d’IA. Les chercheurs de la société d’IA Anthropic ont plaidé l’année dernière pour une augmentation des tests statistiques. Ces tests détermineraient si les performances d’un modèle sur un benchmark reflétaient des différences de capacités réelles ou s’il s’agissait d’un « résultat chanceux » compte tenu des tâches et des questions. Plusieurs groupes de recherche ont récemment proposé de nouvelles séries de tests pour améliorer l’utilité et la précision des tests. Ces nouveaux tests mesurent mieux les performances réelles des modèles sur des tâches économiquement pertinentes. Fin septembre, OpenAI a lancé une nouvelle série de tests évaluant les performances de l’IA dans 44 métiers différents. Ces tests visent à ancrer plus fermement les affirmations sur les capacités de l’IA dans des scénarios réels. Les exemples incluent la capacité de l’IA à corriger les incohérences dans les factures clients dans Excel pour un rôle d’analyste commercial, ou à créer un calendrier de production complet pour un tournage vidéo de 60 secondes pour un rôle de producteur vidéo. Dan Hendrycks, directeur du Center for AI Safety, et une équipe de recherche ont récemment publié une référence similaire dans le monde réel. Ce benchmark évalue les performances des systèmes d’IA sur les tâches nécessaires à l’automatisation du travail à distance. Hendrycks a déclaré à NBC News : « Il est courant que les systèmes d’IA obtiennent des résultats élevés sur un benchmark mais ne résolvent pas réellement l’objectif réel du benchmark. » Mahdi a conclu que les chercheurs et les développeurs ont de nombreuses pistes à explorer dans l’évaluation des références en IA. Il a déclaré : « Nous ne sommes qu’au tout début de l’évaluation scientifique des systèmes d’IA. »





