Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Une étude d’Oxford révèle que les références en matière d’IA exagèrent souvent les performances des modèles

byKerem Gülen
novembre 12, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Une nouvelle étude révèle que les méthodologies d’évaluation des systèmes d’IA surestiment souvent les performances et manquent de rigueur scientifique, soulevant des questions sur de nombreux résultats de référence. Des chercheurs de l’Oxford Internet Institute, en collaboration avec plus de trois douzaines d’établissementsexaminé 445 tests d’IA de pointeappelés benchmarks. Ces références mesurent les performances des modèles d’IA dans divers domaines. Les développeurs d’IA utilisent ces références pour évaluer les capacités des modèles et promouvoir les progrès techniques. Les affirmations sur les performances du génie logiciel et la capacité de raisonnement abstrait font référence à ces évaluations. Le document, publié mardi, suggère que ces tests fondamentaux pourraient ne pas être fiables. L’étude a révélé que de nombreux benchmarks de premier plan ne parviennent pas à définir leurs objectifs de test, à réutiliser les données et les méthodes des benchmarks existants et à utiliser rarement des méthodes statistiques fiables pour comparer les résultats des modèles. Adam Mahdi, chercheur principal à l’Oxford Internet Institute et auteur principal, a déclaré que ces critères peuvent être « alarmants et trompeurs ». Mahdi a déclaré à NBC News : « Lorsque nous demandons aux modèles d’IA d’effectuer certaines tâches, nous mesurons souvent des concepts ou des constructions complètement différents de ceux que nous cherchons à mesurer. » Andrew Bean, un autre auteur principal, convient que « même les critères de référence réputés suscitent trop souvent une confiance aveugle et méritent un examen plus approfondi ». Bean a également dit Actualités NBC« Vous devez vraiment le prendre avec des pincettes lorsque vous entendez des choses comme » un modèle atteint un niveau d’intelligence de doctorat. Nous ne sommes pas sûrs que ces mesures soient particulièrement bien effectuées. » Certains critères analysés évaluent des compétences spécifiques, telles que la maîtrise de la langue russe ou arabe. D’autres mesurent des capacités générales comme le raisonnement spatial et l’apprentissage continu. Une préoccupation centrale pour les auteurs était la « validité conceptuelle » d’un benchmark, qui se demande s’il teste avec précision le phénomène du monde réel qu’il entend mesurer. Par exemple, un benchmark examiné dans l’étude mesure les performances d’un modèle sur neuf tâches différentesnotamment en répondant à des questions par oui ou par non en utilisant les informations de Wikipédia en russe, au lieu d’une série interminable de questions pour évaluer la maîtrise du russe. Environ la moitié des benchmarks examinés ne définissent pas clairement les concepts qu’ils prétendent mesurer. Cela jette un doute sur leur capacité à fournir des informations utiles sur les modèles d’IA testés. L’étude met en évidence Grade School Math 8K (GSM8K), une référence commune en matière d’IA pour les questions mathématiques de base. Les classements du GSM8K sont souvent cités pour illustrer le raisonnement mathématique solide des modèles d’IA. La documentation du benchmark indique qu’il est « utile pour sonder la capacité de raisonnement informel des grands modèles de langage ». Cependant, Mahdi a fait valoir que les réponses correctes sur des critères tels que GSM8K n’indiquent pas nécessairement un raisonnement mathématique réel. Il a expliqué : « Lorsque vous demandez à un élève de première année ce que deux plus cinq font sept et qu’il répond sept, oui, c’est la bonne réponse. Mais pouvez-vous en conclure qu’un élève de cinquième année maîtrise le raisonnement mathématique ou arithmétique simplement en étant capable d’additionner des nombres ? Peut-être, mais je pense que la réponse est très probablement non. Bean a reconnu que mesurer des concepts abstraits comme le raisonnement implique d’évaluer un sous-ensemble de tâches, et que cette sélection sera intrinsèquement imparfaite. Il a déclaré : « Il y a de nombreux éléments en mouvement dans ces évaluations, et les satisfaire tous nécessite un équilibre. Mais ce document appelle à des critères de référence pour définir clairement ce qu’ils visent à mesurer. » Il a ajouté : « Avec des concepts comme l’innocuité ou le raisonnement, les gens se contentent souvent de lancer le mot pour choisir quelque chose qui se rapproche de cette catégorie et qu’ils peuvent mesurer et dire : « Super, maintenant je l’ai mesuré. » » Le nouveau document propose huit recommandations et une liste de contrôle pour systématiser les critères de référence et améliorer la transparence et la confiance. Les améliorations suggérées incluent la spécification de la portée de l’action évaluée, la construction de batteries de tâches qui représentent mieux les capacités globales et la comparaison des performances du modèle à l’aide d’une analyse statistique. Nikola Jurkovic, membre du personnel technique du centre de recherche METR AI, a salué les contributions du document. Jurkovic a déclaré à NBC News : « Nous avons besoin de plus de rigueur si nous voulons être en mesure d’interpréter les résultats des tests d’IA. Cette liste de contrôle est un point de départ permettant aux chercheurs de vérifier si leur test sera pertinent. » L’article de mardi s’appuie sur des recherches antérieures qui ont identifié des failles dans de nombreux benchmarks en matière d’IA. Les chercheurs de la société d’IA Anthropic ont plaidé l’année dernière pour une augmentation des tests statistiques. Ces tests détermineraient si les performances d’un modèle sur un benchmark reflétaient des différences de capacités réelles ou s’il s’agissait d’un « résultat chanceux » compte tenu des tâches et des questions. Plusieurs groupes de recherche ont récemment proposé de nouvelles séries de tests pour améliorer l’utilité et la précision des tests. Ces nouveaux tests mesurent mieux les performances réelles des modèles sur des tâches économiquement pertinentes. Fin septembre, OpenAI a lancé une nouvelle série de tests évaluant les performances de l’IA dans 44 métiers différents. Ces tests visent à ancrer plus fermement les affirmations sur les capacités de l’IA dans des scénarios réels. Les exemples incluent la capacité de l’IA à corriger les incohérences dans les factures clients dans Excel pour un rôle d’analyste commercial, ou à créer un calendrier de production complet pour un tournage vidéo de 60 secondes pour un rôle de producteur vidéo. Dan Hendrycks, directeur du Center for AI Safety, et une équipe de recherche ont récemment publié une référence similaire dans le monde réel. Ce benchmark évalue les performances des systèmes d’IA sur les tâches nécessaires à l’automatisation du travail à distance. Hendrycks a déclaré à NBC News : « Il est courant que les systèmes d’IA obtiennent des résultats élevés sur un benchmark mais ne résolvent pas réellement l’objectif réel du benchmark. » Mahdi a conclu que les chercheurs et les développeurs ont de nombreuses pistes à explorer dans l’évaluation des références en IA. Il a déclaré : « Nous ne sommes qu’au tout début de l’évaluation scientifique des systèmes d’IA. »


Crédit image en vedette

Tags: IAoxfordRéférence

Related Posts

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026

Recent Posts

  • Réparation de 20 $ de Verizon : comment réclamer votre crédit de panne aujourd'hui
  • Anthropic nomme Irina Ghose, vétéran de Microsoft, pour diriger l'expansion en Inde
  • Bluesky lance le badge Live Now et les cashtags dans une mise à jour majeure
  • Netflix conclut un accord mondial de 7 milliards de dollars pour une sélection de films de Sony Pictures
  • Samsung réorganise Mobile Gaming Hub pour réparer la découverte de jeux cassés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.