OpenAI: Framework GDPVAL teste l'IA sur les travaux du monde réel

OpenAI a annoncé un nouveau cadre d’évaluation, GDPVAL, pour mesurer les performances de l’intelligence artificielle sur des tâches économiquement précieuses. Le système teste les modèles sur 1 320 affectations d’emplois réels pour combler l’écart entre les références académiques et l’application pratique. Le cadre GDPVAL évalue comment les modèles d’IA traitent de 1 320 tâches distinctes associées à 44 professions différentes. Ces emplois sont principalement des postes de travail des connaissances au sein des industries qui contribuent chacun à plus de 5% au produit intérieur brut (PIB) des États-Unis. Pour construire cette liste de professions pertinentes, OpenAI a utilisé des données du Bureau américain des statistiques du travail (BLS) de mai 2024 et de la base de données NET du Département du travail. La sélection des professions qui en résulte comprend des professions fréquemment associées à l’intégration de l’IA, telles que les ingénieurs logiciels, les avocats et les éditeurs vidéo. Le cadre s’étend également aux professions moins couramment discutées dans le contexte de l’IA, y compris les détectives, les pharmaciens et les travailleurs sociaux, offrant une évaluation plus large de l’impact économique potentiel. Selon l’entreprise, les tâches de l’évaluation ont été créées par des professionnels qui possèdent en moyenne 14 ans d’expérience dans leurs domaines respectifs. Cette mesure visait à s’assurer que les tâches reflètent avec précision «les produits de travail réels, tels qu’un mémoire juridique, un plan d’ingénierie, une conversation de support client ou un plan de soins infirmiers». OpenAI a spécifié que la portée de GDPVAL à travers de nombreuses tâches et professions la distingue des autres évaluations axées sur la valeur économique, qui peut se concentrer sur un seul domaine comme l’ingénierie logicielle. La conception de l’évaluation renonce à des invites de texte simples. Au lieu de cela, il fournit les modèles AI avec des fichiers à référence et nécessite la création de livrables multimodaux, tels que les diapositives de présentation et les documents formatés. Cette approche est destinée à simuler comment un utilisateur interagirait avec la technologie dans un environnement de travail professionnel. OpenAI a déclaré: « Ce réalisme fait du GDPVAL un test plus réaliste de la façon dont les modèles pourraient soutenir les professionnels. » Dans son étude, OpenAI a utilisé le cadre GDPVAL pour noter les sorties de plusieurs de ses propres modèles, notamment GPT-4O, GPT-4O-MINI, GPT-3 et le GPT-5 le plus récent. L’évaluation comprenait également des modèles d’autres sociétés: Claude Opus 4.1 d’Anthropic, Gemini 2.5 Pro de Google et Grok 4 de Xai. Le cœur du processus de notation impliquait des professionnels expérimentés qui ont effectué des évaluations aveugles des résultats des modèles. Ces élèves humains ont comparé sans le savoir le travail généré par l’AI-AI contre les résultats produits par des experts humains, fournissant une référence de qualité directe sans connaissance de l’origine de l’œuvre. Pour compléter ce processus dirigé par l’homme, OpenAI a développé un système d’IA « Autograder ». Ce système est conçu pour prédire comment un évaluateur humain marquerait un livrable donné. La société a annoncé son intention de publier cet autograder en tant qu’outil de recherche expérimental pour les autres. OpenAI a cependant fait preuve de prudence déclarant que l’autograder n’est pas aussi fiable que les élèves humains. Il a affirmé que l’outil n’est pas destiné à remplacer l’évaluation humaine dans un avenir proche, reflétant le jugement nuancé requis pour évaluer le travail professionnel de haute qualité. Les premiers résultats des tests du GDPVAL indiquent que l’IA avancée actuelle approche des normes de qualité des professionnels humains. « Nous avons constaté que les meilleurs modèles frontaliers d’aujourd’hui approchent déjà de la qualité du travail produit par des experts de l’industrie », a écrit Openai. Parmi les modèles testés, Claude Opus 4.1 d’Anthropic a été identifié comme le meilleur interprète global. Ses forces particulières ont été observées dans des tâches liées à l’esthétique, qui comprend des éléments tels que la mise en forme de documents professionnels et la disposition claire et efficace des diapositives de présentation. Ces qualités sont souvent essentielles pour les matériaux orientés avec les clients et la communication efficace dans un contexte commercial. Alors que Claude Opus 4.1 a excellé dans la présentation, le modèle GPT-5 d’OpenAI a démontré une performance supérieure en précision. Cela était particulièrement évident dans les tâches qui nécessitaient de trouver et d’appliquer correctement les connaissances spécifiques au domaine. La recherche a également mis en évidence le rythme rapide de l’amélioration du modèle. Les résultats ont montré que les performances sur les tâches GDPVAL « plus que doublées de GPT-4O (Sortie du printemps 2024) à GPT-5 (Sété 2025). » Cette augmentation substantielle des capacités sur une période relativement courte indique une accélération significative dans le développement des technologies d’IA sous-jacentes. L’évaluation comprenait également une analyse de l’efficacité. « Nous avons constaté que les modèles de frontière peuvent effectuer des tâches GDPVAL environ 100 x plus rapides et 100 × moins chères que les experts de l’industrie », a rapporté Openai. La société a immédiatement qualifié cette constatation avec une mise en garde critique. « Cependant, ces chiffres reflètent le temps d’inférence du modèle pur et les taux de facturation des API, et ne capturent donc pas les étapes de surveillance, d’itération et d’intégration humaines requises dans les paramètres de travail réels pour utiliser nos modèles. » Ce contexte précise que le calcul exclut le temps et le coût considérables associés à la gestion, à la raffinage et à la mise en œuvre du travail généré par l’IA dans un flux de travail commercial pratique. OpenAI a reconnu des limitations importantes dans la version actuelle du cadre du GDPVAL, la décrivant comme « une étape précoce qui ne reflète pas la pleine nuance de nombreuses tâches économiques ». Une contrainte majeure est son utilisation d’évaluations ponctuelles. Cela signifie que le cadre ne peut pas mesurer la capacité d’un modèle à gérer les travaux itératifs, comme la réalisation de plusieurs ébauches d’un projet, ou sa capacité à absorber le contexte pour une tâche continue au fil du temps. Par exemple, le test actuel ne peut pas évaluer si un modèle pourrait modifier avec succès un mémoire juridique basé sur les commentaires des clients ou refaire une analyse des données pour tenir compte d’une anomalie nouvellement découverte. Une autre limitation notée par l’entreprise est que le travail professionnel n’est pas toujours un processus simple avec des fichiers organisés et une directive claire. Le cadre actuel ne peut pas capturer les aspects les plus complexes et les moins structurés de nombreux emplois. Cela comprend le travail «humain et profondément contextuel – d’explorer un problème par la conversation et de gérer l’ambiguïté ou les circonstances changeantes». Ces éléments sont souvent au cœur des rôles professionnels mais sont difficiles à reproduire dans un environnement de test standardisé. « La plupart des emplois sont plus qu’une simple collection de tâches qui peuvent être écrites », a ajouté Openai. La société a déclaré son intention de traiter ces limitations dans les itérations futures du cadre. Les plans comprennent l’élargissement de sa portée pour s’étendre sur plus d’industries et intégrer des tâches plus difficiles à automatiser. Plus précisément, OpenAI tentera de développer des évaluations des tâches qui impliquent des flux de travail interactifs, où un modèle doit s’engager dans un processus de va-et-vient, ou ceux qui nécessitent une compréhension du contexte antérieur étendu, qui reste un défi pour de nombreux systèmes d’IA. Dans le cadre de cette expansion, OpenAI publiera un sous-ensemble des tâches du GDPVAL que les chercheurs peuvent utiliser dans leur propre travail. D’après ces résultats, la conclusion déclarée d’OpenAI est que l’IA continuera inévitablement à perturber le marché du travail. L’entreprise postule que l’IA peut assumer un «travail occupé» de routine, libérant ainsi les travailleurs humains à se concentrer sur des tâches plus complexes et stratégiques. Cette perspective encadre l’IA comme un outil pour augmenter la productivité humaine plutôt que uniquement pour le remplacement. « Surtout sur le sous-ensemble des tâches où les modèles sont particulièrement forts, nous nous attendons à ce que donner une tâche à un modèle avant de l’essayer avec un humain économiserait du temps et de l’argent », a écrit Openai. Parallèlement à ces résultats, la société a réitéré son engagement déclaré envers sa mission plus large. Cela comprend des plans pour démocratiser l’accès aux outils d’IA, un effort pour continuer à «soutenir les travailleurs grâce au changement et à créer des systèmes qui récompensent une large contribution». « Notre objectif est de garder tout le monde sur« l’ascenseur »de l’IA», a conclu la société.

Crédit d’image en vedette

No Result