L'O3 d'Openai a réclamé 25%, un test indépendant indique «Essayez 10»

Le modèle O3 AI d’Openai a obtenu un score inférieur à la référence FrontitierArt que la société initialement impliquée, selon des tests indépendants par Époque AIl’institut de recherche derrière Frontitiermath. Lorsque OpenAI a dévoilé O3 en décembre, il a affirmé que le modèle pourrait répondre à 25% des questions de Frontitiermath, surpassant considérablement d’autres modèles.

Les tests de l’époque AI ont révélé que O3 a marqué environ 10% sur Frontitiermath. L’écart peut être dû à des différences dans les configurations de test ou à la version d’O3 utilisée. Le directeur de recherche d’Openai, Mark Chen, avait a déclaré que L’O3 a atteint plus de 25% dans les «paramètres de calcul de test agressifs». Epoch a noté que les résultats de référence publiés d’OpenAI ont montré un score limité inférieur qui correspond au score de 10% observé.

Le modèle public O3 est «réglé pour le chat / utilisation des produits» et dispose de plus petits niveaux de calcul que la version testée par OpenAI en décembre, selon l’ARC Prize Foundation, qui a testé une version pré-libération d’O3. Wenda Zhou d’Openai expliqué que le modèle de production O3 est «plus optimisé pour les cas d’utilisation du monde réel» et la vitesse, ce qui peut entraîner des disparités de référence.

OpenAIS-O3-2000-25 pour cent des tests indépendants-Stry-10 — Image: Epoch Ai

Les modèles O3-MinI-High et O4-Mini d’OpenAI surpassent O3 sur FrontitierArmath. La société prévoit de publier une variante O3 plus puissante, O3-Pro, dans les prochaines semaines. Cet incident met en évidence la nécessité de prudence lors de l’interprétation des repères d’IA, en particulier lorsqu’ils sont utilisés pour promouvoir les produits commerciaux.

L’industrie de l’IA a connu plusieurs controverses comparatives récemment. En janvier, Epoch a été critiqué pour ne pas avoir divulgué le financement d’OpenAI avant l’annonce de l’O3. XAI a été accusé d’avoir publié des graphiques de référence trompeuses pour son modèle Grok 3, et Meta a admis avoir vantant les scores de référence pour une version différente d’un modèle de celle disponible pour les développeurs.

Crédit d’image en vedette