GPT-5.2 marqué 92 % sur un benchmark scientifique « Google-Proof », dépassant largement la base de référence des experts de 70 %. Le modèle avancé a également obtenu des médailles dans de grandes compétitions internationales, démontrant ainsi ses capacités évolutives en matière de raisonnement scientifique. Les scientifiques utilisent largement ces systèmes pour des tâches telles que la recherche documentaire dans diverses disciplines et langues, ainsi que pour naviguer dans des preuves mathématiques complexes. Cette évolution réduit souvent un travail qui prend généralement des jours ou des semaines à quelques heures seulement. Le papier, Premières expériences d’accélération scientifique avec GPT-5publié en novembre 2025, fournit des premières preuves que GPT-5 peut notamment accélérer les flux de travail scientifiques. Pour mesurer et prévoir davantage la capacité des modèles d’IA à accélérer la recherche scientifique, les développeurs ont introduit FrontierScience, une nouvelle référence conçue pour évaluer les capacités scientifiques de niveau expert. Le benchmark contient des questions rédigées et vérifiées par des experts en physique, chimie et biologie, en mettant l’accent sur l’originalité et la difficulté. FrontierScience propose deux pistes distinctes :
- Olympiade: Mesure les capacités de raisonnement scientifique à la manière des compétitions internationales des Olympiades.
- Recherche: Évalue les capacités de recherche scientifique du monde réel.
Lors des évaluations initiales, GPT-5.2 est apparu comme le modèle le plus performant à la fois sur FrontierScience-Olympiad, avec un score de 77 %, et sur Research, avec un score de 25 %. Cette performance le positionne devant d’autres modèles pionniers, notamment Claude Opus 4.5 et Gemini 3 Pro. Les résultats indiquent que les modèles actuels peuvent prendre en charge les aspects de raisonnement structuré de la recherche, même s’il reste encore beaucoup à faire pour améliorer leurs capacités de réflexion ouverte. FrontierScience comprend plus de 700 questions textuelles, dont 160 dans son ensemble d’or, couvrant des sous-domaines de la physique, de la chimie et de la biologie. FrontierScience-Olympiad propose 100 questions conçues en collaboration par 42 médaillés des Olympiades internationales et entraîneurs d’équipes nationales. FrontierScience-Research comprend 60 sous-tâches de recherche originales développées par 45 doctorants, dont des doctorants, des professeurs et des chercheurs postdoctoraux. Pour l’ensemble Olympiade, la notation s’effectue par vérification des réponses courtes. Pour la filière Recherche, une architecture basée sur des rubriques avec un système de notation sur 10 points évalue les tâches ouvertes. Cette rubrique évalue à la fois la réponse finale et les étapes de raisonnement intermédiaires. Un évaluateur basé sur un modèle, GPT-5, évalue les réponses par rapport à ces critères. La création de chaque tâche impliquait une sélection par rapport à des modèles internes, ce qui peut biaiser les évaluations par rapport à des modèles spécifiques. Les principaux résultats de performance comprennent :
- Précision FrontierScience-Olympiade :
- GPT-5.2 : 77,1 %
- Gémeaux 3 Pro : 76,1 %
- Claude Opus 4.5 : 71,4%
- Précision de la recherche FrontierScience :
- GPT-5.2 : 25,2 %
- Claude Opus 4.5 : 17,5%
- Grok 4 : 15,9 %
Des temps de traitement plus longs ou des efforts de raisonnement plus importants étaient corrélés à une précision améliorée pour GPT-5.2 et OpenAI o3. Par exemple, la précision de GPT-5.2 sur FrontierScience-Olympiad est passée de 67,5 % avec un effort de raisonnement « faible » à 77,1 % avec un effort de raisonnement « XHigh ». De même, sur FrontierScience-Research, la précision de GPT-5.2 est passée de 18,2 % à « Low » à 25,2 % à « XHigh ». FrontierScience se concentre actuellement sur les énoncés de problèmes contraints et n’évalue pas la génération de nouvelles hypothèses ou interactions avec des données multimodales. Les développeurs prévoient d’itérer sur le benchmark, en l’étendant à de nouveaux domaines et en intégrant davantage d’évaluations réelles à mesure que les modèles s’améliorent.





