GPT-4.1 a officiellement débarqué Dans l’API OpenAI, introduisant un trio de modèles – GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano – qui surpassent leurs prédécesseurs dans presque toutes les dimensions. Ces modèles sont conçus pour les développeurs qui ont besoin de meilleures compétences de codage, de suivi d’instructions plus forts et de compréhension massive du contexte à long terme, tout en réduisant la latence et le coût. Le modèle phare soutient désormais jusqu’à 1 million de jetons de contexte et présente une nouvelle limite de connaissances de juin 2024.
Quoi de neuf avec GPT-4.1?
La famille GPT-4.1 est une mise à niveau directe par rapport à GPT-4O et GPT-4.5, offrant des performances améliorées entre les repères tout en optimisant pour une utilisation des développeurs réels. GPT-4.1 scores de 54,6% sur SWe-bench vérifiéce qui en fait l’un des modèles top pour les tâches de codage. À l’échelle Benchmark à plusieurs calculsil voit une amélioration absolue de 10,5% par rapport à GPT-4O dans l’instruction suivante. Pour de longues tâches de contexte, il établit un nouveau score de pointe de 72% sur le Benchmark vidéo MME.
Les modèles sont également optimisés à travers la courbe de latence. GPT-4.1 Mini offre presque les mêmes performances que GPT-4O tout en réduisant la latence en deux et en réduisant le coût de 83%. GPT-4.1 Nano est le modèle le plus rapide et le plus abordable d’Openai, conçu pour les tâches de classification et de saisie semi-automatique tout en prenant en charge 1 million de fenêtres de contexte de jeton.
Les capacités de codage font un saut
De la génération d’interfaces frontales plus propres aux formats Diff suivant plus de manière fiable, GPT-4.1 s’avère comme un assistant de codage hautement capable. Sur la référence vérifiée SWE-Bench, il complète correctement la moitié des tâches, jusqu’à 33,2% avec GPT-4O. Il surpasse également GPT-4O et même GPT-4.5 sur Benchmark Polyglot Diff de Aider, offrant aux développeurs des modifications précises sur plusieurs langages de programmation sans réécrire des fichiers entiers. Pour les réécritures au niveau des fichiers, les limites de jetons de sortie ont été étendues à 32 768 jetons.
Dans les comparaisons internes, les sites Web GPT-4.1 ont été préférés 80% du temps par rapport aux sorties de GPT-4O. Les modifications étrangères du code sont passées de 9% à seulement 2%, reflétant une meilleure compréhension du contexte et une utilisation des outils.
Les premiers adoptants mettent en évidence les victoires du monde réel
Windsurf a signalé une amélioration de 60% des repères internes, tandis que Qodo a révélé que GPT-4.1 a fourni de meilleures suggestions dans 55% des demandes de traction GitHub. Ces améliorations se traduisent directement par une meilleure précision d’examen du code, moins de suggestions inutiles et des cycles d’itération plus rapides pour les équipes.
Instruction plus nette suivre les scénarios
GPT-4.1 fonctionne beaucoup mieux dans la fiabilité de l’instruction. Il marque 87,4% sur Ifeval et 38% sur la référence à plusieurs calculs, présentant des gains dans la gestion des formats complexes, rejetant les instructions interdites et tri ou classement les sorties. La propre évaluation d’OpenAI a montré que GPT-4.1 est plus précis sur les invites dures et mieux dans le suivi des instructions multi-tour, une caractéristique essentielle pour créer des systèmes conversationnels fiables.
Blue J et Hex ont tous deux testé GPT-4.1 contre les tâches spécifiques au domaine. Blue J a connu une amélioration de la précision de 53% dans les scénarios fiscaux complexes, tandis que Hex a signalé presque le double des performances des tâches SQL, réduisant le débogage des frais généraux et améliorant la réalisation de la production.
1 million de fenêtres de contexte de jeton définissent une nouvelle barre
Les trois modèles de la famille GPT-4.1 soutiennent désormais jusqu’à 1 million de jetons de contexte – sur 8 fois la base de code React. Cela permet de nouveaux cas d’utilisation puissants dans l’analyse des documents juridiques, la recherche financière et les flux de travail logiciels longs. Dans le test «aiguille dans une botte de foin» d’OpenAI, GPT-4.1 a récupéré de manière fiable le contenu pertinent, peu importe où il est apparu dans l’entrée.
La référence OpenAI-MRCR l’a confirmé en testant la capacité du modèle à distinguer les invites presque identiques dispersées à travers une fenêtre de contexte massive. Sur la référence GraphWalks, qui implique le raisonnement à travers les nœuds dans un graphique synthétique, GPT-4.1 a obtenu un score de 62%, considérablement devant 42% de GPT-4O.
Thomson Reuters a signalé une augmentation de 17% de la précision de l’examen des documents juridiques en utilisant GPT-4.1 dans son système Coconsel, tandis que Carlyle a connu une amélioration de 50% dans l’extraction des données financières granulaires de fichiers complexes.
GPT-4.5 Out-Humains humains dans un nouveau test
Inférence plus rapide et meilleure compréhension de l’image
OpenAI a réduit le temps de premier jeton en utilisant des améliorations de sa pile d’inférence. GPT-4.1 Nano répond en moins de cinq secondes sur des invites de 128K. Pour les tâches multimodales, GPT-4.1 Mini montre une compréhension d’image plus forte que GPT-4O à travers des repères comme MMMU et Mathvista.
Dans les références visuelles comme la relance de Charxiv et la vidéo MME, GPT-4.1 mène régulièrement, marquant 72% sur ce dernier sans sous-titres. Cela en fait un premier choix pour la compréhension vidéo et l’interprétation des graphiques scientifiques.
Baisses de prix et plans de transition
Les trois modèles GPT-4.1 sont désormais disponibles dans l’API, avec une baisse de prix significative. GPT-4.1 est 26% moins cher pour les requêtes médianes par rapport à GPT-4O. Des remises de mise en cache rapides sont passées à 75%, et il n’y a pas de frais supplémentaires pour les entrées à long contexte. L’aperçu GPT-4.5 sera déconseillé d’ici le 14 juillet 2025 en faveur de la famille GPT-4.1 la plus efficace.
Le prix par jetons 1M pour GPT-4.1 est défini à 2 $ pour les entrées, 0,50 $ pour les entrées en cache et 8 $ pour la sortie. GPT-4.1 Nano les laisse tomber à 0,10 $, 0,025 $ et 0,40 $ respectivement, ce qui en fait l’option la plus abordable à ce jour.