Sortie anthropique Claude Sonnet 4.5 avec codage avancé et capacités d'agent

La société AI Anthropic a publié Claude Sonnet 4.5, un nouveau modèle phare que la société positionne comme son plus capable de codage, de construire des agents complexes et d’utiliser des systèmes informatiques, avec des gains importants de raisonnement et de mathématiques. Le nouveau modèle est maintenant disponible et est accompagné d’une nouvelle boîte à outils de développeur et de mises à jour majeures sur la gamme de produits Claude.

Sonnet 4.5 fonctionnalités qui se démarquent

Selon Anthropic article de blogle modèle atteint des performances de pointe sur l’évaluation vérifiée SWE-Bench, une référence qui mesure les capacités de codage logiciel du monde réel. Il montre également des performances améliorées sur la référence OSWorld, qui teste la capacité d’un modèle d’IA à effectuer des tâches réelles sur un ordinateur, telles que la navigation sur les sites Web et le remplissage de feuilles de calcul. La société rapporte également que les experts en finance, en droit, en médecine et en STEM ont trouvé que Sonnet 4.5 avait considérablement de meilleurs connaissances et raisonnement spécifiques au domaine par rapport aux modèles précédents.

Nouveaux outils pour les développeurs: le SDK de l’agent Claude

Parallèlement au nouveau modèle, Anthropic a lancé le Claude Agent SDK. Ce kit de développement de logiciels fournit aux développeurs la même infrastructure que la société utilise pour alimenter son produit Claude Code, leur permettant de construire leurs propres agents d’IA personnalisés. Le SDK est conçu pour résoudre des défis courants dans le développement des agents, tels que la gestion de la mémoire pour les tâches de longue durée, la gestion des systèmes d’autorisation et la coordination des sous-agents travaillant vers un objectif commun. https://www.youtube.com/watch?v=OXFVKBB7MCG

Mises à jour du produit à travers l’écosystème Claude

Le lancement de Sonnet 4.5 comprend plusieurs mises à niveau importantes vers les produits Claude existants.

Code Claude: Présentation des points de contrôle qui permettent aux utilisateurs d’enregistrer les progrès et de revenir à un état précédent, une interface terminale actualisée et une extension de code native vs.
Claude API: Ajoute une nouvelle fonctionnalité d’édition de contexte et un outil de mémoire pour aider les agents à s’exécuter plus longtemps et à gérer des tâches plus complexes.
Claude Apps: Les utilisateurs sur les plans payants peuvent désormais exécuter du code et créer des fichiers, tels que des feuilles de calcul, des diapositives et des documents, directement dans leurs conversations.
Claude pour l’extension chromée: Désormais disponible pour les utilisateurs max qui ont déjà rejoint la liste d’attente.

Concentrez-vous sur la sécurité et l’alignement

Anthropic déclare que Claude Sonnet 4.5 est son modèle le plus aligné à ce jour, avec des améliorations dans la réduction des comportements indésirables comme la tromperie et la sycophance. Le modèle est libéré dans le cadre du niveau de sécurité de l’IA de l’entreprise (ASL-3), qui comprend des garanties comme des classificateurs conçus pour détecter les intrants et les sorties potentiellement dangereux, en particulier ceux liés aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN).

Imagine avec Claude

Pour une durée limitée, Anthropic propose un aperçu de recherche intitulé « Imagine with Claude » pour ses abonnés max. Dans cette démonstration, le modèle génère des logiciels en temps réel en réponse aux demandes des utilisateurs, sans code pré-écrit. Cet aperçu est conçu pour présenter les capacités de Son-Net 4.5 lorsqu’il est combiné avec la bonne infrastructure.

Disponibilité et prix

Claude Sonnet 4.5 est maintenant disponible via l’API Claude. Le prix est le même que le modèle Claude Sonnet 4 précédent, à 3 $ par million de jetons d’entrée et 15 $ par million de jetons de sortie. Anthropic recommande la mise à niveau vers Sonnet 4.5 pour toutes les utilisations, car il offre des performances améliorées pour le même coût. https://www.youtube.com/watch?v=oz-alrj0ovg

Claude Sonnet 4.5 vs ChatGPT-5: Lequel devez-vous utiliser pour votre prochain projet?

La libération de Claude Sonnet 4.5 a intensifié la concurrence à la pointe de l’intelligence artificielle, directement difficile Gpt-5. Bien que les deux modèles représentent le développement avancé de l’IA, ils présentent des forces distinctes, en particulier dans les domaines du codage, des capacités agentiques et des performances globales.

En un coup d’œil: différences clés

Fonctionnalité	Claude Sonnet 4.5	Gpt-5
Force primaire	Codage agentique, utilisation par ordinateur et tâches autonomes de longue durée.	Intelligence unifiée, raisonnement avancé et capacités multimodales.
Swe-bench vérifié	77,2% (standard), 82% (haute compose).	72,8%.
Benchmark Osworld	61,4%.	Non spécifié, mais Sonnet 4.5 mène le graphique.
Outils de développeur	Claude Agent SDK, extension de code native vs, code Claude avec points de contrôle.	Consulté via API et intégré dans des produits comme Chatgpt et Microsoft Copilot.
Caractéristiques uniques	Peut fonctionner de manière autonome pendant plus de 30 heures. Caractéristiques de sécurité et d’alignement améliorées.	Système unifié qui mélange plusieurs modèles d’IA. Ajuste dynamiquement son approche de raisonnement en fonction de la complexité des tâches.

Codage et orientation des développeurs

Claude Sonnet 4.5 a été positionné comme le «meilleur modèle de codage au monde». Cette affirmation est étayée par ses principales performances sur plusieurs repères clés. Sur SWE-Bench vérifié, qui mesure la capacité d’un modèle à résoudre les problèmes de github du monde réel, Sonnet 4.5 marque un impressionnant 77,2%, surperformant 72,8% de GPT-5. Avec une puissance de calcul supplémentaire, le score de Sonnet 4.5 passe à 82%. En outre, sur le banc de terminal, un test de la capacité d’une IA à utiliser une interface de ligne de commande, Sonnet 4.5 a atteint un taux de réussite de 50%, considérablement devant 43,8% de GPT-5. Cela suggère que pour les développeurs et les utilisateurs techniques qui ont besoin d’une IA pour effectuer des tâches complexes et en plusieurs étapes dans un environnement terminal, Sonnet 4.5 détient un avantage distinct. En revanche, GPT-5 est présenté comme un modèle de codage puissant à usage général. Bien qu’il définisse de nouvelles références de pointe au moment de sa sortie, l’objectif spécialisé de Sonnet 4.5 semble lui donner un avantage dans les tâches centrées sur les développeurs.

Capacités agentiques et utilisation de l’ordinateur

Une caractéristique remarquable de Claude Sonnet 4.5 est sa capacité à fonctionner comme un agent autonome de longue date. Les rapports indiquent que le modèle peut maintenir la concentration et les performances sur des tâches complexes pendant plus de 30 heures, une augmentation significative par rapport aux modèles précédents. Cette endurance est cruciale pour les tâches qui nécessitent des efforts soutenus, tels que le refactorisation de code à grande échelle ou l’analyse approfondie des données. Sur la référence Osworld, qui évalue la capacité d’une IA à effectuer des tâches du monde réel sur un ordinateur, Sonnet 4.5 a pris la première place avec un taux de réussite de 61,4%. Cette compétence est en outre démontrée dans ses capacités d’utilisation d’outils, où elle a obtenu un score remarquable de 98,0% dans le domaine des télécommunications des évaluations de banc τ, doubler les performances de son prédécesseur et dépasser GPT-5. Le GPT-5, en revanche, est conçu comme un système unifié qui peut intelligemment basculer entre différentes approches de raisonnement en fonction de la complexité de la tâche. Cela lui permet de gérer efficacement une grande variété de tâches, mais il ne met pas l’accent sur la même autonomie de longue durée que Sonnet 4.5.

Raisonnement, mathématiques et performance générale

Dans les domaines du raisonnement général et des mathématiques, la compétition est beaucoup plus proche. Dans le concours de mathématiques du lycée AIME 2025, Sonnet 4.5 a obtenu un score parfait à 100% lors de l’utilisation de Python, devançant légèrement 99,6% de GPT-5. Pour le raisonnement au niveau des diplômés, tel que mesuré par la référence GPQA Diamond, les modèles sont très compétitifs, GPT-5 tenant une légère avance. Les premiers rapports d’utilisateurs et les tests pratiques suggèrent que Sonnet 4.5 est sensiblement plus rapide …

Crédit d’image en vedette

Sortie anthropique Claude Sonnet 4.5 avec codage avancé et capacités d’agent

Related Posts

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.