Anthropique libéré Opus 4.5 lundi, le dernier modèle de sa série 4.5, introduisant les intégrations Chrome et Excel. L’Opus 4.5 démontre des performances de pointe dans divers tests. Ceux-ci incluent des tests de codage tels que SWE-Bench et Terminal-bench, des tests d’utilisation d’outils tels que tau2-bench et MCP Atlas, ainsi que des évaluations générales de résolution de problèmes, notamment ARC-AGI 2 et GPQA Diamond. Le modèle a notamment obtenu plus de 80 % sur SWE-Bench vérifié, un résultat significatif pour un benchmark de codage. Anthropic a souligné les capacités d’Opus en matière d’utilisation d’ordinateurs et de feuilles de calcul. Parallèlement à Opus 4.5, Anthropic a rendu plus largement accessibles ses produits Claude pour Chrome et Claude pour Excel, auparavant en phase pilote. L’extension Chrome est disponible pour tous les utilisateurs Max, tandis que le modèle axé sur Excel est accessible aux utilisateurs Max, Team et Enterprise.
Image : AnthropiqueOpus 4.5 intègre des améliorations de mémoire pour les opérations à contexte long. Dianne Na Penn, responsable de la gestion des produits pour la recherche chez Anthropic, a déclaré : TechCrunch« Nous avons apporté des améliorations à la qualité générale du contexte long dans la formation avec Opus 4.5, mais les fenêtres contextuelles ne seront pas suffisantes à elles seules. Connaître les bons détails à retenir est vraiment important en complément d’avoir simplement une fenêtre contextuelle plus longue. » Ces améliorations de la mémoire ont permis une fonctionnalité de « discussion sans fin » pour les utilisateurs payants de Claude. Cette fonctionnalité permet une discussion continue sans interruption lorsque le modèle atteint sa limite de fenêtre contextuelle. Le modèle compresse sa mémoire contextuelle sans notification de l’utilisateur. De nombreuses mises à niveau ciblent des cas d’utilisation agentiques, en particulier les scénarios dans lesquels Opus fonctionne comme un agent principal supervisant des sous-agents alimentés par Haiku. La gestion de telles tâches nécessite une mémoire de travail compétente. Penn a noté : « C’est là que les principes fondamentaux comme la mémoire deviennent vraiment importants, car Claude doit être capable d’explorer des bases de code et des documents volumineux, et également savoir quand revenir en arrière et revérifier quelque chose. » L’Opus 4.5 entre sur un marché concurrentiel. OpenAI a publié GPT 5.1 le 12 novembre et Google a publié Gemini 3 le 18 novembre, deux nouveaux modèles pionniers.





