Anthropic a lancé Claude 3.7, le premier modèle d’IA au monde capable de produire une sortie standard ou une quantité contrôlable de «raisonnement» pour résoudre des problèmes complexes. Ce modèle hybride est conçu pour améliorer l’interaction des utilisateurs et des développeurs en permettant un équilibre entre les réponses instinctives et le raisonnement méthodique.
Dévoilement anthropique Claude 3.7: le premier modèle de raisonnement hybride AI

Michael Gerstenhaber, chef de produit à Anthropic, a déclaré: «Le [user] a beaucoup de contrôle sur le comportement – combien de temps il pense et peut échanger le raisonnement et l’intelligence avec le temps et le budget. » Claude 3.7 présente une fonctionnalité «Scratchpad» qui affiche le processus de raisonnement du modèle, s’inspirant du modèle populaire d’IA chinois En profondeur. Cette fonctionnalité aide les utilisateurs à comprendre l’approche du modèle sur la résolution de problèmes, facilitant les ajustements rapides.
Dianne Penn, leader du produit de la recherche chez Anthropic, a souligné l’efficacité du pavé en tandem avec la capacité de raisonnement réglable. Les utilisateurs peuvent demander au modèle d’allouer plus de temps pour la résolution des problèmes si les tentatives initiales ne donnent pas la répartition souhaitée.

La structure hybride de Claude 3.7 le distingue des concurrents. Alors qu’OpenAI a publié un modèle de raisonnement appelé O1 en septembre 2024, et plus tard une version plus robuste nommée O3, les deux exigent que les utilisateurs basculent entre les modèles pour accéder aux fonctionnalités de raisonnement. Le Claude 3.7 d’Anthropic permet une bascule transparente entre les réponses conventionnelles et le raisonnement prolongé, un avantage significatif.
Le modèle hybride s’aligne sur les cadres de raisonnement décrits par l’économiste Nobel-prize Daniel Kahneman dans son livre «Thinking, Fast and Slow», offrant des processus cognitifs instinctifs et délibérés. Les modèles standard, tels que les modèles de grands langues (LLM), génèrent généralement des réponses instantanées mais peuvent vaciller dans les tâches nécessitant un raisonnement approfondi, tels que les calculs arithmétiques.
Pour améliorer les capacités de Claude 3.7, Anthropic a utilisé le renforcement d’apprentissage pour former le modèle avec des données supplémentaires axées sur les applications commerciales telles que le codage et les demandes de renseignements juridiques. Penn a noté que «les choses sur lesquelles nous avons apporté des améliorations […] sujets techniques ou sujets qui nécessitent un long raisonnement. » Le modèle a surperformé l’O1 d’OpenAI dans des cadres spécifiques comme SWE-Bench lors de la relevé des défis de codage complexes.
Claude Ai peut maintenant refléter parfaitement votre style d’écriture
Code Claude
La société a introduit Claude Code, un nouvel outil conçu pour aider avec les tâches de codage basées sur l’IA, qui fonctionne bien dans des scénarios complexes. « Le modèle est déjà bon en codage », a ajouté Penn. « [But] Une réflexion supplémentaire serait bonne pour les cas qui pourraient nécessiter une planification très complexe – dites que vous envisagez une base de code extrêmement importante pour une entreprise. »

Claude 3.7 Sonnet est disponible sur tous les plans Claude – gratuits, pro, équipes et d’entreprise – ainsi que via l’API anthropique, le fondement Amazon et le sommet de Google Cloud. Le modèle maintient la même structure de prix que ses prédécesseurs: 3 $ par million de jetons d’entrée et 15 $ par million de jetons de sortie, qui comprend des jetons de réflexion.
Anthropic a développé Claude 3.7 Sonnet avec une philosophie qui intègre le raisonnement en tant que composant central du modèle. Il fonctionne à la fois comme un LLM ordinaire amélioré et un modèle de raisonnement, permettant aux utilisateurs de choisir quand ils veulent des réponses directes ou des réponses plus longues et plus réfléchies. En mode de réflexion étendue, Claude 3.7 affine ses réponses, améliorant les performances des tâches en mathématiques, en physique, en suivi des instructions et en codage.
En utilisant le sonnet Claude 3.7 via l’API, les utilisateurs peuvent contrôler leur budget de «réflexion» en spécifiant un nombre maximum de jetons. Cette flexibilité permet aux utilisateurs de hiérarchiser la vitesse par rapport à la qualité du résultat.
Les récentes évaluations de Claude indiquent le leadership des capacités de codage sur plusieurs plateformes. Le curseur a reconnu Claude comme étant la meilleure de sa catégorie pour les tâches de codage du monde réel, avec des progrès dans la gestion des bases de code complexes. Cognition a rapporté des performances supérieures dans les modifications du code de planification, tandis que Vercel a noté sa précision dans la navigation de workflows d’agents complexes. Replit a effectivement utilisé Claude pour le développement d’applications Web sophistiquées, et les tests effectués par Canva ont révélé que Claude fournit systématiquement le code prêt pour la production avec une qualité de conception améliorée et nettement moins d’erreurs.
Le code Claude, actuellement en prévisualisation de recherche limitée, fonctionne comme un outil de collaboration qui peut lire, modifier le code, exécuter des tests et interagir avec GitHub, rationaliser le processus de codage. Les premiers tests ont montré que le code Claude peut accomplir des tâches en une seule session qui nécessitent généralement un effort manuel étendu. Les améliorations futures se concentreront sur la fiabilité des outils, la longue prise en charge des commandes et les performances améliorées.
Anthropic a souligné son engagement à développer Claude 3.7 Sonnet en mettant l’accent sur la sécurité, la sécurité et la fiabilité. Claude 3.7 a fait des distinctions perceptibles entre les demandes bénignes et nocives, réalisant une réduction de 45% des refus inutiles par rapport à son prédécesseur. La carte du système d’accompagnement détaille les évaluations de la sécurité qui pourraient bénéficier à d’autres initiatives de recherche sur l’IA et abordent les risques émergents, y compris des attaques d’injection rapides.
Claude 3.7 Sonnet et Claude Code représentent des progrès importants vers les systèmes d’IA qui peuvent soutenir efficacement les capacités humaines en intégrant un raisonnement approfondi et une collaboration autonome.
Crédit d’image en vedette: anthropique