Le PDG anthropique Dario Amodei publié Un essai de jeudi soulignant la compréhension limitée du fonctionnement interne des modèles d’IA à la tête et s’est fixé un objectif pour Anthropic pour détecter de manière fiable la plupart des problèmes de modèle d’IA d’ici 2027.
Amodei reconnaît le défi à venir, déclarant que bien qu’Anthropic ait fait des percées précoces dans le traçage de la façon dont les modèles arrivent à leurs réponses, des recherches supplémentaires sont nécessaires pour décoder ces systèmes à mesure qu’ils deviennent plus puissants. «Je suis très préoccupé par le déploiement de ces systèmes sans mieux comprendre l’interprétabilité», a écrit Amodei, soulignant leur rôle central dans l’économie, la technologie et la sécurité nationale.
Anthropic est un pionnier de l’interprétabilité mécaniste, visant à comprendre pourquoi les modèles d’IA prennent certaines décisions. Malgré des améliorations rapides des performances, l’industrie a toujours un aperçu limité de la façon dont ces systèmes arrivent à des décisions. Par exemple, les nouveaux modèles d’IA de raisonnement d’Openai, O3 et O4-MINIeffectuez mieux certaines tâches, mais hallucine plus que d’autres modèles, la société ne savant pas pourquoi.
Amodei note que les chercheurs d’IA ont amélioré l’intelligence du modèle mais ne comprennent pas pleinement pourquoi ces améliorations fonctionnent. Le co-fondateur anthropique Chris Olah dit que les modèles d’IA sont «cultivés plus qu’ils ne sont construits». Amodei prévient que l’atteindre AGI sans comprendre comment les modèles fonctionnent pourraient être dangereux et croit que nous sommes plus à la compréhension des modèles d’IA que d’atteindre AGI, potentiellement d’ici 2026 ou 2027.
Anthropic vise à effectuer des «scans cérébraux» ou des «IRM» des modèles d’IA de pointe pour identifier les problèmes, y compris les tendances à mentir ou à rechercher le pouvoir. Cela pourrait prendre de cinq à 10 ans, mais sera nécessaire pour tester et déployer de futurs modèles. La société a fait des percées dans le traçage des voies de réflexion sur les modèles d’IA à travers les «circuits» et a identifié un circuit qui aide les modèles à comprendre les emplacements des villes américaines au sein des États.
Anthropique a investi dans la recherche d’interprétabilité et a récemment fait son premier investissement dans une startup travaillant sur le terrain. Amodei pense expliquer comment les modèles d’IA arrivent à des réponses pourraient présenter un avantage commercial. Il a appelé OpenAI et Google Deepmind à augmenter leurs efforts de recherche et a demandé aux gouvernements d’imposer des réglementations «tacles» pour encourager la recherche sur l’interprétabilité.
Amodei a également suggéré que les États-Unis devraient imposer des contrôles d’exportation sur les puces vers la Chine pour limiter la probabilité d’une race mondiale d’IA incontrôlable. Anthropic s’est concentré sur la sécurité, émettant un support modeste pour la facture de sécurité de l’IA en Californie, SB 1047, qui aurait établi des normes de rapport de sécurité pour les développeurs de modèles d’IA frontaliers.
Anthropic fait pression pour un effort à l’échelle de l’industrie pour mieux comprendre les modèles d’IA, pas seulement augmenter leurs capacités. Les efforts et recommandations de l’entreprise mettent en évidence la nécessité d’une approche collaborative de la sécurité et de l’interprétabilité de l’IA.