Anthropic a révisé à plusieurs reprises son test d'entretien technique à emporter pour les candidats à un emploi depuis 2024 afin d'atténuer la tricherie assistée par l'IA. L'équipe d'optimisation des performances, responsable de l'administration du test, trouvé que les progrès des outils de codage de l’IA ont nécessité ces changements. Le chef d'équipe, Tristan Hume, a déclaré mercredi dans un article de blog que chaque nouveau modèle Claude avait nécessité une refonte des tests. Claude Opus 4 a surpassé la plupart des candidats humains dans le même délai, tandis que Claude Opus 4.5 a égalé les performances des meilleurs candidats. Cela a éliminé la capacité d'Anthropic à faire la différence entre le travail des principaux candidats humains et son modèle d'IA le plus avancé dans les conditions de test à emporter. Hume a développé un nouveau test moins axé sur l’optimisation matérielle, ce qui le rend suffisamment complexe pour défier les outils d’IA actuels. Le test original a également été partagé dans le billet de blog, invitant les lecteurs à proposer des solutions alternatives. Le message indiquait : « Si vous parvenez à améliorer l'Opus 4.5, nous serions ravis d'avoir de vos nouvelles. »





