Les chercheurs en IA d’Apple ont discrètement publié trois nouvelles études qui lèvent le voile sur une nouvelle ambition majeure : automatiser les parties les plus fastidieuses et les plus critiques du développement logiciel. Les articles, publiés sur le blog Machine Learning Research d’Apple, détaillent les nouveaux systèmes d’IA capables de prédire où les bogues sont susceptibles d’apparaître, d’écrire automatiquement des plans de test complets et même de réparer eux-mêmes le code défectueux. C’est important car il ne s’agit pas simplement d’une autre démo « L’IA écrit du code ». Apple construit une suite d’ingénieurs spécialisés en qualité de l’IA pour trouver et corriger les défauts avant qu’ils n’atteignent votre téléphone ou votre ordinateur, ce qui pourrait conduire à des gains massifs de productivité et (espérons-le) à des logiciels plus stables.
Article 1 : Le prédicteur de bugs de l’IA
La première étude, « Prédiction des défauts logiciels à l’aide du modèle de transformateur Autoencoder« , des chercheurs Seshu Barma, Mohanakrishnan Hariharan et Satish Arvapalliaborde le problème du code « bogué ». Au lieu de demander à une IA de lire des millions de lignes de code – un processus sujet aux « hallucinations » de l’IA – ils ont construit un autre type d’outil. Leur modèle, ADE-QVAETagit moins comme un réviseur de code que comme un analyste de données. Il ne lit pas le code lui-même. Au lieu de cela, il analyse métriques sur le codecomme sa complexité, sa taille et sa structure. Il est formé pour trouver les modèles cachés dans ces métriques qui prédisent de manière fiable où les bogues sont les plus susceptibles de se cacher. Les résultats sont incroyablement efficaces. Sur un ensemble de données standard pour la prédiction des bogues, le modèle a réalisé 98,08 % de précision. Il a également obtenu des résultats élevés en termes de précision et de rappel, une manière technique de dire qu’il est extrêmement efficace pour trouver de vrais bugs tout en évitant les « faux positifs » qui font perdre du temps aux développeurs.
Article 2 : L’ingénieur qualité automatisé
Trouver des bogues, c’est bien, mais qu’en est-il de la montagne de paperasse qui accompagne les tests de logiciels ? La deuxième étude, « RAG agentique pour les tests de logiciels« , aborde ce problème de front. Les chercheurs notent que les ingénieurs qualité dépensent 30 à 40 % de leur temps il suffit de créer des « artefacts de tests fondamentaux » – un terme d’entreprise désignant les plans de test, les cas et les scripts. Leur solution est un agent IA qui effectue ce travail automatiquement. Le système lit les exigences et la logique métier du projet, puis génère de manière autonome l’ensemble des documents de test. Ce système conserve une « traçabilité » complète, ce qui signifie qu’il enregistre exactement quel scénario de test correspond à quelle exigence métier. L’impact ici se mesure en temps et en argent. Le système a montré un remarquable 94,8 % de précision dans ses tests générés. Dans les projets de validation, cela a conduit à un Réduction de 85 % du délai de test et un Amélioration de 85 % de l’efficacité de la suite de tests. Pour un projet, cela signifiait accélérer la date de mise en service de deux mois complets.
Des chercheurs du MIT ont construit une IA qui apprend toute seule à apprendre
Article 3 : Le « gymnase » de l’IA qui enseigne la correction des codes
La troisième et la plus ambitieuse étude est « Formation d’agents et de vérificateurs en génie logiciel avec SWE-Gym » Cet article pose la question suivante logique : pourquoi simplement rechercher des bugs alors que vous pouvez les corriger ? Pour ce faire, l’équipe a construit une « salle de sport » pour les agents IA. Cet environnement de formation, SWE-Gymest un bac à sable construit à partir de 2 438 tâches Python réelles tiré de 11 projets open source. Chaque tâche est livrée avec son propre environnement exécutable et sa propre suite de tests. Cela permet à un agent IA de pratiquer le flux de travail complet du développeur : lire le rapport de bogue, écrire le code pour le corriger, puis exécuter les tests pour voir si le correctif a réellement fonctionné (et n’a rien cassé d’autre). La formation a payé. Des agents d’IA formés dans ce « gym » résolu correctement 72,5% des tâches buggéesun résultat qui a surperformé les indices de référence précédents de plus de 20 points de pourcentage. Ce sont des outils spécialisés, pas un codeur IA à usage général. Les chercheurs chargés des tests automatisés (article 2) notent que leur travail s’est concentré uniquement sur des « systèmes d’employés, finances et environnements SAP », ce qui signifie qu’il ne s’agit pas encore d’une solution universelle. De même, la « salle de sport » de correction de bugs était axée sur les tâches Python. Ce que montrent ces trois études est une stratégie claire et à plusieurs volets. Apple n’essaie pas seulement de créer une IA « à tout faire ». Au lieu de cela, ils constituent une équipe de spécialistes de l’IA : un analyste qui prédit les bogues, un « pousseur de papier » qui rédige les tests et un « mécanicien » qui corrige les bogues. Cette approche pourrait changer fondamentalement l’économie du développement de logiciels, conduisant à des délais plus rapides, à des coûts inférieurs et à des produits plus fiables.





