La prochaine phase de l’IA ne sera pas définie uniquement par de meilleures réponses.
Il sera défini par des systèmes capables d’agir en fonction du contexte, de percevoir en profondeur et de modéliser le monde qu’ils sont appelés à changer.
La prochaine question de l’IA n’est pas seulement ce que savent les modèles
La conversation sur l’IA commence à dépasser l’interface du chatbot.
Depuis quelques années, la forme d’IA la plus visible est la linguistique. Les gens tapaient des questions, les modèles produisaient des réponses et l’industrie mesurait les progrès grâce au raisonnement, au codage, à l’écriture, au résumé et à la recherche. Cette phase n’est pas terminée. L’intelligence linguistique devient de plus en plus utile, de plus en plus intégrée et de plus en plus commerciale.
Mais ce n’est plus toute l’histoire.
La question la plus importante désormais est de savoir ce qui se passe lorsque les systèmes d’IA non seulement génèrent des réponses, mais commencent à utiliser des outils, à gérer des flux de travail, à comprendre l’espace et à raisonner sur le monde physique. C’est là que l’industrie commence à se tourner : du langage à l’action, du texte aux interfaces, des réponses statiques aux environnements dynamiques.
Cette transformation est devenue plus claire depuis HumanX. Les Les dépenses mondiales en IA sont désormais tirées par les infrastructures et les outils agents. Le problème n’est pas simplement qu’un autre modèle soit devenu disponible. Le fait est que les agents font désormais partie de la pile de l’entreprise.
C’est pourquoi les conversations HumanX à San Francisco sont toujours importantes. L’événement est passé, mais il a capturé une transition qui devient plus visible maintenant : l’IA passe de systèmes qui parlent à des systèmes qui agissent, et de modèles qui traitent le langage à des modèles qui nécessitent une certaine compréhension du monde.
« L’IA est passée de la capacité de répondre aux questions à la capacité de faire des choses. »
– Jensen Huang
La troisième vague de l’IA
Jensen Huang a directement encadré l’évolution. L’IA, a-t-il soutenu, est bien plus large que les grands modèles linguistiques. Le langage est une forme d’information codée, mais l’information est également codée dans les gènes, les protéines, les produits chimiques, la physique, les outils, les logiciels et les environnements. Partout où il existe une structure, l’IA peut apprendre à la représenter.
Ce cadre est important car il éloigne l’IA d’être comprise comme une seule catégorie. Les chatbots sont importants, mais ils ne sont qu’une expression d’une technologie beaucoup plus vaste. Le changement le plus profond est que l’IA devient un moyen de représenter, prédire et agir dans tous les domaines.
Huang a décrit le moment actuel comme le début d’une troisième vague. La première vague de l’IA moderne était générative : des modèles capables de traduire une forme d’information en une autre. La deuxième vague était celle du raisonnement, où les modèles sont devenus plus fondés et plus utiles. Selon lui, la troisième vague est agentique.
« Ce qui se passe maintenant, c’est que l’IA est passée de la capacité de répondre aux questions à la capacité de faire des choses », a-t-il déclaré.
C’est une façon concise de décrire le nouveau centre de gravité. L’invite n’est plus seulement une question. De plus en plus, il s’agit d’une demande d’action : construire quelque chose, analyser quelque chose, utiliser ces outils, accéder à ces fichiers, itérer jusqu’à ce que le travail soit terminé.
La phrase la plus utile de Huang aurait pu être encore plus simple : « L’IA est un logiciel qui utilise un logiciel. »
Cette idée change la signification de la couche application. L’industrie du logiciel s’est construite autour d’outils utilisés par les humains. Les traitements de texte, les feuilles de calcul, les suites de conception, les systèmes d’entreprise, les outils de développement, les CRM, les ERP et les plateformes d’analyse ont été conçus pour les personnes assises devant des écrans. Si les agents d’IA deviennent des utilisateurs d’outils, le nombre d’utilisateurs de logiciels augmente considérablement.
Le résultat n’est pas seulement davantage d’automatisation. Il s’agit d’une réinvention de la façon dont les logiciels eux-mêmes sont consommés.
Codage pour gérer les agents
La conversation OpenAI/Codex chez HumanX a rendu la même transition visible depuis l’intérieur de l’ingénierie logicielle.
Srinivas Narayanan a décrit les outils de codage comme étant passés du statut d’assistance à celui d’agence. Les ingénieurs n’utilisent plus uniquement l’IA pour compléter automatiquement des fonctions ou expliquer le code. Ce sont des systèmes de guidage qui génèrent des logiciels, examinent des logiciels et corrigent des bogues. Selon lui, le travail est devenu « principalement non plus l’écriture de logiciels, mais la gestion d’agents ».
Cette ligne est directement liée à ce qui se passe dans le travail du savoir. Le codage est le premier domaine dans lequel ce modèle agentique est devenu très visible car les logiciels sont exceptionnellement vérifiables. Les tests peuvent être écrits. Les référentiels sont limités. Les bugs peuvent être reproduits. Les sorties peuvent être vérifiées.
Mais ce qui est plus profond, c’est que le codage pourrait être un avant-goût d’autres formes de travail. Narayanan a décrit le Codex et les modèles de codage comme devenant un outil sous-jacent pour de nombreux types de travaux de connaissances, depuis les flux de travail juridiques et financiers jusqu’à l’automatisation des processus métier.
C’est là que les agents deviennent plus que de simples outils de développement. Ils deviennent une interface générale de travail. S’ils peuvent manipuler des fichiers, accéder aux systèmes, utiliser des applications et fonctionner dans le cadre de garde-fous, les mêmes primitives qui les rendent utiles pour le code peuvent les rendre utiles pour d’autres flux de travail.
La limite n’est pas l’imagination. C’est le contexte, la sécurité et l’accès. L’agent connaît-il les systèmes de l’entreprise- Comprend-il le flux de travail- Dispose-t-il des autorisations appropriées- Peut-il être surveillé- Peut-on lui faire confiance lorsque les agents commencent à interagir avec d’autres agents-
Ces questions expliquent pourquoi le futur agent n’est pas seulement une course modèle. Il s’agit d’un problème d’infrastructure, de gouvernance et d’interface.
Le passage des mots aux mondes
Si Jensen et OpenAI ont montré le passage de la réponse à l’action, Fei-Fei Li a poussé la conversation vers une autre frontière : l’intelligence spatiale.
Son argument n’était pas que l’intelligence linguistique soit terminée. En fait, elle a clairement indiqué que les modèles linguistiques resteraient essentiels. Mais l’intelligence humaine n’est pas seulement linguistique. Nous comprenons le monde à travers l’espace, le mouvement, les objets, les corps, la géométrie, l’interaction et le temps. Pour que les machines deviennent plus utiles dans les environnements physiques et virtuels, elles ont besoin d’une certaine version de cette compréhension spatiale.
Li a décrit l’absence de cette conscience comme une intelligence dans l’obscurité. À partir du moment où les animaux ont pris conscience de leur corps et de leur relation avec le monde, a-t-elle déclaré, l’intelligence a évolué rapidement. Pour l’IA, cela implique que voir et raisonner sur le monde n’est pas un accessoire de l’intelligence. Il en est central.
Sa définition d’un modèle du monde était précise : un système capable de comprendre l’espace, de raisonner sur la géométrie, l’interactivité, la physique et la dynamique, et finalement de générer un espace 3D et 4D, tout comme les ordinateurs d’aujourd’hui génèrent des mots.
C’est une ambition différente de celle de créer un meilleur chatbot. Il pointe vers des systèmes capables de créer des environnements de formation pour les robots, d’aider à concevoir des expériences, de prendre en charge l’imagerie médicale, d’alimenter des mondes virtuels et de modéliser le prochain état d’un environnement physique.
Marble de World Labs, dont Li a parlé sur scène, est une première expression de cette direction : un modèle génératif pour de véritables mondes cohérents en 3D. Le problème n’est pas seulement que de tels mondes puissent être générés. Le fait est qu’ils peuvent devenir des environnements permettant à d’autres systèmes d’apprendre, de tester, de simuler et d’agir.
La prochaine phase est l’action et la compréhension du monde
Prises ensemble, les conversations HumanX suggèrent que la prochaine phase de l’IA ne sera pas définie par une seule interface.
Les agents ont besoin d’outils. Les entreprises ont besoin de garde-fous. Le logiciel a besoin de contexte. La robotique a besoin de données spatiales. Les modèles vidéo nécessitent une compréhension temporelle. Les modèles mondiaux ont besoin de calcul, de nouvelles architectures et d’environnements de formation qui n’existent pas encore à l’échelle d’Internet.
Le fil conducteur est que l’IA se rapproche du travail et du monde. Il ne suffit plus que les modèles produisent un langage plausible. Ils doivent agir, exploiter des logiciels, comprendre les environnements et générer des résultats qui peuvent être vérifiés, utilisés et fiables.
C’est aussi pourquoi San Francisco reste un objectif si utile. HumanX n’était pas seulement un rassemblement de dirigeants et de fondateurs d’IA. C’était un aperçu du prochain argument de l’industrie : la frontière se déplace des mots aux flux de travail, et des flux de travail aux mondes.
Cela ne rend pas la langue moins importante. Cela l’intègre dans un système plus vaste.
La première expérience d’IA grand public a été la conversation. La prochaine étape pourrait être la délégation. Après cela, il peut s’agir de simulation : des agents qui travaillent dans des environnements qu’ils peuvent comprendre, modéliser et modifier.
C’est la véritable signification du moment capturé par HumanX. La prochaine phase de l’IA ne se résume pas à des réponses plus intelligentes. Ce sont des systèmes qui peuvent agir en fonction du contexte, percevoir en profondeur et finalement raisonner sur le monde qu’ils sont appelés à changer.





