Des chercheurs du MIT ont développé un nouveau système de conversion de la parole à la réalité qui combine l’IA générative 3D et l’assemblage robotique pour fabriquer des objets à la demande. Le système a créé des objets comme des meubles en cinq minutes seulement. Ce flux de travail piloté par l’IA permet aux utilisateurs de fournir une entrée vocale à un bras robotique, « faisant ainsi exister des objets ». La technologie exploite le traitement du langage naturel, l’IA générative 3D et l’assemblage robotique pour rationaliser le processus de fabrication. Alexander Htet Kyaw, étudiant diplômé du MIT et membre de la Morningside Academy for Design (MAD), a déclaré : « Nous connectons le traitement du langage naturel, l’IA générative 3D et l’assemblage robotique. » Il a ajouté que ces domaines de recherche en évolution rapide n’avaient jamais été combinés pour créer des objets physiques à partir d’une simple invite vocale. Le système reçoit des commandes vocales, telles que « Je veux un tabouret simple », puis construit des objets à partir de composants modulaires. Jusqu’à présent, les chercheurs ont utilisé le système pour construire des tabourets, des étagères, des chaises, une petite table et des formes décoratives, notamment une statue de chien. Le système de synthèse vocale traite les demandes des utilisateurs en plusieurs étapes :
- Reconnaissance vocale : Un grand modèle de langage traite la saisie orale de l’utilisateur.
- IA générative 3D : Le système crée une représentation maillée numérique de l’objet souhaité.
- Algorithme de voxélisation : Le maillage 3D est décomposé en composants d’assemblage spécifiques.
- Traitement géométrique : L’assemblage généré par l’IA est modifié pour tenir compte des contraintes de fabrication réelles, telles que le nombre de composants, les surplombs et la connectivité géométrique.
- Séquence d’assemblage et planification du chemin : Le système crée une séquence d’assemblage réalisable et une planification automatisée du chemin pour le bras robotique.
Contrairement à l’impression 3D, qui prend souvent des heures ou des jours, ce système réalise la construction d’un objet en quelques minutes. Cela rend également la conception et la fabrication plus accessibles aux personnes sans expertise en modélisation 3D ou en programmation robotique. Kyaw a développé le système initial tout en suivant le cours du professeur Neil Gershenfeld, « Comment fabriquer presque n’importe quoi ». Il a poursuivi le projet au MIT Center for Bits and Atoms (CBA), en collaboration avec les étudiants diplômés Se Hwan Jeon du Département de génie mécanique et Miana Smith du CBA. L’équipe prévoit d’améliorer la capacité portante des meubles en mettant en œuvre des connexions plus robustes entre les cubes modulaires, allant au-delà des connexions magnétiques actuelles. Smith a noté : « Nous avons également développé des pipelines pour convertir les structures de voxels en séquences d’assemblage réalisables pour de petits robots mobiles distribués, ce qui pourrait aider à traduire ce travail en structures de n’importe quelle taille. » L’utilisation de composants modulaires vise à réduire les déchets de fabrication en permettant le démontage et le remontage en de nouveaux objets. Kyaw travaille également à intégrer la reconnaissance gestuelle et la réalité augmentée dans le système, combinant à la fois le contrôle vocal et gestuel pour une interaction améliorée. L’équipe a présenté son article, « Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly », lors du symposium de l’Association for Computing Machinery (ACM) sur la fabrication informatique (SCF ’25) au MIT le 21 novembre.





