Vous participez à une autre réunion Zoom ou Teams sans fin. Les voix bourdonnent, les diapositives retiennent à peine votre attention et vos yeux sont vitreux tandis que quelqu’un débite des statistiques trimestrielles. Maintenant, imaginez si, au lieu de vous ennuyer avec des feuilles de calcul, l’IA de la réunion commençait à créer des visuels sur place, de véritables images qui donnent vie à la conversation, générées en temps réel pendant que les gens parlent. Cela semble futuriste, mais c’est exactement ce que Microsoft prépare avec un nouveau brevet.
Microsoft brevète la voix à l’image
La dernière idée de Microsoft (et oui, ce n’est encore qu’une idée pour l’instant) est de prendre des flux audio en direct (conférences, réunions, toute conversation verbale) et de les transformer en images, à la volée. L’Office américain des brevets et des marques vient juste a abandonné les détails le 10 octobre 2024après que Microsoft l’ait déposé en avril. Le système écouterait essentiellement vos appels, générerait une transcription de texte, l’alimenterait via un modèle d’IA et afficherait des images qui correspondent à ce qui est dit.
Fini le « laissez-moi afficher une diapositive pour cela ».
La fin des réunions ennuyeuses ? Peut-être pas, mais ce sera proche
La plupart des réunions virtuelles sont plutôt ennuyeuses. Et ne prétendons pas que nous ne passons pas beaucoup de temps à nous détendre.
Mais que se passerait-il si ces réunions commençaient soudainement à afficher des visuels aussi vite que la conversation avance. Quelqu’un mentionne de nouveaux concepts de produits et, en quelques secondes, des images générées par l’IA commencent à apparaître à l’écran. Les chiffres secs que les gens citent se transforment soudainement en graphiques dynamiques sans que personne ne clique sur un bouton. Qu’est ce que c’est? Un goulot d’étranglement dans la chaîne d’approvisionnement en Asie du Sud-Est ? Boum ! Une carte interactive apparaît, mettant en évidence les domaines préoccupants.
Maintenant, avant de vous enthousiasmer, soyons clairs : cela est encore en phase de brevet. Et si vous êtes dans le secteur depuis assez longtemps, vous savez que de nombreux brevets ne mènent nulle part. Déposer un brevet, c’est comme planter une graine : elle peut devenir quelque chose de génial, ou simplement rester une idée qui ne sera jamais développée.
Cela dit, si Microsoft se lance, la solution la plus évidente pour cette technologie est Équipes Microsoft. Ils ont renforcé Teams avec toutes sortes d’outils basés sur l’IA, de Copilot aux fonctionnalités améliorées de vidéoconférence, ce serait donc une étape à franchir.
Nous avons déjà vu des outils de conversion texte-image comme DALL-E et À mi-parcours époustoufler les gens. Nous pourrions désormais voir ce concept appliqué au discours en direct. C’est comme donner une voix à la créativité de l’IA en temps réel.
Mais pour l’instant, nous attendons.
Crédit image en vedette : Kerem Gülen/Milieu du voyage