Demis Hassabis, PDG de Google Deepmind, a révélé des plans pour éventuellement fusionner les Gemini AI de l’entreprise avec son générateur de vidéos VEO, visant à enseigner à l’AI plus sur le monde physique, lors d’une récente apparition sur la Possible podcast.
Hassabis a expliqué que la stratégie s’aligne sur leur vision d’un «assistant numérique universel» capable d’aider les utilisateurs dans des scénarios du monde réel. « Nous avons toujours construit Gemini, notre modèle de fondation, pour être multimodal dès le début », a-t-il déclaré sur le podcast co-organisé par Reid Hoffman.
Cette décision reflète un changement plus large de l’industrie vers des modèles «omni» polyvalents. Les dernières versions Gemini de Google gèrent déjà l’audio, l’image et la génération de texte, tandis que les rivaux comme Openai activent création d’images Dans Chatgpt et Amazon entend pour lancer un modèle «tout à toute autre».
Le développement de ces modèles complets exige de vastes ensembles de données couvrant la vidéo, les images, l’audio et le texte. Hassabis a laissé entendre que les données vidéo alimentant VEO proviennent en grande partie de YouTube, une plate-forme appartenant à Google.
Il a expliqué qu’en traitant un vaste contenu YouTube, Veo apprend la physique du monde réel. « [Veo 2] Peut comprendre, vous savez, la physique du monde « , a commenté Hassabis concernant le modèle en regardant » beaucoup de vidéos YouTube « .
Google a précédemment reconnu TechCrunch Ses modèles «peuvent être» formés sur le contenu YouTube «certains», conformément aux accords avec les créateurs. Les rapports suggèrent que Google a mis à jour ses conditions de service l’année dernière, éventuellement élargir l’accès aux données à des fins de formation en IA.