Google a annoncé le lancement de deux modèles d’IA générative, Veo et Imagen 3, disponibles pour les entreprises utilisant Vertex AI, sa plateforme cloud pour les outils d’IA. Veo est conçu pour générer des vidéos haute définition à partir d’images et d’invites de texte, tandis qu’Imagen 3 se concentre sur la production d’images réalistes à partir de simples saisies de texte.
Google lance les modèles d’IA générative Veo et Imagen 3 pour les entreprises
Veo, développé par Google DeepMind, génère des vidéos mettant en scène des personnes et des animaux d’apparence réaliste. Les utilisateurs peuvent créer du contenu en téléchargeant une image liée à une invite de texte ou en saisissant uniquement du texte. Actuellement, Veo sera accessible à certaines entreprises via un aperçu privé. Il produit des clips vidéo 1080p d’une durée maximale de six secondes, prenant en charge 24 ou 30 images par seconde. Selon Warren Barkley, directeur principal de la gestion des produits chez Google Cloud, la réponse des entreprises à l’IA générative a été extrêmement positive, avec des rapports indiquant une augmentation des revenus de 86 % parmi les entreprises qui ont intégré ces technologies.
Rapide: Timelapse des aurores boréales dansant dans le ciel arctique, des étoiles scintillantes et un paysage enneigé
Vidéo : Google
Image 3également récemment lancé, est présenté comme le modèle de génération d’images de la plus haute qualité de Google. Il peut créer des images photoréalistes et offre des capacités d’édition avancées, telles que l’ajout, la suppression ou l’extension d’éléments dans une image. À partir de la semaine prochaine, tous les clients Vertex AI auront accès à Imagen 3. Des marques comme Cadbury, Oreo et Milka sont parmi les premières à utiliser ces modèles dans leurs stratégies marketing.
Les deux modèles intègrent des filigranes numériques pour éviter la désinformation et les attributions erronées, en utilisant la technologie SynthID de Google DeepMind. De plus, ils incluent des garanties intégrées pour empêcher toute utilisation abusive et la génération de contenu préjudiciable. Il est important de noter qu’aucun des deux modèles n’est formé sur les données client.
Capacités et limites de Veo
La disponibilité de Veo en avant-première privée permettra à des entreprises comme Quora et Mondelez International d’explorer des applications créatives, telles que la génération de contenu vidéo pour leurs plateformes. La capacité de Veo à créer des scènes avec des styles visuels spécifiques est l’une de ses fonctionnalités les plus remarquables. Il peut produire du contenu dynamique, notamment des photos de paysages et des vidéos accélérées. Le modèle n’est cependant pas exempt de défauts. Des problèmes tels que la disparition d’objets et une physique irréaliste, comme la marche arrière des véhicules, mettent en évidence ses limites actuelles.
Rapide: Une action accélérée a abattu une rue résidentielle de banlieue bordée d’arbres. Journée avec un ciel bleu clair. Couleurs saturées, contraste élevé
Vidéo : Google
Veo a été formé sur une gamme variée de séquences pour améliorer ses capacités. Interrogé sur ses sources de formation, Barkley a mentionné qu’il « peut » inclure du contenu de YouTube, conformément aux accords avec les créateurs de contenu. Il a souligné que Google se concentre sur l’utilisation de données organisées de haute qualité, dans le respect des normes de sûreté et de sécurité. Comme pour les autres modèles d’IA, des préoccupations concernant les droits d’auteur et le contenu exclusif se posent, en particulier en ce qui concerne la possibilité pour les modèles de produire des copies presque identiques d’œuvres existantes.
Google affirme avoir mis en œuvre des filtres au niveau des invites pour gérer les sorties potentiellement dangereuses. De plus, la société prévoit d’indemniser les résultats de Veo sur Vertex AI une fois qu’ils seront largement disponibles, offrant ainsi une certaine protection aux entreprises utilisant l’outil.
Google intègre progressivement Veo dans sa suite de produits, comme en témoigne son introduction dans Google Labs en début d’année suite aux premières annonces. En septembre, le modèle a été intégré à YouTube Shorts, permettant aux créateurs de produire facilement des scènes d’arrière-plan et de brefs clips vidéo.
Crédit image en vedette : Google DeepMind