Vendredi, Meta a annoncé le développement d’un produit appelé « Voicebox » dans le cadre de sa poussée continue dans le secteur de plus en plus concurrentiel de l’IA. Cependant, Meta Voicebox ne sera pas bientôt disponible !
Voicebox, selon Meta, peut effectuer des tâches de génération de parole pour lesquelles il n’a pas été particulièrement formé, contrairement aux plates-formes de génération de voix antérieures. Le programme d’IA peut générer une quantité potentiellement convaincante de discours frais qui ressemble à celui qui figurait dans le clip source en utilisant une entrée de texte et un bref clip audio pour le contexte.
« À l’avenir, des modèles d’IA génératifs polyvalents comme Voicebox pourraient donner des voix au son naturel aux assistants virtuels et aux personnages non joueurs dans le métaverse. Ils pourraient permettre aux personnes malvoyantes d’entendre des messages écrits d’amis lus par l’IA dans leur voix, donner aux créateurs de nouveaux outils pour créer et éditer facilement des pistes audio pour les vidéos, et bien plus encore », a déclaré Meta dans son annonce.
Voici Voicebox, un nouveau système vocal génératif révolutionnaire basé sur Flow Matching, une nouvelle méthode proposée par Meta AI. Il peut synthétiser la parole dans six langues, supprimer le bruit, modifier le contenu, transférer le style audio, etc.
Plus de détails sur ce travail & exemples
— Méta IA (@MetaAI) 16 juin 2023
Qu’est-ce que la Meta Voicebox ?
Meta Voicebox est capable d’éditer, d’échantillonner et de styliser la parole même s’ils n’ont pas été particulièrement formés pour le faire grâce à l’apprentissage en contexte.
Voicebox peut créer des clips audio de haute qualité et éditer des fichiers audio préenregistrés tout en conservant le style et le contenu de l’enregistrement original. Par exemple, il peut éliminer les klaxons d’automobile ou les aboiements de chien. Le modèle peut parler dans six langues différentes et est également bilingue.
Meta Verified: la coche bleue d’Instagram est en vente, et voici comment l’obtenir
Pour aider d’autres universitaires à comprendre le potentiel de l’outil, Meta a partagé des échantillons audio et un article d’étude plutôt que de le publier dans un état pleinement opérationnel.
« Voicebox est une avancée importante dans notre recherche sur l’IA générative, et nous sommes impatients de poursuivre notre exploration dans l’espace audio et de voir comment d’autres chercheurs s’appuient sur notre travail », a ajouté la société.
IA méta texte-voix
Meta Voicebox peut générer une synthèse vocale à partir d’échantillons audio aussi courts que deux secondes en faisant correspondre le style audio.
Voicebox peut réparer les mots mal orthographiés ou reconstruire une section du discours qui a été coupée par le bruit sans avoir à réenregistrer le discours complet. Par exemple, vous pouvez couper un segment de parole qui a été interrompu par un chien qui aboie et dire à Voicebox de créer une nouvelle version de cette pièce, agissant comme une gomme pour l’édition audio.
Galactica AI de Meta peut écrire votre essai en une minute
Meta Voicebox peut fournir une lecture du texte dans l’une de ces langues lorsqu’on lui donne un échantillon du discours de quelqu’un et un passage de texte en anglais, français, allemand, espagnol, polonais ou portugais, même si l’échantillon de discours et le texte sont en différentes langues. Même si deux personnes ne parlent pas la même langue, elles pourront peut-être converser naturellement et authentiquement à l’avenir grâce à cette compétence.
Il peut produire un discours qui rappelle davantage la façon dont les gens parlent dans le monde réel et dans les six langues mentionnées ci-dessus après avoir appris à partir de diverses données.
Depuis la sortie de ChatGPT d’OpenAI en novembre de l’année dernière, les technologies d’intelligence artificielle, notamment les chatbots, se sont de plus en plus répandues, mais en raison des progrès rapides de la technologie, les dirigeants mondiaux s’inquiètent d’éventuels abus de la technologie.
Meta Voicebox est encore une autre solution d’intelligence artificielle qui pourrait conduire à une éventuelle utilisation abusive, et les gens pourraient l’utiliser pour tromper les autres.
Risques possibles liés à l’IA
Les deepfakes, souvent connus sous le nom de fausses informations audio ou vidéo, sont l’un des moyens les plus répandus d’exploiter l’IA à des fins frauduleuses. Les algorithmes d’apprentissage en profondeur sont utilisés pour construire des images ou des sons réalistes qui ressemblent à l’apparence ou à la voix d’une personne réelle pour créer des deepfakes.
Par exemple, un fraudeur pourrait produire un faux message vocal ou se faire passer pour quelqu’un d’autre au téléphone en utilisant un changeur de voix ou un générateur de voix. Une fausse vidéo de quelqu’un disant ou faisant quelque chose qu’il n’a jamais fait peut également être réalisée à l’aide d’un logiciel de montage vidéo ou d’une application d’échange de visage.
La police néerlandaise utilise des deepfakes pour résoudre un crime
Les deepfakes peuvent avoir des effets néfastes sur la réputation, la crédibilité ou la vie privée d’une personne ou d’une organisation. Par exemple, un deepfake peut être utilisé pour diffuser des informations fausses ou nuisibles sur quelqu’un sur les réseaux sociaux ou pour extorquer quelqu’un en menaçant de révéler une vidéo compromettante d’eux. D
Ils peuvent également être utilisés pour tromper les individus en leur faisant croire qu’ils parlent à quelqu’un qu’ils connaissent et en qui ils ont confiance, comme un parent, un ami ou un collègue, afin de les amener à divulguer des informations personnelles ou à donner de l’argent.
Crédit image en vedette : Dima Solomine sur Unsplash