Cependant, un développement intéressant a émergé avec OpenVoice, une création collaborative par des équipes du Massachusetts Institute of Technology (MIT), de l’Université Tsinghua de Pékin et de la société canadienne d’IA MyShell. OpenVoice est une plateforme open source pour le clonage vocal, qui se distingue par son traitement rapide et ses options de personnalisation avancées, la distinguant des technologies de clonage vocal existantes.
Aujourd’hui, nous sommes fiers d’ouvrir notre algorithme OpenVoice, en adoptant notre philosophie fondamentale : l’IA pour tous.
Faites-en l’expérience maintenant : https://t.co/zHJpeVpX3t. Clonez des voix avec une précision inégalée, avec un contrôle granulaire du ton, de l’émotion à l’accent, en passant par le rythme, les pauses et l’intonation, en utilisant simplement un… pic.twitter.com/RwmYajpxOt
– Mon Shell (@myshell_ai) 2 janvier 2024
Pour améliorer l’accessibilité et la transparence, la société a partagé un lien vers son document soigneusement examiné. document de recherche détaillant le développement d’OpenVoice. De plus, ils ont fourni des points d’accès permettant aux utilisateurs d’expérimenter cette technologie. Il s’agit notamment de l’interface de l’application Web MyShell, qui nécessite l’enregistrement de l’utilisateur, et ÉtreindreVisageaccessible au public sans aucun compte.
MyShell s’engage à contribuer à la communauté de recherche au sens large, considérant OpenVoice comme un début. Pour l’avenir, ils prévoient d’étendre leur soutien via des subventions, des ensembles de données et des ressources informatiques pour soutenir la recherche open source. Le principe directeur de MyShell est « l’IA pour tous », mettant l’accent sur l’importance du langage, de la vision et de la voix en tant que trois éléments clés de la future intelligence générale artificielle (AGI).
Dans le domaine de la recherche, même si les modalités de langage et de vision ont connu des développements substantiels dans les modèles open source, il reste une lacune dans le secteur de la voix. Plus précisément, il existe un besoin pour un modèle de clonage vocal robuste et réactif, offrant des capacités de génération vocale personnalisables. MyShell vise à combler cette lacune, en repoussant les limites de la technologie vocale en AGI.
Rencontrer Murf IA: voix off de synthèse vocale en quelques secondes
Comment utiliser Myshell AI ?
Suivez ces étapes:
- Accédez au site officiel de MyShell AI.

- Cliquez sur « Démarrer l’application »
- Sélectionnez « Chat » sur le côté gauche.

- Pour utiliser la fonctionnalité « MyShell Voice Clone », vous devez vous inscrire avec un compte. Vous pouvez toujours utiliser un compte Google.
- Cliquez ensuite sur « Démarrer », il se trouve en bas de la page.
- Téléchargez un enregistrement vocal et saisissez le texte anglais que vous souhaitez convertir en audio.

- Appuyez sur « Générer », cela coûtera 10 devises intégrées à l’application.

- Votre résultat vous sera envoyé via le chat.
Note de l’éditeur: Pour référence, j’ai téléchargé mon propre enregistrement vocal, qui dit : « La technologie de clonage vocal fait des progrès et des progrès notables ont été réalisés par des startups telles qu’ElevenLabs. »
Ensuite, j’ai demandé une sortie qui se lit comme suit : «Ce fichier audio a été créé à l’aide de MyShell AI. À vous de juger du succès ! »
Saisir:
Sortir:
Je ne qualifierais pas le résultat de très réussi, mais c’est incroyable de voir à quelle vitesse cela se produit. Ajoutez que je ne suis pas un locuteur natif.
Comment fonctionne la technologie OpenVoice ?
La technologie OpenVoice, développée par Qin, Wenliang Zhao et Xumin Yu de l’Université Tsinghua, ainsi que Xin Sun de MyShell, est décrite dans leur article scientifique. Cette IA de clonage vocal est basée sur une architecture à deux modèles : un modèle de synthèse vocale (TTS) et un « convertisseur de tonalité ».
Le modèle TTS est responsable de la gestion des paramètres de style et des langues. Il a suivi une formation utilisant 30 000 phrases d’échantillons audio, comprenant des voix avec des accents américains et britanniques en anglais, ainsi que des voix de locuteurs chinois et japonais. Ces échantillons étaient étiquetés de manière distincte pour refléter les émotions qui y étaient exprimées. Le modèle a appris des nuances telles que l’intonation, le rythme et les pauses à partir de ces clips.
D’autre part, le modèle de convertisseur de tonalité a été formé avec un vaste ensemble de données de plus de 300 000 échantillons audio provenant de plus de 20 000 haut-parleurs différents.
Dans les deux modèles, l’audio de la parole humaine a été transformé en phonèmes – les unités sonores de base qui différencient les mots. Ceux-ci ont ensuite été représentés par des intégrations vectorielles.
Le processus unique implique l’utilisation d’un « haut-parleur de base » dans le modèle TTS, combiné à une tonalité dérivée de l’audio enregistré d’un utilisateur. Cette combinaison permet aux modèles non seulement de reproduire la voix de l’utilisateur, mais également de modifier la « couleur du ton », c’est-à-dire l’expression émotionnelle du texte prononcé.
L’équipe a inclus un diagramme dans son article pour illustrer comment ces deux modèles interagissent :

Ils soulignent que leur méthode est conceptuellement simple mais efficace. Il nécessite également beaucoup moins de ressources informatiques que d’autres méthodes de clonage vocal, telles que la Voicebox de Meta.
« Nous souhaitions développer le modèle de clonage vocal instantané le plus flexible à ce jour. La flexibilité signifie ici un contrôle flexible sur les styles/émotions/accents, etc., et peut s’adapter à n’importe quelle langue. Personne ne pouvait le faire auparavant, car c’est trop difficile. Je dirige un groupe de scientifiques expérimentés en IA et j’ai passé plusieurs mois à trouver la solution. Nous avons constaté qu’il existe une manière très élégante de découpler la tâche difficile en certaines sous-tâches réalisables pour réaliser ce qui semble trop difficile dans son ensemble. Le pipeline découplé s’avère très efficace mais aussi très simple », a déclaré Qin dans un e-mail rapporté par EntrepriseBeat.