MyShell : Nous avons essayé le nouveau modèle OpenVoice

MyShell, en collaboration avec des institutions universitaires de premier plan, a dévoilé OpenVoice, une technologie révolutionnaire de clonage vocal open source, établissant de nouvelles normes dans le domaine de la réplication audio pilotée par l’IA.

La technologie de clonage vocal fait des progrès et des progrès notables ont été réalisés par des startups telles que OnzeLabs, qui ont obtenu un financement important pour faire progresser leurs algorithmes propriétaires et leurs logiciels basés sur l’IA. Ces outils sont conçus pour créer des répliques audio de voix humaines.

Cependant, un développement intéressant a émergé avec OpenVoice, une création collaborative par des équipes du Massachusetts Institute of Technology (MIT), de l’Université Tsinghua de Pékin et de la société canadienne d’IA MyShell. OpenVoice est une plateforme open source pour le clonage vocal, qui se distingue par son traitement rapide et ses options de personnalisation avancées, la distinguant des technologies de clonage vocal existantes.

Aujourd’hui, nous sommes fiers d’ouvrir notre algorithme OpenVoice, en adoptant notre philosophie fondamentale : l’IA pour tous.

Faites-en l’expérience maintenant : https://t.co/zHJpeVpX3t. Clonez des voix avec une précision inégalée, avec un contrôle granulaire du ton, de l’émotion à l’accent, en passant par le rythme, les pauses et l’intonation, en utilisant simplement un… pic.twitter.com/RwmYajpxOt

– Mon Shell (@myshell_ai) 2 janvier 2024

Pour améliorer l’accessibilité et la transparence, la société a partagé un lien vers son document soigneusement examiné. document de recherche détaillant le développement d’OpenVoice. De plus, ils ont fourni des points d’accès permettant aux utilisateurs d’expérimenter cette technologie. Il s’agit notamment de l’interface de l’application Web MyShell, qui nécessite l’enregistrement de l’utilisateur, et ÉtreindreVisageaccessible au public sans aucun compte.

MyShell s’engage à contribuer à la communauté de recherche au sens large, considérant OpenVoice comme un début. Pour l’avenir, ils prévoient d’étendre leur soutien via des subventions, des ensembles de données et des ressources informatiques pour soutenir la recherche open source. Le principe directeur de MyShell est « l’IA pour tous », mettant l’accent sur l’importance du langage, de la vision et de la voix en tant que trois éléments clés de la future intelligence générale artificielle (AGI).

Dans le domaine de la recherche, même si les modalités de langage et de vision ont connu des développements substantiels dans les modèles open source, il reste une lacune dans le secteur de la voix. Plus précisément, il existe un besoin pour un modèle de clonage vocal robuste et réactif, offrant des capacités de génération vocale personnalisables. MyShell vise à combler cette lacune, en repoussant les limites de la technologie vocale en AGI.

Rencontrer Murf IA: voix off de synthèse vocale en quelques secondes

Comment utiliser Myshell AI ?

Suivez ces étapes:

Accédez au site officiel de MyShell AI.

Cliquez sur « Démarrer l’application »
Sélectionnez « Chat » sur le côté gauche.

Pour utiliser la fonctionnalité « MyShell Voice Clone », vous devez vous inscrire avec un compte. Vous pouvez toujours utiliser un compte Google.
Cliquez ensuite sur « Démarrer », il se trouve en bas de la page.
Téléchargez un enregistrement vocal et saisissez le texte anglais que vous souhaitez convertir en audio.

Appuyez sur « Générer », cela coûtera 10 devises intégrées à l’application.

Votre résultat vous sera envoyé via le chat.

Note de l’éditeur: Pour référence, j’ai téléchargé mon propre enregistrement vocal, qui dit : « La technologie de clonage vocal fait des progrès et des progrès notables ont été réalisés par des startups telles qu’ElevenLabs. »

Ensuite, j’ai demandé une sortie qui se lit comme suit : «Ce fichier audio a été créé à l’aide de MyShell AI. À vous de juger du succès ! »

Saisir:

Sortir:

Je ne qualifierais pas le résultat de très réussi, mais c’est incroyable de voir à quelle vitesse cela se produit. Ajoutez que je ne suis pas un locuteur natif.

Comment fonctionne la technologie OpenVoice ?

La technologie OpenVoice, développée par Qin, Wenliang Zhao et Xumin Yu de l’Université Tsinghua, ainsi que Xin Sun de MyShell, est décrite dans leur article scientifique. Cette IA de clonage vocal est basée sur une architecture à deux modèles : un modèle de synthèse vocale (TTS) et un « convertisseur de tonalité ».

Le modèle TTS est responsable de la gestion des paramètres de style et des langues. Il a suivi une formation utilisant 30 000 phrases d’échantillons audio, comprenant des voix avec des accents américains et britanniques en anglais, ainsi que des voix de locuteurs chinois et japonais. Ces échantillons étaient étiquetés de manière distincte pour refléter les émotions qui y étaient exprimées. Le modèle a appris des nuances telles que l’intonation, le rythme et les pauses à partir de ces clips.

D’autre part, le modèle de convertisseur de tonalité a été formé avec un vaste ensemble de données de plus de 300 000 échantillons audio provenant de plus de 20 000 haut-parleurs différents.

Dans les deux modèles, l’audio de la parole humaine a été transformé en phonèmes – les unités sonores de base qui différencient les mots. Ceux-ci ont ensuite été représentés par des intégrations vectorielles.

Le processus unique implique l’utilisation d’un « haut-parleur de base » dans le modèle TTS, combiné à une tonalité dérivée de l’audio enregistré d’un utilisateur. Cette combinaison permet aux modèles non seulement de reproduire la voix de l’utilisateur, mais également de modifier la « couleur du ton », c’est-à-dire l’expression émotionnelle du texte prononcé.

L’équipe a inclus un diagramme dans son article pour illustrer comment ces deux modèles interagissent :

Ils soulignent que leur méthode est conceptuellement simple mais efficace. Il nécessite également beaucoup moins de ressources informatiques que d’autres méthodes de clonage vocal, telles que la Voicebox de Meta.

« Nous souhaitions développer le modèle de clonage vocal instantané le plus flexible à ce jour. La flexibilité signifie ici un contrôle flexible sur les styles/émotions/accents, etc., et peut s’adapter à n’importe quelle langue. Personne ne pouvait le faire auparavant, car c’est trop difficile. Je dirige un groupe de scientifiques expérimentés en IA et j’ai passé plusieurs mois à trouver la solution. Nous avons constaté qu’il existe une manière très élégante de découpler la tâche difficile en certaines sous-tâches réalisables pour réaliser ce qui semble trop difficile dans son ensemble. Le pipeline découplé s’avère très efficace mais aussi très simple », a déclaré Qin dans un e-mail rapporté par EntrepriseBeat.

MyShell : Nous avons essayé le nouveau modèle OpenVoice

Related Posts

L’impact des tissus intelligents sur les performances des vêtements tactiques

Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

MyShell : Nous avons essayé le nouveau modèle OpenVoice

Comment utiliser Myshell AI ?

Comment fonctionne la technologie OpenVoice ?

Related Posts

L’impact des tissus intelligents sur les performances des vêtements tactiques

Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us