Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

MyShell : Nous avons essayé le nouveau modèle OpenVoice

byKerem Gülen
janvier 3, 2024
in Non classé

MyShell, en collaboration avec des institutions universitaires de premier plan, a dévoilé OpenVoice, une technologie révolutionnaire de clonage vocal open source, établissant de nouvelles normes dans le domaine de la réplication audio pilotée par l’IA.

La technologie de clonage vocal fait des progrès et des progrès notables ont été réalisés par des startups telles que OnzeLabs, qui ont obtenu un financement important pour faire progresser leurs algorithmes propriétaires et leurs logiciels basés sur l’IA. Ces outils sont conçus pour créer des répliques audio de voix humaines.

Cependant, un développement intéressant a émergé avec OpenVoice, une création collaborative par des équipes du Massachusetts Institute of Technology (MIT), de l’Université Tsinghua de Pékin et de la société canadienne d’IA MyShell. OpenVoice est une plateforme open source pour le clonage vocal, qui se distingue par son traitement rapide et ses options de personnalisation avancées, la distinguant des technologies de clonage vocal existantes.

Aujourd’hui, nous sommes fiers d’ouvrir notre algorithme OpenVoice, en adoptant notre philosophie fondamentale : l’IA pour tous.

Faites-en l’expérience maintenant : https://t.co/zHJpeVpX3t. Clonez des voix avec une précision inégalée, avec un contrôle granulaire du ton, de l’émotion à l’accent, en passant par le rythme, les pauses et l’intonation, en utilisant simplement un… pic.twitter.com/RwmYajpxOt

– Mon Shell (@myshell_ai) 2 janvier 2024

Pour améliorer l’accessibilité et la transparence, la société a partagé un lien vers son document soigneusement examiné. document de recherche détaillant le développement d’OpenVoice. De plus, ils ont fourni des points d’accès permettant aux utilisateurs d’expérimenter cette technologie. Il s’agit notamment de l’interface de l’application Web MyShell, qui nécessite l’enregistrement de l’utilisateur, et ÉtreindreVisageaccessible au public sans aucun compte.

MyShell s’engage à contribuer à la communauté de recherche au sens large, considérant OpenVoice comme un début. Pour l’avenir, ils prévoient d’étendre leur soutien via des subventions, des ensembles de données et des ressources informatiques pour soutenir la recherche open source. Le principe directeur de MyShell est « l’IA pour tous », mettant l’accent sur l’importance du langage, de la vision et de la voix en tant que trois éléments clés de la future intelligence générale artificielle (AGI).

Dans le domaine de la recherche, même si les modalités de langage et de vision ont connu des développements substantiels dans les modèles open source, il reste une lacune dans le secteur de la voix. Plus précisément, il existe un besoin pour un modèle de clonage vocal robuste et réactif, offrant des capacités de génération vocale personnalisables. MyShell vise à combler cette lacune, en repoussant les limites de la technologie vocale en AGI.


Rencontrer Murf IA: voix off de synthèse vocale en quelques secondes


Comment utiliser Myshell AI ?

Suivez ces étapes:

  • Accédez au site officiel de MyShell AI.
myshell openvoice
myshell openvoice
  • Cliquez sur « Démarrer l’application »
  • Sélectionnez « Chat » sur le côté gauche.
myshell openvoice
myshell openvoice
  • Pour utiliser la fonctionnalité « MyShell Voice Clone », vous devez vous inscrire avec un compte. Vous pouvez toujours utiliser un compte Google.
  • Cliquez ensuite sur « Démarrer », il se trouve en bas de la page.
  • Téléchargez un enregistrement vocal et saisissez le texte anglais que vous souhaitez convertir en audio.
myshell openvoice
myshell openvoice
  • Appuyez sur « Générer », cela coûtera 10 devises intégrées à l’application.
myshell openvoice
myshell openvoice
  • Votre résultat vous sera envoyé via le chat.

Note de l’éditeur: Pour référence, j’ai téléchargé mon propre enregistrement vocal, qui dit : « La technologie de clonage vocal fait des progrès et des progrès notables ont été réalisés par des startups telles qu’ElevenLabs. »

Ensuite, j’ai demandé une sortie qui se lit comme suit : «Ce fichier audio a été créé à l’aide de MyShell AI. À vous de juger du succès ! »

Saisir:


https://dataconomy.com/wp-content/uploads/2024/01/input.mp3

Sortir:

https://dataconomy.com/wp-content/uploads/2024/01/output.mp3

 

Je ne qualifierais pas le résultat de très réussi, mais c’est incroyable de voir à quelle vitesse cela se produit. Ajoutez que je ne suis pas un locuteur natif.


Comment fonctionne la technologie OpenVoice ?

La technologie OpenVoice, développée par Qin, Wenliang Zhao et Xumin Yu de l’Université Tsinghua, ainsi que Xin Sun de MyShell, est décrite dans leur article scientifique. Cette IA de clonage vocal est basée sur une architecture à deux modèles : un modèle de synthèse vocale (TTS) et un « convertisseur de tonalité ».

Le modèle TTS est responsable de la gestion des paramètres de style et des langues. Il a suivi une formation utilisant 30 000 phrases d’échantillons audio, comprenant des voix avec des accents américains et britanniques en anglais, ainsi que des voix de locuteurs chinois et japonais. Ces échantillons étaient étiquetés de manière distincte pour refléter les émotions qui y étaient exprimées. Le modèle a appris des nuances telles que l’intonation, le rythme et les pauses à partir de ces clips.

D’autre part, le modèle de convertisseur de tonalité a été formé avec un vaste ensemble de données de plus de 300 000 échantillons audio provenant de plus de 20 000 haut-parleurs différents.

Dans les deux modèles, l’audio de la parole humaine a été transformé en phonèmes – les unités sonores de base qui différencient les mots. Ceux-ci ont ensuite été représentés par des intégrations vectorielles.

Le processus unique implique l’utilisation d’un « haut-parleur de base » dans le modèle TTS, combiné à une tonalité dérivée de l’audio enregistré d’un utilisateur. Cette combinaison permet aux modèles non seulement de reproduire la voix de l’utilisateur, mais également de modifier la « couleur du ton », c’est-à-dire l’expression émotionnelle du texte prononcé.

L’équipe a inclus un diagramme dans son article pour illustrer comment ces deux modèles interagissent :

myshell openvoice
myshell openvoice (Crédit image)

Ils soulignent que leur méthode est conceptuellement simple mais efficace. Il nécessite également beaucoup moins de ressources informatiques que d’autres méthodes de clonage vocal, telles que la Voicebox de Meta.

« Nous souhaitions développer le modèle de clonage vocal instantané le plus flexible à ce jour. La flexibilité signifie ici un contrôle flexible sur les styles/émotions/accents, etc., et peut s’adapter à n’importe quelle langue. Personne ne pouvait le faire auparavant, car c’est trop difficile. Je dirige un groupe de scientifiques expérimentés en IA et j’ai passé plusieurs mois à trouver la solution. Nous avons constaté qu’il existe une manière très élégante de découpler la tâche difficile en certaines sous-tâches réalisables pour réaliser ce qui semble trop difficile dans son ensemble. Le pipeline découplé s’avère très efficace mais aussi très simple », a déclaré Qin dans un e-mail rapporté par EntrepriseBeat.

Related Posts

L’impact des tissus intelligents sur les performances des vêtements tactiques

L’impact des tissus intelligents sur les performances des vêtements tactiques

mai 15, 2025
Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

mai 15, 2025
Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

mai 15, 2025
Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

mai 15, 2025
Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

mai 15, 2025
YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

mai 15, 2025

Recent Posts

  • L’impact des tissus intelligents sur les performances des vêtements tactiques
  • Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars
  • Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction
  • Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité
  • Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.