Le moteur vocal d’OpenAI a été présenté comme une nouvelle technologie de synthèse vocale, capable de générer une voix synthétique à partir d’un échantillon audio de 15 secondes seulement de la voix d’un individu. Cet outil innovant peut vocaliser des invites textuelles sur demande, soit dans la langue originale de la voix enregistrée, soit dans diverses autres langues.
« Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans divers secteurs », a déclaré OpenAI dans son rapport. article de blog.
Parmi les organisations bénéficiant d’un accès anticipé figurent Âge d’apprentissageune entreprise spécialisée dans les technologies éducatives ; HeyGenune plateforme de narration visuelle ; Dimagiun développeur de logiciels de santé pour les travailleurs de terrain ; Livox, qui produit une application de communication basée sur l’IA ; et Durée de vieun réseau de santé.
Quelle est la qualité du moteur vocal d’OpenAI ?
Nous allons maintenant présenter un audio de référence ainsi que trois échantillons générés par OpenAI, accompagnés de leurs transcriptions respectives. A vous de déterminer l’efficacité du Voice Engine d’OpenAI en considérant les exemples partagés. Cependant, une évaluation définitive ne peut être faite tant que la fonctionnalité n’est pas largement disponible pour les utilisateurs finaux.
- L’audio d’entrée.
- Le sel garantit également que nous restons hydratés, ce qui signifie qu’il y a suffisamment d’eau dans notre corps pour qu’il fonctionne correctement.
- Rendons les pièces identiques en ajoutant une à trois !
- Certains des habitats les plus étonnants de la planète se trouvent dans la forêt tropicale. Une forêt tropicale est un endroit avec beaucoup de précipitations et abrite de nombreuses espèces d’animaux, d’arbres et d’autres plantes. Les forêts tropicales humides ne sont généralement pas trop éloignées de l’équateur et sont chaudes toute l’année.
OpenAI a annoncé le développement de sa technologie Voice Engine fin 2022soulignant son application dans la fourniture de voix prédéfinies pour les API de synthèse vocale et permettant le Fonctionnalité de lecture à haute voix dans ChatGPT. Récemment, l’équipe produit OpenAI a mentionné que la technologie avait été affinée en utilisant à la fois des données sous licence et des données accessibles au public. OpenAI a indiqué qu’au départ, cette technologie sera accessible à une dizaine de développeurs.
Le domaine de la conversion texte-audio basée sur l’IA progresse rapidement. Alors que la majorité des développements ont porté sur la création de sons instrumentaux ou environnementaux, la création de voix synthétiques a connu moins d’activité, une situation qu’OpenAI attribue aux préoccupations éthiques impliquées. Certaines entités actives dans ce domaine incluent Podcastle et ElevenLabs.
OpenAI a confirmé que ses collaborateurs se sont engagés à adhérer à ses politiques d’utilisation, qui excluent l’utilisation de Voice Generation pour usurper l’identité d’individus ou d’entités sans consentement. De plus, ces accords stipulent que les collaborateurs doivent obtenir le consentement clair et volontaire des personnes dont les voix sont utilisées, empêcher les utilisateurs de générer des voix de manière indépendante et informer les auditeurs que les voix sont synthétisées par l’IA. Pour assurer la traçabilité de ses sorties audio, OpenAI a intégré un filigrane dans les extraits sonores et est vigilant dans le contrôle de leur utilisation.
OpenAI a proposé une série de mesures visant à atténuer les risques potentiels associés aux technologies de cette nature. Il s’agit notamment de l’abandon de l’utilisation de la vérification vocale pour l’accès aux services bancaires, de la mise en œuvre de réglementations pour protéger les données vocales des individus dans les applications d’IA, de la sensibilisation du public aux deepfakes générés par l’IA et de la création de mécanismes de surveillance du contenu généré par l’IA.
« Nous reconnaissons que produire un discours qui ressemble à la voix du peuple comporte de sérieux risques, qui sont particulièrement importants en période d’élections. Nous collaborons avec des partenaires américains et internationaux du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà pour nous assurer que nous intégrons leurs commentaires au fur et à mesure que nous construisons », a déclaré OpenAI.
Cas d’utilisation de la fonctionnalité Voice Engine d’OpenAI
OpenAI suggère que les cas d’utilisation ci-dessous de Voice Engine sont des exemples viables de son application, souligne pourtant que la véritable limite de ses utilisations potentielles n’est limitée que par l’imagination de chacun :
- Aide à l’éducation: Voice Engine peut être utilisé pour fournir une aide à la lecture aux non-lecteurs et aux enfants en créant des voix naturelles et émotives. Cela permet de générer du contenu de voix off pré-scénarisé et des interactions personnalisées en temps réel avec les étudiants, élargissant ainsi la gamme de contenus éducatifs accessibles.
- Traduction de contenu: Cette technologie peut permettre la traduction de vidéos et de podcasts, permettant ainsi aux créateurs et aux entreprises d’atteindre un public mondial avec leur propre voix. Il conserve l’accent natif du locuteur d’origine dans toutes les langues, préservant ainsi l’authenticité du contenu traduit.
- Prestation de services dans les communautés éloignées: Voice Engine pourrait améliorer la prestation de services essentiels en fournissant des commentaires interactifs dans les langues principales des agents de santé communautaires. Cela soutient le développement des compétences dans divers services essentiels, tels que les conseils en matière de santé maternelle, dans les langues et dialectes spécifiques aux communautés éloignées.
- Soutien aux personnes non verbales: La technologie alimente des appareils qui aident les personnes non verbales à communiquer. Les utilisateurs peuvent choisir des voix qui les représentent avec précision dans plusieurs langues, rendant ainsi la communication plus personnelle et moins robotique.
- Récupération vocale pour les patients souffrant de troubles de la parole: Il offre une solution aux personnes souffrant de troubles de la parole dus à des affections soudaines ou dégénératives. En ne nécessitant qu’un court échantillon audio, Voice Engine peut recréer la voix du patient, l’aidant ainsi à retrouver sa capacité à communiquer avec sa voix naturelle.
Crédit image en vedette : Kerem Gülen/Milieu du voyage