Le mode vocal avancé de ChatGPT est arrivé, apportant une nouvelle dimension à l’IA conversationnelle.
La dernière fonctionnalité d’OpenAI, suite à l’annonce et au déploiement de la Mode vocal GPT 4opermet aux utilisateurs d’interagir avec le chatbot en utilisant leur voix, créant une expérience plus naturelle et engageante.
Explorons les tenants et aboutissants de OpenAILe mode vocal avancé de ChatGPT, son fonctionnement et ce que les utilisateurs peuvent attendre de cette technologie innovante.
Nous commençons à déployer le mode vocal avancé auprès d’un petit groupe d’utilisateurs de ChatGPT Plus. Le mode vocal avancé offre des conversations plus naturelles et en temps réel, vous permet d’interrompre à tout moment et détecte et réagit à vos émotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) 30 juillet 2024
Qu’est-ce que le mode vocal avancé de ChatGPT ?
Le mode vocal avancé de ChatGPT transforme la façon dont les utilisateurs interagissent avec l’assistant IA. Au lieu de saisir des requêtes, les utilisateurs peuvent désormais parler directement à ChatGPT et recevoir des réponses audio.
OpenAI a commencé à déployer le mode vocal avancé de ChatGPT mardi, le proposant initialement à un groupe sélectionné d’abonnés à ChatGPT Plus.
L’entreprise prévoit d’élargir l’accès à tous ChatGPT Plus utilisateurs dans le automne 2024Ce déploiement progressif permet à OpenAI de surveiller de près l’utilisation et d’effectuer les ajustements nécessaires avant une diffusion plus large.
Comment le mode vocal avancé de ChatGPT opère-t-il sa magie ?
Le mode vocal avancé de ChatGPT utilise un système sophistiqué pour traiter l’entrée audio et générer des réponses vocales. Contrairement à la fonction vocale précédente, qui s’appuyait sur des modèles distincts pour la conversion de la parole en texte, le traitement de texte et texte pour parler conversion, le nouveau mode avancé intègre ces fonctions dans un modèle unique et multimodal appelé GPT-4o.
Cette approche intégrée permet des conversations plus rapides et plus naturelles avec une latence réduite. Le système peut traiter les entrées audio, comprendre le contexte et générer des réponses appropriées de manière transparente.
Quelques premières impressions du mode vocal avancé de ChatGPT :
C’est très rapide, il n’y a pratiquement aucune latence entre le moment où vous arrêtez de parler et celui où il répond.
Quand vous lui demandez de faire des bruits, il fait toujours « jouer » les bruits par la voix (avec des résultats amusants).
Il peut faire des accents, mais quand… pic.twitter.com/vOA8qmqX06– Cristiano Giardina (@CrisGiardina) 31 juillet 2024
De plus, le mode vocal avancé de ChatGPT peut détecter les nuances émotionnelles dans la voix de l’utilisateur, comme la tristesse ou l’excitation, permettant des interactions plus empathiques.
OpenAI a mis en place plusieurs mesures de sécurité pour répondre aux préoccupations potentielles. L’entreprise a mené des tests approfondis avec plus de 100 évaluateurs externes qui parlent 45 langues différentesCe groupe diversifié a aidé à identifier et à résoudre les problèmes potentiels avant la publication publique.
Comment parler avec ChatGPT
Pour utiliser le mode vocal avancé de ChatGPT, les utilisateurs éligibles recevront une alerte dans l’application ChatGPT, suivie d’un e-mail contenant des instructions détaillées. Une fois activé, les utilisateurs peuvent démarrer des conversations vocales avec ChatGPT via le microphone de leur appareil.
Le système propose quatre voix prédéfinies pour les réponses de ChatGPT :
- Genévrier
- Brise
- Crique
- Braise
Ces voix ont été créées en collaboration avec des comédiens rémunérés pour garantir une sortie audio de haute qualité et naturelle. Il est important de noter que ChatGPT ne peut pas se faire passer pour des personnes ou des personnalités publiques spécifiques, car OpenAI a mis en place des mesures pour empêcher ce type d’utilisation abusive.
Et non, ChatGPT Voix de Sky n’a pas été ajouté au mode vocal avancé de ChatGPT pour des raisons évidentes.
Les utilisateurs peuvent participer à différents types de conversations, qu’il s’agisse de poser des questions, de demander des conseils, de réfléchir à des idées ou de pratiquer des compétences linguistiques. L’interaction vocale ajoute une nouvelle couche de confort et d’accessibilité, en particulier pour ceux qui préfèrent parler plutôt que taper.

Et les voix du futur ?
À mesure que le mode vocal avancé de ChatGPT continue de se développer, il est probable qu’il ait un impact significatif sur la façon dont les gens interagissent avec les assistants IA. Cette technologie ouvre de nouvelles possibilités pour les applications d’accessibilité, d’éducation et de productivité.
Il convient toutefois de noter que certaines fonctionnalités présentées dans les aperçus précédents, telles que les capacités de partage d’écran et de vidéo, ne sont pas incluses dans la version actuelle. OpenAI a déclaré que ces fonctionnalités supplémentaires seront lancées à une date ultérieure, ce qui donnera aux utilisateurs de quoi se réjouir dans les futures mises à jour.
L’introduction du mode vocal avancé de ChatGPT soulève des questions sur l’avenir de la réglementation de l’IA. OpenAI a récemment approuvé plusieurs projets de loi du Sénat américain liés au développement et à l’éducation en matière d’IA. Ces approbations suggèrent que l’entreprise joue un rôle actif dans l’élaboration du paysage réglementaire des technologies de l’IA.
L’un des projets de loi approuvés, le Loi sur l’avenir de l’innovation en IAcréerait l’Institut américain de sécurité de l’IA en tant qu’organisme fédéral chargé de définir des normes et des lignes directrices pour les modèles d’IA. Cette initiative témoigne de l’engagement d’OpenAI à travailler avec les agences gouvernementales pour garantir le développement sûr et responsable des technologies de l’IA.
À mesure que le mode vocal avancé de ChatGPT se généralise, il sera intéressant de voir comment les utilisateurs s’adapteront à cette nouvelle forme d’interaction et quelles applications créatives en émergeront. Cette technologie a le potentiel de changer la façon dont nous communiquons avec les assistants IA, en les rendant plus accessibles et intuitifs pour un plus large éventail d’utilisateurs.
Crédit de l’image en vedette: OpenAI/X