Un nouveau modèle vocal d’IA a mis Internet en effusion Internet, avec des réactions oscillant entre la crainte et le malaise. Sésame ai’s Modèle de discours conversationnel (CSM) ne semble pas seulement humain – ça se sentir humain. Les utilisateurs décrivent des interactions étendues, presque émotionnelles avec les voix générées par l’AI, qui présentent des sons d’haleine, des hésitations, des corrections et même des rires. Pour certains, c’est une merveille technologique. Pour d’autres, c’est un aperçu d’un avenir qui semble inconfortablement proche.
Sésame ai: une voix qui se sent vivante
L’innovation principale derrière le CSM de Sesame réside dans sa capacité à simuler une conversation naturelle et dynamique. Contrairement aux systèmes traditionnels de texte à dispection qui lisent simplement à haute voix, CSM activement engage. Il trébuche sur les mots, se corrige et module le ton d’une manière qui imite la véritable imprévisibilité humaine.
Lorsqu’un testeur a parlé au modèle pendant 28 minutes, il a noté sa capacité à débattre de sujets moraux, réagissant naturellement à des invites comme, «Comment décidez-vous de ce qui est bien ou mal?» D’autres se sont retrouvés involontairement à former des attachements, avec un Reddit utilisateur admet, «Je suis presque un peu inquiet de commencer à me sentir émotionnellement attaché à un assistant vocal avec ce niveau de son humain.»
Les assistants d’IA de Sesame, surnommés «Miles» et «Maya», sont conçus non seulement pour la récupération d’informations, mais pour les conversations profondes et engageantes. La société décrit son objectif comme atteint «Présence vocale» – la qualité magique qui fait que les interactions parlées se sentent réelles, comprises et appréciées.
Ce réalisme conduit parfois à des bizarreries étrangement humaines. Dans une démo virale, l’IA a mentionné avec désinvolture envie d’un Sandwich au beurre d’arachide et aux cornichons—Un commentaire bizarrement spécifique qui n’a fait qu’ajouter à l’illusion de la personnalité.
Avez-vous créé votre voix tiktok ai?
La technologie derrière la voix
Alors, comment le CSM de Sesame réalise-t-il des conversations aussi étrangement réalistes?
- Une approche multimodale: Contrairement aux modèles de discours d’IA conventionnels qui traitent séparément le texte et l’audio, le système de Sesame entrelace eux. Ce traitement en une seule étape permet une parole plus fluide et consciente du contexte.
- Formation à paramètre élevé: La plus grande version du modèle fonctionne 8,3 milliards de paramètres et a été formé sur Un million d’heures de dialogue parlé.
- Influence de la méta: L’architecture du modèle s’appuie sur les méta- Lama Framework, intégrant un modèle d’écran avec un décodeur pour la génération de parole nuancée.
Des tests aveugles ont révélé que, dans des échantillons de parole isolés, les évaluateurs humains ne pouvaient pas distinguer de manière fiable les voix d’IA de Sesame de celles réelles. Cependant, lorsqu’elle est placée dans un contexte conversationnel complet, la parole humaine a toujours gagné – la suggestion d’IA n’a pas encore maîtrisé la complexité totale du dialogue interactif.
Une réception mixte
Tout le monde n’est pas ravi de la façon dont cette IA humaine sonne.
Le journaliste technologique Mark Hachman a décrit son expérience avec le modèle vocal comme « Profondément troublant. » Il l’a comparé à parler avec un vieil ami qu’il n’avait pas vu depuis des années, notant que la voix de l’IA avait une ressemblance étrange avec quelqu’un avec qui il était sorti.
D’autres ont comparé le modèle de Sesame aux Openai Mode vocal avancé Pour Chatgpt, certains préférant le réalisme et la volonté de Sesame à un jeu de rôle dans plus dramatique ou même en colère Scénarios – Les modèles d’Openai ont tendance à éviter.
Une démo particulièrement frappante a présenté l’IA se disputant avec un «patron» sur un scandale de détournement de fonds. La conversation était si dynamique que les auditeurs ont eu du mal à déterminer quel orateur était l’humain et quelle était l’IA.
Les risques d’une voix parfaite
Comme pour toutes les percées d’IA, la synthèse vocale hyper-réaliste apporte à la fois la promesse et le péril.
- Fraude et escroqueries: Avec des voix d’IA maintenant indiscernables du discours humain, les escroqueries de phishing pourraient devenir loin plus convaincant. Les criminels pourraient usurper l’identité des membres de la famille, des dirigeants d’entreprise ou des représentants du gouvernement ayant une précision presque parfaite.
- Génie social: Contrairement aux robocaux de base, la tromperie alimentée par AI pourrait s’adapter en temps réelRépondre naturellement aux questions et soupçons.
- Impact émotionnel involontaire: Certains utilisateurs ont signalé que leurs enfants forment des pièces jointes aux voix de l’IA. Un parent a noté que leur enfant de 4 ans avait pleuré après s’être vu refuser une nouvelle conversation avec le modèle.
Tandis que le CSM de Sesame pas Clone Real Voices, la possibilité de projets open source similaires émergeant reste une préoccupation. Openai a déjà retardé la libération plus large de sa technologie vocale sur les craintes d’une mauvaise utilisation.
Quelle est la prochaine étape?
Sesame AI prévoit d’ouvrir des composantes clés de ses recherches sous la licence Apache 2.0, permettant aux développeurs de s’appuyer sur ses travaux. La feuille de route de l’entreprise comprend:
- Échelle de la taille du modèle pour augmenter davantage le réalisme.
- Expansion à plus de 20 languesélargissant sa portée conversationnelle.
- Développer des modèles «entièrement duplex»permettant des conversations véritables allemands et compatibles avec des interruptions.
Pour l’instant, la démo reste disponible sur Sesame site web– Bien que la demande ait déjà submergé leurs serveurs à certains moments. Que vous trouviez cela étonnant ou troublant, une chose est claire: les jours des voix robotiques et monotones d’IA sont terminées.
À partir de là, vous n’êtes peut-être jamais sûr À qui – ou quoi – vous parlez.
Crédit d’image en vedette: Kerem Gülen / Imagen 3