Meta a introduit une implémentation ouverte de la fonctionnalité de génération d’un podcast proposée par Google sur sa plateforme NotebookLM. Nommé NotebookLlama, ce nouveau projet utilise les propres modèles Llama de Meta pour la plupart de son traitement. Semblable à CarnetLMNotebookLlama permet aux utilisateurs de créer des résumés de style podcast à partir de fichiers texte, tels que des PDF d’articles ou de billets de blog.
Comment fonctionne NotebookLlama
NotebookLlama commence par créer une transcription à partir d’un fichier donné, par exemple un PDF. Le système ajoute ensuite des éléments tels que la dramatisation et les interruptions pour que le contenu généré ressemble davantage à une conversation. Après cela, il utilise des modèles ouverts de synthèse vocale pour convertir la transcription en audio.
La qualité de sortie actuelle des podcasts générés par NotebookLlama est encore approximative par rapport à celle de NotebookLM de Google. Les voix ont une qualité robotique notable et elles se parlent souvent à des moments étranges. Cependant, les chercheurs de Meta soulignent qu’il est possible d’améliorer cette qualité avec des modèles de synthèse vocale plus puissants. Sur la page GitHub de NotebookLlama, ils notent : « Le modèle de synthèse vocale est la limitation du naturel que cela peut paraître. »
Selon les chercheurs de Meta, une amélioration possible du projet pourrait impliquer que deux agents distincts débattent d’un sujet et créent le plan du podcast, plutôt que de s’appuyer sur un seul modèle pour gérer cet aspect. NotebookLlama, comme NotebookLM et d’autres outils d’IA, est également confronté à des problèmes d’« hallucinations », ce qui signifie que les podcasts générés peuvent parfois contenir des informations incorrectes.
Caractéristiques
NotebookLlama vise à fournir une version open source et accessible de NotebookLM, offrant plusieurs avantages aux utilisateurs :
- NotebookLlama est entièrement open source, ce qui permet aux utilisateurs de l’utiliser, de le modifier et de l’adapter librement selon leurs besoins.
- L’approche structurée utilisée dans ses blocs-notes Jupyter rend NotebookLlama adapté à ceux qui ont une expérience limitée dans l’utilisation de grands modèles de langage (LLM), d’invites ou de modèles audio.
- Bien que la fonctionnalité principale soit la conversion de PDF en podcasts, les principes qui sous-tendent NotebookLlama pourraient être adaptés à d’autres flux de travail créatifs de synthèse vocale.
Créer un podcast avec NotebookLlama
NotebookLlama utilise les blocs-notes Jupyter pour guider les utilisateurs à chaque étape de la création d’un podcast à partir d’un fichier texte. Voici un aperçu simplifié des étapes à suivre :
- Étape 1 : Installez les bibliothèques requises. Les utilisateurs commencent par installer les bibliothèques nécessaires telles que Optimum, Transformers et d’autres dépendances.
- Étape 2 : Importez les bibliothèques. Les notebooks importent plusieurs bibliothèques Python pour le traitement audio, telles que IPython, TQDM et Torch, entre autres.
- Étape 3 : Traitez les données et générez de l’audio. NotebookLlama génère des segments audio à l’aide de deux modèles : Bark et Parler. Ces modèles traitent les invites textuelles et produisent de l’audio, qui peut ensuite être assemblé en un podcast complet.
- Étape 4 : Fonctions utilitaires. Le processus comprend des fonctions utilitaires pour générer différentes voix de locuteurs, garantissant ainsi une expérience de podcast plus dynamique.
- Étape 5 : Assemblez le podcast. Les segments audio générés sont combinés dans le podcast final, créant ainsi un produit audio complet et partageable.
NotebookLlama est toujours en développement et il existe des domaines dans lesquels le projet peut s’améliorer. L’amélioration de la qualité des modèles de synthèse vocale pourrait grandement améliorer le son naturel des podcasts générés. Les futures itérations pourraient également explorer différentes approches, telles que l’utilisation de plusieurs agents pour créer un contenu plus attrayant.
Malgré ces limitations, NotebookLlama offre un moyen unique et open source de transformer du texte en contenu audio. L’approche peut également avoir des applications au-delà des simples conversions PDF, offrant des possibilités plus larges aux créateurs intéressés à expérimenter des flux de travail automatisés de synthèse vocale.
NotebookLlama pourrait devenir un outil précieux pour ceux qui cherchent à automatiser la création de podcasts ou à expérimenter de nouvelles formes de contenu de synthèse vocale.
Crédit image en vedette : Kerem Gülen/Idéogramme