Bert est un cadre d’apprentissage automatique open source pour le traitement du langage naturel (NLP) qui aide les ordinateurs à comprendre le langage ambigu en utilisant le contexte à partir du texte environnant. Le modèle a été pré-entraîné sur le texte de l’anglais Wikipedia et du Brown Corpus, et il peut être affiné avec des ensembles de données de questions et réponses. Bert signifie Bidirectional Encoder Representations de Transformers et est basé sur le modèle de transformateur, qui relie chaque élément de sortie à chaque élément d’entrée dynamiquement.
Qu’est-ce que Bert?
Bert est conçu pour relever les défis de l’interprétation du langage naturel. Modèles linguistiques traditionnels traités de texte uniquement séquentiellement – de gauche à droite ou de droite à gauche – ce qui a rendu la compréhension du contexte limité. Bert surmonte cette limitation en lisant le texte bidirectionnel, lui permettant de capturer le contexte complet des mots. Sa pré-entraînement sur un texte vaste et non étiqueté et sa capacité à être affinés sur des tâches spécifiques en font un outil puissant dans la PNL moderne.
Comment fonctionne Bert
La force de Bert provient de son architecture transformatrice sous-jacente. Contrairement aux modèles antérieurs qui dépendaient des séquences fixes, les transformateurs traitent les données dans n’importe quel ordre, ce qui permet à Bert de peser les influences de tous les mots autour d’un mot cible. Cette approche bidirectionnelle affiche sa compréhension du langage.
Architecture transformateur
Le modèle de transformateur forme l’épine dorsale de Bert. Il garantit que chaque élément de sortie est calculé dynamiquement en fonction de chaque élément d’entrée. Cette conception permet à Bert de gérer le contexte en examinant les relations à travers la phrase entière, pas seulement dans une progression unidirectionnelle.
Modélisation de la langue masquée
Bert utilise une technique appelée modélisation du langage masqué (MLM). Dans MLM, certains mots d’une phrase sont cachés et Bert doit prédire ces mots masqués en fonction du reste de la phrase. Cela oblige le modèle à développer une compréhension approfondie du contexte plutôt que de s’appuyer sur des représentations de mots statiques.
Prédiction de phrase suivante
La prédiction de phrase suivante (NSP) forme Bert pour déterminer si une phrase en suit logiquement une autre. En apprenant la relation entre les paires de phrases – à la fois correctement et à tort, BERT améliore sa capacité à capturer le flux de langage, ce qui est crucial pour les tâches comme la réponse aux questions.
Mécanismes d’auto-agence
L’auto-attention permet à Bert de peser la pertinence de chaque mot par rapport aux autres dans une phrase. Ce mécanisme est essentiel lorsque la signification d’un mot se déplace à mesure que un nouveau contexte est ajouté, garantissant que l’interprétation de Bert reste exacte même lorsque les mots sont ambigus.
Contexte et histoire
Le développement de Bert a marqué un écart significatif par rapport aux modèles de langue antérieurs. Des modèles antérieurs, tels que ceux basés sur des réseaux de neurones récurrents (RNN) et des réseaux de neurones convolutionnels (CNN), traités dans un ordre fixe et séquentiel. Cette limitation a entravé leurs performances sur les tâches qui reposaient pleinement sur la compréhension du contexte.
En 2017, Google a présenté le modèle Transformer, ouvrant la voie à des innovations comme Bert. D’ici 2018, Google a publié et ouvert Bert, et la recherche a montré qu’il avait obtenu des résultats de pointe sur 11 tâches de compréhension du langage naturel, y compris l’analyse des sentiments, l’étiquetage des rôles sémantiques et la classification du texte. En octobre 2019, Google a appliqué Bert à ses algorithmes de recherche basés sur les États-Unis, améliorant la compréhension d’environ 10% des requêtes de recherche en anglais. En décembre 2019, Bert avait été étendu à plus de 70 langues, améliorant la recherche vocale et textuelle.
Applications et utilisations
Bert possède un large éventail d’applications dans la PNL, permettant des tâches à usage général et spécialisées. Sa conception le rend idéal pour améliorer la précision de la compréhension et du traitement des langues.
Tâches PNL
Bert prend en charge les tâches de séquence à séquence comme la réponse aux questions, le résumé abstrait, la prédiction des phrases et la génération de réponse conversationnelle. Il excelle également dans les tâches de compréhension du langage naturel telles que la désambiguïsation du sens des mots, la résolution de la polysémie, l’inférence du langage naturel et la classification du sentiment.
Variantes spécialisées
De nombreuses adaptations de Bert ont été développées pour optimiser les performances ou cibler des domaines spécifiques. Les exemples incluent Patentbert pour la classification des brevets, Docbert pour la classification des documents, Biobert for Biomedical Text Mining et Scibert pour la littérature scientifique. D’autres versions comme Tinybert, Distilbert, Albert, Spanbert, Roberta et Electra offrent des améliorations de la vitesse, de l’efficacité ou de la précision spécifique à la tâche.
Bert contre GPT
Bien que Bert et GPT soient tous deux des modèles de langue de premier plan, ils servent des objectifs différents. Bert se concentre sur la compréhension du texte en le lisant dans son intégralité en utilisant le contexte à partir des deux directions. Cela le rend idéal pour des tâches telles que l’interprétation des requêtes de recherche et l’analyse des sentiments. En revanche, les modèles GPT sont conçus pour la génération de texte, en excellent à créer du contenu original et à résumer de longs textes.
Impact sur l’IA et la recherche
Google utilise Bert pour améliorer l’interprétation des requêtes de recherche en comprenant mieux le contexte que les modèles précédents. Cela a conduit à des résultats plus pertinents pour environ 10% des requêtes de recherche en anglais américaines. La capacité de Bert à traiter le contexte a également amélioré la recherche vocale et la précision de recherche textuelle, en particulier parce qu’elle a été adaptée pour une utilisation dans plus de 70 langues. Son influence s’étend dans toute l’IA, établissant de nouvelles normes pour la compréhension du langage naturel et poussant le développement de modèles plus avancés.