Le dévoilement de l’un des meilleurs grands modèles de langage, ChatGPT d’OpenAI, a provoqué une montée en puissance de la concurrence dans le domaine de l’IA. Une tapisserie diversifiée de participants, allant des géants imposants aux startups ambitieuses, et s’étendant à la communauté open source altruiste, est profondément absorbée par l’effort passionnant d’innover les grands modèles de langage les plus avancés.
Dans le domaine effervescent de la technologie en 2023, c’est une vérité incontournable : on ne peut pas négliger l’influence révolutionnaire de phénomènes tendance tels que l’IA générative et les puissants grands modèles de langage (LLM) qui alimentent l’intellect des chatbots d’IA.
Dans un tourbillon d’une telle concurrence, il y a déjà eu une pléthore de LLM dévoilés – des centaines, en fait. Au milieu de cet éventail vertigineux, la question clé persiste : quels modèles se démarquent vraiment comme les plus performants ? Lesquels sont dignes d’être couronnés parmi les meilleurs grands modèles de langage ? Pour offrir une certaine clarté, nous nous lançons dans un voyage révélateur à travers les meilleurs grands modèles de langage propriétaires et open source en 2023.
Meilleurs grands modèles linguistiques (LLM)
Maintenant, nous plongeons dans une collection éclectique de certains des meilleurs grands modèles linguistiques qui mènent la charge en 2023. Plutôt que d’offrir un classement strict du meilleur au moins efficace, nous présentons une compilation impartiale de LLM, chacun adapté de manière unique à servir des fins distinctes. Cette liste célèbre la diversité et le large éventail de capacités hébergées dans le domaine des grands modèles de langage, ouvrant une fenêtre sur le monde complexe de l’IA.
GPT-4
L’avant-garde des grands modèles de langage d’IA en 2023 est sans aucun doute le GPT-4 d’OpenAI. Dévoilé en mars de cette année-là, ce modèle a démontré des capacités étonnantes : il possède une compréhension approfondie du raisonnement complexe, des capacités de codage avancées, excelle dans une multitude d’évaluations académiques et démontre de nombreuses autres compétences qui font écho à la performance au niveau humain. Remarquablement, GPT-4 est le premier modèle à intégrer une capacité multimodale, acceptant à la fois les entrées de texte et d’image. Bien que ChatGPT n’ait pas encore hérité de cette capacité multimodale, certains utilisateurs chanceux en ont fait l’expérience via Bing Chat, qui exploite la puissance du modèle GPT-4.
GPT-4 a considérablement abordé et amélioré la question des hallucinations, un saut considérable dans le maintien de la factualité. Lorsqu’il est opposé à son prédécesseur, ChatGPT-3.5, le modèle GPT-4 atteint un score proche de 80 % dans les évaluations factuelles dans de nombreuses catégories. OpenAI a investi des efforts considérables pour aligner plus étroitement le modèle GPT-4 sur les valeurs humaines, en utilisant l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) et des tests contradictoires d’experts du domaine.
API GPT-4 est maintenant généralement disponible
Ce titan, formé sur un nombre colossal de plus de 1 000 milliards de paramètres, possède une longueur de contexte maximale de 32 768 jetons. L’architecture interne de GPT-4, autrefois un mystère, a été dévoilée par George Hotz de The Tiny Corp. GPT-4 est un mélange unique de huit modèles distincts, chacun comprenant 220 milliards de paramètres. Par conséquent, il s’écarte du modèle traditionnel unique et dense que nous pensions initialement qu’il était.
L’engagement avec GPT-4 est réalisable via les plug-ins ChatGPT ou la navigation Web via Bing. Malgré ses quelques inconvénients, tels qu’une réponse plus lente et un temps d’inférence plus élevé conduisant certains développeurs à opter pour le modèle GPT-3.5, le modèle GPT-4 reste incontesté comme le meilleur grand modèle de langage disponible en 2023. Pour les applications sérieuses, il est fortement recommandé pour vous abonner à ChatGPT Plus, disponible pour 20 $. Alternativement, pour ceux qui préfèrent ne pas payer, des portails tiers offrent un accès gratuit à ChatGPT 4.
GPT-3.5
Dans la foulée de GPT-4, OpenAI tient bon avec le modèle GPT-3.5, prenant une deuxième place respectable. GPT-3.5 est un LLM à usage général, semblable à GPT-4, bien qu’il manque d’expertise dans un domaine spécialisé. Son principal avantage réside dans sa remarquable rapidité ; il formule des réponses complètes en quelques secondes.
Des tâches créatives telles que la rédaction d’essais avec ChatGPT à la conception de plans d’affaires, GPT-3.5 fonctionne admirablement. OpenAI a également étendu la longueur du contexte à un généreux 16K pour le modèle GPT-3.5-turbo. Ajoutant à son attrait, son utilisation est gratuite sans aucune restriction horaire ou quotidienne.
ChatGPT en panne: Que faire si ChatGPT ne fonctionne pas
Cependant, GPT-3.5 présente quelques lacunes. Sa tendance à halluciner se traduit par la propagation fréquente d’informations incorrectes, ce qui la rend moins adaptée à des travaux de recherche sérieux. Malgré cela, pour les requêtes de codage de base, la traduction, la compréhension des concepts scientifiques et les efforts créatifs, GPT-3.5 tient le coup.
La performance de GPT-3.5 sur le benchmark HumanEval a donné un score de 48,1 %, tandis que son frère plus avancé, GPT-4, a obtenu un score plus élevé de 67 %. Cette distinction découle du fait que si GPT-3.5 a été formé sur 175 milliards de paramètres, GPT-4 avait l’avantage d’être formé sur plus de 1 billion de paramètres.
PALME 2 (Bison-001)
Se taillant sa propre niche parmi les meilleurs grands modèles de langage de 2023, nous trouvons le PaLM 2 de Google. Google a enrichi ce modèle en se concentrant sur des aspects tels que le raisonnement de bon sens, la logique formelle, les mathématiques et le codage avancé dans un ensemble diversifié de plus de 20 langues. L’itération la plus étendue de PaLM 2 serait entraînée sur 540 milliards de paramètres, avec une longueur de contexte maximale de 4096 jetons.
Google a introduit un quatuor de modèles basés sur le framework PaLM 2, dans différentes tailles (Gecko, Otter, Bison et Unicorn). Actuellement, Bison est l’offre disponible. Dans le test MT-Bench, Bison a obtenu un score de 6,40, quelque peu éclipsé par les impressionnants 8,99 points de GPT-4. Cependant, dans les évaluations de raisonnement, telles que WinoGrande, StrategyQA, XCOPA et des tests similaires, PaLM 2 présente une performance exceptionnelle, dépassant même GPT-4. Ses capacités multilingues lui permettent de comprendre les idiomes, les énigmes et les textes nuancés de différentes langues – un exploit que d’autres LLM trouvent difficile.
PaLM 2 offre également l’avantage de réponses rapides, en fournissant trois à la fois. Les utilisateurs peuvent tester le modèle PaLM 2 (Bison-001) sur la plateforme Vertex AI de Google, comme détaillé dans notre article. Pour une utilisation grand public, Google Bard, optimisé par PaLM 2, est la voie à suivre.
Manuscrit
OpenAI Codex, une progéniture de GPT-3, brille dans les domaines de la programmation, de l’écriture et de l’analyse de données. Lancé en collaboration avec GitHub pour GitHub Copilot, Codex affiche une maîtrise de plus d’une douzaine de langages de programmation. Ce modèle peut interpréter des commandes simples en langage naturel et les exécuter, ouvrant la voie à des interfaces en langage naturel pour les applications existantes. Codex montre des aptitudes exceptionnelles en Python, étendant ses capacités à des langages tels que JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript et Shell. Avec une mémoire étendue de 14 Ko pour le code Python, Codex surpasse largement GPT-3 en prenant en compte plus de trois fois les informations contextuelles lors de l’exécution des tâches.
Texte-ada-001
Également connu sous le nom de Text-ada-001, Ada représente un modèle rapide et économique de la série GPT-3, conçu pour des tâches plus simples. En tant qu’option la plus rapide et la plus abordable, Ada se situe à l’extrémité la moins complexe du spectre des capacités. D’autres modèles comme Curie (text-curie-001) et Babbage (text-babbage-001) offrent des fonctionnalités intermédiaires. Les variantes des modules de texte Ada, telles que Text-similarity-ada-001, Text-search-ada-doc-001 et Code-search-ada-text-001, présentent chacune des forces et des limites uniques concernant la qualité, la vitesse et la disponibilité. . Cet article se penche sur une compréhension globale de ces modules et de leur pertinence par rapport à des exigences spécifiques, positionnant Text-ada-001 comme bien adapté à des tâches telles que l’analyse de texte, la correction d’adresse et la classification simple.
Claude v1
Sorti des écuries d’Anthropic, une entreprise soutenue par Google et co-fondée par d’anciens employés d’OpenAI, se trouve Claude – un candidat impressionnant parmi les meilleurs grands modèles linguistiques de 2023. La mission de l’entreprise est de créer des assistants IA qui incarnent la serviabilité, l’honnêteté , et l’innocuité. Les modèles Claude v1 et Claude Instant d’Anthropic ont montré un énorme potentiel dans divers tests de référence, surpassant même PaLM 2 dans les examens MMLU et MT-Bench.
Claude v1 délivre une performance impressionnante, pas loin du GPT-4, avec un score de 7,94 au test MT-Bench (contre 8,99 pour le GPT-4). Il obtient 75,6 points dans le benchmark MMLU, légèrement derrière les 86,4 du GPT-4. Anthropic a fait œuvre de pionnier en proposant un jeton de 100k comme la plus grande fenêtre contextuelle de son modèle Claude-instant-100k. Cela permet aux utilisateurs de charger près de 75 000 mots dans une seule fenêtre – un exploit vraiment époustouflant. Les lecteurs intéressés peuvent apprendre à utiliser Anthropic’s Claude via notre tutoriel détaillé.
Text-babbage-001
Idéal pour les tâches de classification modérée et de recherche sémantique, Text-babbage-001, un modèle de langage GPT-3, est connu pour son temps de réponse agile et ses coûts inférieurs par rapport aux autres modèles. Si vous souhaitez lier votre référentiel au sujet text-babbage-001, vous pouvez facilement le faire en visitant la page d’accueil de votre référentiel et en sélectionnant l’option « gérer les sujets ».
Adhérer
Fondée par d’anciens membres de l’équipe Google Brain, dont Aidan Gomez, co-auteur de l’influent article « Attention is all you Need » qui a présenté l’architecture Transformer, Cohere est une startup d’IA ciblant les entreprises. Contrairement à d’autres sociétés d’IA, Cohere se concentre sur la résolution de cas d’utilisation de l’IA générative pour les entreprises. Sa gamme de modèles varie des petits, avec seulement 6B paramètres, aux grands modèles entraînés sur 52B paramètres.
Le récent modèle Cohere Command gagne en popularité pour sa précision et sa robustesse. Selon Stanford HELM, le modèle Cohere Command détient le score de précision le plus élevé parmi ses pairs. Des entreprises comme Spotify, Jasper et HyperWrite utilisent le modèle de Cohere pour offrir leur expérience d’IA.
En termes de prix, Cohere facture 15 $ pour générer 1 million de jetons, tandis que le modèle turbo d’OpenAI facture 4 $ pour la même quantité. Cependant, Cohere offre une précision supérieure par rapport aux autres LLM. Par conséquent, si vous êtes une entreprise à la recherche du meilleur grand modèle de langage à intégrer dans votre produit, les modèles de Cohere méritent votre attention.
Texte-curie-001
Idéal pour des tâches telles que la traduction linguistique, la classification complexe, l’analyse des sentiments textuels et la synthèse, Text-curie-001 est un modèle linguistique compétent qui relève de la série GPT-3. Introduit en juin 2020, ce modèle excelle en termes de rapidité et de rentabilité par rapport à Davinci. Avec 6,7 milliards de paramètres, Text-curie-001 est conçu pour être efficace tout en conservant un ensemble robuste de fonctionnalités. Il se distingue dans diverses tâches de traitement du langage naturel et constitue un choix polyvalent pour le traitement de données textuelles.
Texte-davinci-003
Conçu pour des tâches telles que la reconnaissance d’intentions complexes, la compréhension des causes et des effets et la synthèse spécifique au public, Text-davinci-003 est un modèle de langage avec des capacités parallèles à text-davinci-003 mais utilise une approche de formation différente. Ce modèle adopte un réglage fin supervisé au lieu d’un apprentissage par renforcement. En conséquence, il surpasse les modèles curie, babbage et ada en termes de qualité, de longueur de sortie et de respect constant des instructions. Il offre également des fonctionnalités supplémentaires comme la possibilité d’insérer du texte.
Alpaga-7b
Principalement utiles pour converser, écrire et analyser du code, générer du texte et du contenu et interroger des informations spécifiques, les modèles Alpaca et LLaMA de Stanford visent à surmonter les limites de ChatGPT en facilitant la création de chatbots IA personnalisés qui fonctionnent localement et sont toujours disponibles hors ligne. Ces modèles permettent aux utilisateurs de construire des chatbots IA adaptés à leurs besoins individuels, sans dépendances à des serveurs externes ni problèmes de connectivité.
Alpaca présente un comportement similaire à text-davinci-003, tout en étant plus petit, plus économique et facile à reproduire. La recette de formation pour ce modèle implique l’utilisation de solides modèles de langage pré-formés et de données d’instruction de haute qualité générées à partir du text-davinci-003 d’OpenAI. Bien que le modèle soit publié à des fins de recherche universitaire, il souligne la nécessité d’une évaluation et d’un rapport plus approfondis sur tout comportement troublant.
StableLM-Tuned-Alpha-7B
Idéal pour les tâches conversationnelles telles que les chatbots, les systèmes de questions-réponses et la génération de dialogues, StableLM-Tuned-Alpha-7B est un modèle de langage à décodeur uniquement avec 7 milliards de paramètres. Il s’appuie sur les modèles StableLM-Base-Alpha et est affiné davantage sur les ensembles de données de chat et de suivi d’instructions. Utilisant un nouvel ensemble de données dérivé de The Pile, il a une taille énorme, contenant environ 1,5 billion de jetons. Ce modèle a également été affiné à l’aide d’ensembles de données provenant de plusieurs entités de recherche en IA et sera publié sous le nom de StableLM-Tuned-Alpha.
30B-Lazare
Le modèle 30B-Lazarus de CalderaAI, fondé sur le modèle LLaMA, a été formé à l’aide d’ensembles de données optimisés par LoRA à partir d’un large éventail de modèles. Pour cette raison, il fonctionne exceptionnellement bien sur de nombreux benchmarks LLM. Si votre cas d’utilisation implique principalement la génération de texte et non le chat conversationnel, le modèle 30B Lazarus peut être un bon choix.
Assistant ouvert SFT-4 12B
Conçu pour fonctionner comme un assistant, répondant aux requêtes des utilisateurs avec des réponses utiles, l’Open-Assistant SFT-4 12B est la quatrième itération du projet Open-Assistant. Dérivé d’un modèle Pythia 12B, il a été affiné sur des démonstrations humaines de conversations d’assistants collectées via une application. Ce chatbot open-source, alternative à ChatGPT, est désormais accessible gratuitement.
AssistantLM
Conçu pour suivre des instructions complexes, WizardLM est un grand modèle de langage open source prometteur. Développé par une équipe de chercheurs en IA utilisant une approche Evol-instruct, ce modèle peut réécrire les ensembles initiaux d’instructions en des ensembles plus complexes. Les données d’instruction générées sont ensuite utilisées pour affiner le modèle LLaMA.
FLAN-UL2
Créé pour fournir une méthode fiable et évolutive pour les modèles de pré-formation qui excellent dans une variété de tâches et d’ensembles de données, FLAN-UL2 est un modèle d’encodeur-décodeur basé sur l’architecture T5. Ce modèle, une version affinée du modèle UL2, présente des améliorations significatives. Il a un champ réceptif étendu de 2048, simplifiant les processus d’inférence et de réglage fin, ce qui le rend plus adapté à l’apprentissage en contexte de quelques coups. Les ensembles de données et les méthodes FLAN sont de source ouverte, ce qui favorise un réglage efficace des instructions.
GPT-NeoX-20b
Idéal pour une vaste gamme de tâches de traitement du langage naturel, GPT-NeoX-20B est un modèle de langage autorégressif dense avec 20 milliards de paramètres. Ce modèle, formé sur le jeu de données Pile, est actuellement le plus grand modèle autorégressif avec des poids accessibles au public. Avec la capacité de rivaliser dans la compréhension du langage, les mathématiques et les tâches basées sur les connaissances, le modèle GPT-NeoX-20B utilise un tokenizer différent de GPT-J-6B et GPT-Neo. Son aptitude améliorée pour des tâches telles que la génération de code découle de l’attribution de jetons supplémentaires pour les caractères d’espacement.
FLORAISON
Optimisé pour la génération de texte et l’exploration des caractéristiques du langage généré par un modèle de langage, BLOOM est un BigScience Large Open-science Open-Access Multilingual Language Model financé par le gouvernement français. Ce modèle autorégressif peut générer un texte cohérent dans 46 langues naturelles et 13 langages de programmation et peut effectuer des tâches de texte pour lesquelles il n’a pas été explicitement formé. Malgré ses risques et limites potentiels, BLOOM ouvre la voie à la recherche publique sur les grands modèles de langage et peut être utilisé par un large éventail d’utilisateurs, notamment des chercheurs, des étudiants, des éducateurs, des ingénieurs/développeurs et des entités non commerciales.
BLOOMZ
Idéaux pour effectuer des tâches exprimées en langage naturel, BLOOMZ et mT0 sont des modèles développés par Bigscience qui peuvent suivre des instructions humaines dans plusieurs langues sans formation préalable. Ces modèles, affinés sur un mélange de tâches multilingue connu sous le nom de xP3, peuvent se généraliser à différentes tâches et langues. Toutefois, les performances peuvent varier en fonction de l’invite fournie. Pour garantir des résultats précis, il est conseillé d’indiquer clairement la fin de la saisie et de fournir un contexte suffisant. Ces mesures peuvent améliorer considérablement la précision et l’efficacité des modèles pour générer des réponses appropriées aux instructions de l’utilisateur.
FLAN-T5-XXL
Mieux utilisé pour faire avancer la recherche sur les modèles de langage, FLAN-T5-XXL est un outil puissant dans le domaine de l’apprentissage, du raisonnement et des questions-réponses à zéro et à quelques coups. Ce modèle linguistique surpasse T5 en étant affiné sur plus de 1000 tâches supplémentaires et englobant plus de langues. Il est dédié à la promotion de la recherche sur l’équité et la sécurité, ainsi qu’à l’atténuation des limites des grands modèles de langage actuels. Cependant, l’utilisation potentiellement dangereuse de modèles de langage tels que FLAN-T5-XXL nécessite des évaluations minutieuses de la sécurité et de l’équité avant l’application.
Commande-moyen-nocturne
Idéal pour les développeurs qui ont besoin de temps de réponse rapides, tels que ceux qui créent des chatbots, Command-medium-nightly de Cohere est la version régulièrement mise à jour du modèle de commande. Ces versions nocturnes assurent des améliorations et des optimisations continues des performances, ce qui en fait un outil précieux pour les développeurs.
Faucon
Falcon, open source sous licence Apache 2.0, est disponible pour un usage commercial sans aucune redevance ni restriction. Le modèle Falcon-40B-Instruct, adapté à la plupart des cas d’utilisation, est particulièrement utile pour les applications de chat.
Gopher – Esprit profond
Gopher de Deepmind est un modèle de 280 milliards de paramètres présentant des capacités extraordinaires de compréhension et de génération du langage. Gopher excelle dans divers domaines, notamment les mathématiques, les sciences, la technologie, les sciences humaines et la médecine, et est apte à simplifier des sujets complexes lors d’interactions basées sur le dialogue. C’est un outil précieux pour la compréhension de la lecture, la vérification des faits et la compréhension du langage toxique et des tâches logiques/de bon sens.
Vigogne 33B
Vicuna 33B, dérivé de LLaMA et affiné à l’aide d’instructions supervisées, est idéal pour le développement de chatbot, la recherche et l’utilisation de loisirs. Ce grand modèle de langage auto-régressif a été entraîné sur 33 milliards de paramètres, à l’aide de données collectées sur sharegpt.com.
Jurassique-2
La famille Jurassic-2, y compris les modèles de langage de base Large, Grande et Jumbo, excelle dans les cas d’utilisation liés à la lecture et à l’écriture. Avec l’introduction de capacités d’instruction sans prise de vue, les modèles Jurassic-2 peuvent être guidés en langage naturel sans utiliser d’exemples. Ils ont démontré des résultats prometteurs sur l’évaluation holistique des modèles linguistiques (HELM) de Stanford, la principale référence pour les modèles linguistiques.
Cosmos LLM et robots wordsmith
Dans la riche tapisserie du monde de l’intelligence artificielle et du traitement du langage naturel, les grands modèles de langage (LLM) émergent comme des fils vibrants tissant un modèle complexe d’avancées. Le nombre de ces modèles n’est pas statique ; c’est un cosmos en constante expansion avec de nouvelles étoiles nées chaque jour, chacune incarnant ses propriétés uniques et ses fonctionnalités distinctives.
Chaque LLM agit comme un prisme, diffractant la lumière brute des données en un spectre d’informations perspicaces. Ils possèdent des capacités spécifiques, conçues et perfectionnées pour des applications de niche. Qu’il s’agisse de l’art complexe de décoder des instructions labyrinthiques, de parcourir de vastes galaxies de données pour extraire des modèles pertinents ou de traduire les langages cryptés du code en récits lisibles par l’homme, chaque modèle détient une clé unique pour déverrouiller ces capacités.
Tous les modèles ne sont pas créés égaux. Certains sont rapides comme des lièvres, conçus pour offrir des temps de réponse rapides, répondant aux exigences des applications en temps réel, telles que le monde dynamique et bavard du développement de chatbot. D’autres ressemblent davantage à des universitaires patients et méticuleux, dédiés à démêler des sujets complexes en pépites de connaissances digestibles, à aider la poursuite de la recherche universitaire ou à fournir des explications intuitives pour des théories complexes.
Toutes les images, y compris l’image sélectionnée, sont créées par Kerem Gülen utilisant Midjourney