Le grand débat LPU vs GPU lorsque Groq a récemment présenté les capacités remarquables de son unité de traitement du langage, établissant de nouvelles références en matière de vitesse de traitement. Cette semaine, le LPU de Groq a stupéfié la communauté technologique en exécutant des modèles LLM (Large Language Models) open source comme Llama-2, qui possède 70 milliards de paramètres, à une vitesse impressionnante de plus de 100 jetons par seconde.
De plus, il a démontré ses prouesses avec Mixtral, atteignant près de 500 jetons par seconde et par utilisateur. Cette avancée met en évidence le changement potentiel des paradigmes informatiques, dans lequel les LPU pourraient offrir une alternative spécialisée et plus efficace aux GPU traditionnellement dominants dans la gestion des tâches basées sur le langage.
Qu’est-ce qu’un LPU ?
Qu’est-ce qu’un LPU exactement, son mécanisme de fonctionnement et les origines de Groq (un nom qui entre malheureusement en conflit avec celui de Musk, Grok, également nommé) ? La présence en ligne de Groq présente ses LPU, ou « unités de traitement du langage », comme «un nouveau type de système d’unités de traitement de bout en bout qui fournit l’inférence la plus rapide pour les applications à forte intensité de calcul comportant un composant séquentiel, telles que les applications de langage d’IA (LLM).»
Rappelez-vous le match historique de Go en 2016où AlphaGo a battu le champion du monde Lee Sedol? Fait intéressant, environ un mois avant leur confrontation, AlphaGo a perdu un match d’entraînement. Suite à cela, l’équipe DeepMind a fait passer AlphaGo à une unité de traitement tensoriel (TPU), améliorant considérablement ses performances pour assurer une victoire avec une marge substantielle.
Ce moment a montré le rôle essentiel de la puissance de traitement pour libérer tout le potentiel de l’informatique sophistiquée, inspirant Jonathan Ross, qui avait initialement dirigé le projet TPU chez Google, à créer Groq en 2016, conduisant au développement du LPU. Le LPU est spécialement conçu pour gérer rapidement les opérations basées sur le langage. Contrairement aux puces conventionnelles qui gèrent plusieurs tâches simultanément (traitement parallèle), le LPU traite les tâches en séquence (traitement séquentiel), ce qui le rend très efficace pour la compréhension et la génération du langage.
Prenons l’analogie d’une course de relais où chaque participant (puce) passe le relais (données) au suivant, accélérant ainsi considérablement le processus. Le LPU vise spécifiquement à relever le double défi de la densité de calcul et de la bande passante mémoire dans les grands modèles de langage (LLM).
Groq a adopté une stratégie innovante dès sa création, donnant la priorité à l’innovation en matière de logiciels et de compilateurs avant le développement du matériel. Cette approche garantissait que la programmation dirigerait la communication entre les puces, facilitant ainsi un fonctionnement coordonné et efficace, semblable à une machine bien huilée dans une chaîne de production.
Par conséquent, le LPU excelle dans la gestion rapide et efficace des tâches linguistiques, ce qui le rend parfaitement adapté aux applications nécessitant une interprétation ou une génération de texte. Cette percée a conduit à un système qui surpasse non seulement les configurations conventionnelles en termes de vitesse, mais également en termes de rentabilité et de réduction de la consommation d’énergie. De telles avancées ont des implications significatives pour des secteurs tels que la finance, le gouvernement et la technologie, où un traitement rapide et précis des données est crucial.
Plonger en profondeur dans les unités de traitement du langage (LPU)
Pour mieux comprendre son architecture, Groq a publié deux articles :
- un en 2020 intitulé : «Pensez vite : un processeur Tensor Streaming (TSP) pour accélérer les charges de travail de Deep Learning«
- un autre en 2022 appelait : «Un multiprocesseur de streaming Tensor défini par logiciel pour l’apprentissage automatique à grande échelle«
Il apparaît la désignation «LPU» est un terme plus récent dans le lexique de Groq, car il ne figure dans aucun des deux documents.
Cependant, il n’est pas encore temps de jeter vos GPU. Bien que les LPU excellent dans les tâches d’inférence, gérant sans effort l’application de modèles entraînés à de nouvelles données, Les GPU maintiennent leur domination dans la phase de formation du modèle. La synergie entre les LPU et les GPU pourrait former un formidable partenariat dans le domaine du matériel d’IA, chaque unité étant spécialisée et leader dans son domaine spécifique.
LPU contre GPU
Comparons LPU et GPU pour comprendre plus clairement leurs avantages et limites distincts.
GPU : les centrales polyvalentes
Unités de traitement graphique, ou GPU, ont transcendé leur conception initiale dans le but de rendre les graphiques de jeux vidéo pour qu’ils deviennent des éléments clés des efforts d’intelligence artificielle (IA) et d’apprentissage automatique (ML). Leur architecture est un modèle de capacité de traitement parallèle, permettant l’exécution de milliers de tâches simultanément.
Cet attribut est particulièrement bénéfique pour les algorithmes qui prospèrent grâce à la parallélisation, accélérant efficacement les tâches allant des simulations complexes à la formation de modèles d’apprentissage profond.
La polyvalence des GPU est une autre caractéristique louable ; ces processeurs gèrent habilement un large éventail de tâches, non seulement limitées à l’IA, mais incluant également les jeux et le rendu vidéo. Leurs prouesses en matière de traitement parallèle accélèrent considérablement les phases de formation et d’inférence des modèles ML, présentant un avantage de vitesse remarquable.
Cependant, les GPU ne sont pas sans limites. Leurs efforts de haute performance se font au prix d’une consommation d’énergie substantielle, ce qui pose des défis en matière d’efficacité énergétique. De plus, leur conception à usage général, bien que flexible, n’offre pas toujours la plus grande efficacité pour des tâches d’IA spécifiques, ce qui laisse présager des inefficacités potentielles dans les applications spécialisées.
LPU : Les spécialistes des langues
Unités de traitement du langage représentent la pointe de la technologie des processeurs d’IA, avec une philosophie de conception profondément ancrée dans les tâches de traitement du langage naturel (NLP). Contrairement à leurs homologues GPU, les LPU sont optimisé pour le traitement séquentiel, une nécessité pour comprendre et générer avec précision le langage humain. Cette spécialisation confère aux LPU des performances supérieures dans les applications NLP, surpassant les processeurs à usage général dans des tâches telles que la traduction et la génération de contenu. L’efficacité des LPU dans le traitement des modèles de langage se démarque, réduisant potentiellement à la fois l’empreinte temporelle et énergétique des tâches NLP.
La spécialisation des LPU est cependant une arme à double tranchant. Bien qu’ils excellent dans le traitement du langage, leur champ d’application est plus restreint, ce qui limite leur polyvalence sur le spectre plus large des tâches d’IA. De plus, en tant que technologies émergentes, les LPU sont confrontées à des défis en termes de support et de disponibilité généralisés, un écart que le temps et l’adoption technologique pourraient combler.
Fonctionnalité | GPU | LPU |
Objectif de conception | À l’origine pour les graphismes de jeux vidéo | Spécifiquement pour les tâches de traitement du langage naturel |
Avantages | Polyvalence, traitement parallèle | Spécialisation, Efficacité en PNL |
Limites | Consommation d’énergie, conception à usage général | Champ d’application limité, technologie émergente |
Convient à | Tâches IA/ML, jeux, rendu vidéo | Tâches PNL (par exemple, traduction, génération de contenu) |
Type de traitement | Parallèle | Séquentiel |
Efficacité énergétique | Inférieur en raison de tâches à haute performance | Potentiellement plus élevé en raison de l’optimisation pour des tâches spécifiques |
Grok LPU transformera-t-il l’avenir de l’inférence de l’IA ?
Le débat autour de LPU vs GPU s’intensifie. Au départ, Grok a suscité l’intérêt lorsque son équipe de relations publiques l’a présenté comme un acteur clé du développement de l’IA à la fin de l’année dernière. Malgré la curiosité initiale, une conversation avec la direction de l’entreprise a été retardée en raison de conflits d’horaire.
L’intérêt a été relancé par le désir de comprendre si cette société représente un autre moment éphémère dans le cycle de battage médiatique de l’IA, où la publicité semble favoriser la reconnaissance, ou si ses LPU représentent véritablement une étape révolutionnaire dans l’inférence de l’IA. Des questions ont également été soulevées quant aux expériences de l’équipe relativement petite de l’entreprise, en particulier à la suite d’un élan de reconnaissance important sur la scène du matériel technologique.
Un moment clé est survenu lorsqu’un la publication sur les réseaux sociaux a considérablement accru l’intérêt pour l’entreprise, ce qui a donné lieu à des milliers de demandes d’accès à sa technologie en une seule journée. Le fondateur de l’entreprise a partagé ces détails lors d’un appel vidéo, soulignant la réponse massive et leur pratique actuelle consistant à offrir un accès gratuit à leur technologie en raison de l’absence de système de facturation.
Le fondateur n’est pas un novice dans l’écosystème des startups de la Silicon Valley, puisqu’il défend le potentiel technologique de l’entreprise depuis sa création en 2016. Un engagement antérieur dans le développement d’une technologie informatique clé dans une autre grande entreprise technologique a constitué la base du lancement de cette nouvelle entreprise. Cette expérience a été cruciale pour façonner l’approche unique de l’entreprise en matière de développement matériel, en se concentrant dès le départ sur l’expérience utilisateur, avec des efforts initiaux importants dirigés vers les outils logiciels avant de passer à la conception physique de la puce.
Ce récit évoque une transition significative vers des processeurs spécialisés tels que les LPU, qui pourraient ouvrir une nouvelle ère dans l’inférence de l’IA, offrant des solutions informatiques plus efficaces et ciblées. Alors que l’industrie continue d’évaluer l’impact de ces innovations, la possibilité pour les LPU de redéfinir les approches informatiques dans les applications d’IA reste un sujet de discussion incontournable, suggérant un avenir transformateur pour la technologie de l’IA.
Crédits images : Kerem Gülen/Milieu du voyage