Pendant des années, la promesse d’une IA conversationnelle véritablement intelligente semblait hors de portée. Nous avons été émerveillés par les capacités de ChatGPT, Gémeauxet d’autres grands modèles de langage (LLM) – composer des poèmes, écrire du code, traduire des langues – mais ces exploits ont toujours reposé sur la vaste puissance de traitement des GPU cloud. Aujourd’hui, une révolution discrète se prépare, visant à apporter ces incroyables capacités directement sur l’appareil que vous avez dans votre poche : un LLM sur votre smartphone.
Ce changement n’est pas seulement une question de commodité ; il s’agit de confidentialité, d’efficacité et d’ouverture d’un nouveau monde d’expériences d’IA personnalisées.
Cependant, réduire ces LLM massifs pour les adapter à un appareil dont la mémoire et la durée de vie de la batterie sont limitées présente un ensemble unique de défis. Pour comprendre ce paysage complexe, j’ai parlé avec Alexeï Naumovingénieur de recherche principal en IA chez Terra Quantiquefigure de proue dans le domaine de la compression LLM.
En effet, Naumov a récemment publié un article sur ce sujet qui est présenté comme une innovation extraordinaire et significative dans la compression des réseaux neuronaux : »TQCompressor : amélioration des méthodes de décomposition tensorielle dans les réseaux de neurones via des permutations» – lors de la Conférence internationale de l’IEEE sur le traitement et la récupération de l’information multimédia (IEEE MIPR 2024), une conférence où chercheurs, scientifiques et professionnels de l’industrie se réunissent pour présenter et discuter des dernières avancées en matière de technologie multimédia.
« Le principal défi est, bien entendu, la mémoire principale (DRAM) limitée disponible sur les smartphones », a déclaré Naumov. « La plupart des modèles ne peuvent pas tenir dans la mémoire d’un smartphone, ce qui rend impossible leur fonctionnement. »
Il cite le modèle Llama 3.2-8B de Meta comme un excellent exemple.
« Cela nécessite environ 15 Go de mémoire », a déclaré Naumov. « Cependant, l’iPhone 16 ne dispose que de 8 Go de DRAM et le Google Pixel 9 Pro en propose 16 Go. De plus, pour faire fonctionner ces modèles efficacement, il faut encore plus de mémoire – environ 24 Go, offerte par des appareils comme le GPU NVIDIA RTX 4090, à partir de 1 800 $.
Cette contrainte de mémoire ne concerne pas seulement le stockage ; cela a un impact direct sur la durée de vie de la batterie d’un téléphone.
« Plus un modèle nécessite de mémoire, plus il vide la batterie rapidement », a déclaré Naumov. « Un LLM de 8 milliards de paramètres consomme environ 0,8 joules par jeton. Un iPhone entièrement chargé, avec environ 50 kJ d’énergie, ne pourrait soutenir ce modèle que pendant environ deux heures à un rythme de 10 jetons par seconde, tous les 64 jetons consommant environ 0,2 % de la batterie.
Alors, comment surmonter ces obstacles ? Naumov souligne l’importance des techniques de compression de modèles.
« Pour résoudre ce problème, nous devons réduire la taille des modèles », a déclaré Naumov. « Il existe deux approches principales : réduire le nombre de paramètres ou diminuer la mémoire requise par chaque paramètre. »
Il décrit des stratégies telles que la distillation, l’élagage et la décomposition matricielle pour réduire le nombre de paramètres et la quantification pour diminuer l’empreinte mémoire de chaque paramètre.
« En stockant les paramètres du modèle dans INT8 au lieu de FP16, nous pouvons réduire la consommation de mémoire d’environ 50 % », a déclaré Naumov.
Alors que les appareils Pixel de Google, avec leurs TPU optimisés pour TensorFlow, semblent être une plate-forme idéale pour exécuter des LLM, Naumov prévient qu’ils ne résolvent pas le problème fondamental des limitations de mémoire.
« Bien que les unités de traitement tensoriel (TPU) utilisées dans les appareils Google Pixel offrent des performances améliorées lors de l’exécution de modèles d’IA, ce qui peut conduire à des vitesses de traitement plus rapides ou à une consommation de batterie inférieure, elles ne résolvent pas le problème fondamental des besoins en mémoire des LLM modernes. , qui dépassent généralement les capacités de mémoire des smartphones », a déclaré Naumov.
La volonté d’introduire les LLM sur les smartphones va au-delà de la simple ambition technique. Il s’agit de réinventer notre relation avec l’IA et de remédier aux limites des solutions basées sur le cloud.
« Les principaux modèles comme ChatGPT-4 ont plus d’un billion de paramètres », a déclaré Naumov. « Si nous imaginons un avenir dans lequel les gens dépendent fortement des LLM pour des tâches telles que les interfaces conversationnelles ou les systèmes de recommandation, cela pourrait signifier qu’environ 5 % du temps quotidien des utilisateurs est consacré à interagir avec ces modèles. Dans ce scénario, l’exécution de GPT-4 nécessiterait le déploiement d’environ 100 millions de GPU H100. L’échelle de calcul à elle seule, sans tenir compte des frais généraux de communication et de transmission de données, équivaudrait à exploiter environ 160 entreprises de la taille de Meta. Ce niveau de consommation d’énergie et les émissions de carbone associées poseraient d’importants défis environnementaux.
La vision est claire : un avenir où l’IA s’intègre parfaitement à notre vie quotidienne, fournissant une assistance personnalisée sans compromettre la confidentialité ni vider les batteries de nos téléphones.
« Je prévois que de nombreuses applications LLM qui reposent actuellement sur le cloud computing passeront au traitement local sur les appareils des utilisateurs », a déclaré Naumov. « Ce changement sera motivé par une nouvelle réduction des effectifs du modèle et par des améliorations des ressources informatiques et de l’efficacité des smartphones. »
Il dresse le portrait d’un avenir dans lequel les capacités des LLM pourraient devenir aussi courantes et intuitives que la correction automatique l’est aujourd’hui. Cette transition pourrait ouvrir de nombreuses possibilités passionnantes. Grâce aux LLM locaux, imaginez une confidentialité améliorée où vos données sensibles ne quittent jamais votre appareil.
Imaginez une IA omniprésente avec des capacités LLM intégrées dans pratiquement toutes les applications, de la messagerie et du courrier électronique aux outils de productivité. Pensez à la commodité de la fonctionnalité hors ligne, qui vous permet d’accéder à l’assistance IA même sans connexion Internet. Imaginez des expériences personnalisées où les LLM apprennent vos préférences et vos habitudes pour fournir un soutien véritablement personnalisé.
Pour les développeurs désireux d’explorer cette frontière, Naumov propose quelques conseils pratiques.
« Tout d’abord, je recommande de sélectionner le modèle qui correspond le mieux à l’application prévue », a déclaré Naumov. « Hugging Face est une excellente ressource pour cela. Recherchez les modèles récents avec 1 à 3 milliards de paramètres, car ce sont les seuls actuellement réalisables pour les smartphones. De plus, essayez de trouver des versions quantifiées de ces modèles sur Hugging Face. La communauté de l’IA y publie généralement des versions quantifiées de modèles populaires.
Il suggère également d’explorer des outils comme lama.cpp et bits et octets pour la quantification et l’inférence de modèles.
Le parcours visant à amener les LLM sur les smartphones n’en est qu’à ses débuts, mais le potentiel est indéniable. Alors que des chercheurs comme Aleksei Naumov continuent de repousser les limites du possible, nous sommes à l’aube d’une nouvelle ère de l’IA mobile, une ère dans laquelle nos smartphones deviennent de véritables compagnons intelligents, capables de comprendre et de répondre à nos besoins comme nous l’avons fait. je commence seulement à imaginer.