Apple affirme que le M5 exécute les modèles d'IA près de 30 % plus rapidement que le M4

Apple est positionnement le nouveau MacBook Pro alimenté par M5 en tant que machine beaucoup plus performante pour exécuter et expérimenter de grands modèles de langage, grâce aux mises à niveau de son framework MLX et des accélérateurs neuronaux GPU intégrés à la puce. Pour les chercheurs et les développeurs qui préfèrent de plus en plus travailler directement sur le matériel Apple Silicon, la société présente la gamme M5 comme une avancée significative en matière de performances d’inférence sur l’appareil, en particulier pour les LLM et autres charges de travail dominées par les opérations matricielles. Au centre de cet effort se trouve MLX, le framework de baies open source d’Apple conçu spécifiquement pour son architecture de mémoire unifiée. MLX fournit une interface de type NumPy pour le calcul numérique, prend en charge à la fois la formation et l’inférence pour les réseaux neuronaux et permet aux développeurs de passer de manière transparente entre l’exécution du CPU et du GPU sans déplacer les données entre différents pools de mémoire. Il fonctionne sur tous les systèmes Apple Silicon, mais la dernière version bêta de macOS débloque une nouvelle couche d’accélération en exploitant les unités de multiplication matricielle dédiées à l’intérieur du GPU du M5. Ces accélérateurs neuronaux sont exposés via TensorOps dans Metal 4 et donnent à MLX un accès à des performances qui, selon Apple, sont cruciales pour les charges de travail dominées par de grandes multiplications de tenseurs. Au-dessus de MLX se trouve MLX LM, un package de génération et de réglage de texte qui prend en charge la plupart des modèles linguistiques hébergés sur Hugging Face. Les utilisateurs peuvent l’installer via pip, lancer des sessions de discussion depuis le terminal et quantifier les modèles directement sur l’appareil. La quantification est une fonctionnalité essentielle : la conversion d’un modèle Mistral à paramètres 7B en 4 bits ne prend que quelques secondes, ce qui réduit considérablement les besoins en mémoire tout en préservant la convivialité sur les machines grand public.

Image : Pomme

Pour présenter les gains du M5, Apple a comparé plusieurs modèles, notamment les Qwen 1.7B et 8B (BF16), les Qwen 8B et 14B quantifiés sur 4 bits et deux architectures mixtes d’experts : Qwen 30B (3B actif) et GPT-OSS 20B (MXFP4). Les résultats se concentrent sur le délai d’obtention du premier jeton (TTFT) et la vitesse de génération lors de la production de 128 jetons supplémentaires à partir d’une invite de 4 096 jetons. Les accélérateurs neuronaux du M5 améliorent considérablement le TTFT, réduisant l’attente à moins de 10 secondes pour un modèle 14B dense et à moins de 3 secondes pour un MoE 30B. Apple rapporte des accélérations TTFT comprises entre 3,3x et 4x par rapport à la génération M4 précédente. La génération ultérieure de jetons, qui est limitée par la bande passante mémoire plutôt que par le calcul, enregistre des gains plus faibles mais constants d’environ 19 à 27 %, alignés sur l’augmentation de 28 % de la bande passante du M5 (153 Go/s contre 120 Go/s sur le M4). Les tests mettent également en évidence à quel point la capacité du modèle s’intègre facilement dans la mémoire unifiée. Un MacBook Pro de 24 Go peut héberger un modèle 8B en BF16 ou un MoE 30B en 4 bits avec une marge disponible, gardant l’utilisation totale inférieure à 18 Go dans les deux cas. Apple affirme que les mêmes avantages de l’accélérateur s’étendent au-delà des modèles linguistiques. Par exemple, générer une image 1024×1024 avec FLUX-dev-4bit (paramètres 12B) s’exécute plus de 3,8 fois plus rapidement sur un M5 que sur un M4. Alors que MLX continue d’ajouter des fonctionnalités et d’élargir la prise en charge des modèles, la société parie qu’un plus grand nombre de chercheurs en ML traiteront le silicium Apple non seulement comme un environnement de développement, mais aussi comme une plate-forme d’inférence et d’expérimentation viable.

Crédit image en vedette