La montée de Ml Transforme la façon dont les appareils interagissent avec le monde, repoussant les limites de ce qui est possible avec les ressources limitées. Ces applications, des vêtements intelligents aux capteurs industriels, exigent un équilibre délicat entre les performances, la consommation d’énergie et la vie privée.
Vladislav Agafonov, un expert en apprentissage automatique à Meta Reality Labs UK (anciennement Oculus VR), comprend intimement ces défis.
« L’apprentissage automatique intégré est à la fois fascinant et stimulant parce que nous exécutons des modèles d’apprentissage en profondeur sur des appareils avec une mémoire très limitée et une puissance de processeur », a déclaré Agafonov.
Selon Agafonov, l’un des défis les plus persistants est d’optimiser les modèles pour les appareils avec une puissance et une mémoire de calcul contraints.
« Le défi le plus persistant est d’équilibrer la précision du modèle avec une mémoire limitée sur puce et une puissance de traitement contrainte », a déclaré Agafonov.
Pour y remédier, des techniques comme la quantification et l’élagage sont cruciales. La quantification réduit le nombre de bits utilisés pour stocker les poids du modèle, souvent de 32 bits à 8 ou moins, réduisant considérablement l’utilisation de la mémoire. L’élagage, en revanche, supprime les connexions inutiles dans le réseau, réduisant la taille du modèle et accélérant l’inférence.
« Je fais également attention à l’opération Fusion, ce qui signifie fusionner plusieurs étapes dans le calcul pour éviter de stocker de gros résultats intermédiaires dans la mémoire », a déclaré Agafonov. « De même, l’utilisation d’accès à la mémoire directe (DMA) peut permettre aux données des capteurs de circuler directement dans le moteur de calcul sans copies supplémentaires, aidant à réduire la latence. »
En profilant méticuleusement chaque étape, en mesurant les cycles, en passant l’empreinte de la mémoire et en consommation d’énergie, les ingénieurs peuvent optimiser où il compte le plus, ajustant les modèles sophistiqués dans quelques centaines de kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo-kilo.
Accélération matérielle et optimisation des logiciels
L’accélération matérielle est un autre composant essentiel de la ML intégrée. Des puces spécialisées comme les unités de traitement neuronal (NPU) et les unités de traitement du tenseur (TPU) gèrent le traitement parallèle, accélérant considérablement l’inférence du réseau neuronal tout en minimisant la consommation d’énergie.
« L’accélération du matériel est absolument essentielle pour exécuter des modèles ML sophistiqués sur des appareils intégrés », a déclaré Agafonov. « Mais à mesure que ces puces évoluent, l’optimisation des logiciels reste tout aussi importante. »
Des cadres comme Executorch visent à simplifier le processus de développement en gérant les détails de bas niveau, tels que le mappage des charges de travail vers différents accélérateurs et la gestion efficace de la mémoire.
« Au lieu de passer des heures à essayer d’optimiser à la main chaque partie de votre code pour chaque nouvelle puce, vous pouvez compter sur le cadre pour faire le gros du travail », a déclaré Agafonov.
Cela permet aux développeurs de se concentrer sur les modèles d’apprentissage automatique eux-mêmes, plutôt que sur les subtilités de l’optimisation matérielle.
Confidentialité et apprentissage fédéré
La confidentialité est une préoccupation croissante, et Embedded ML offre l’avantage du traitement des données locales.
« L’une des grandes raisons pour lesquelles la ML intégrée est si précieuse est que les données peuvent être traitées directement sur l’appareil, ce qui réduit ou même élimine la nécessité d’envoyer des informations sensibles sur un réseau », a déclaré Agafonov.
L’apprentissage fédéré va plus loin, permettant aux appareils de former des modèles localement et de ne partager que des mises à jour agrégées avec un serveur central.
« Au lieu de rassembler les données de chacun dans une base de données centrale, chaque appareil forme le modèle indépendamment en utilisant ses propres informations locales », a déclaré Agafonov. «Ensuite, il ne renvoie qu’une« mise à jour »ou un résumé de ce qu’il a appris – pas les données brutes elle-même.»
Cette approche améliore la confidentialité en empêchant la transmission de données d’utilisateurs brutes, particulièrement importantes dans des applications sensibles comme la santé et les appareils portables personnels.
La montée de Tinyml
TinyMl, l’application de l’apprentissage automatique sur des appareils extrêmement liés aux ressources comme les microcontrôleurs, prend de l’ampleur.
« Pensez à une petite puce avec seulement quelques centaines de kilobytes de mémoire qui doivent encore gérer des tâches comme la classification ou la détection sans drainage de batterie dans le processus », a déclaré Agafonov.
Des applications telles que la surveillance environnementale et la maintenance prédictive industrielle sont des exemples principaux.
« Les petits capteurs alimentés par batterie peuvent détecter des sons animaux spécifiques ou des changements de qualité de l’air, puis transmettre des alertes significatives sans gaspiller de puissance sur le streaming de données constant », a déclaré Agafonov. «Dans l’industrie, les microcontrôleurs peuvent détecter les premiers signes de défaillance des machines en surveillant les vibrations ou les pics de température, ce qui contribue à prévenir les pannes coûteuses.»
La croissance de TinyML est tirée par les progrès du matériel et des logiciels. Les microcontrôleurs incluent désormais des blocs de traitement spécialisés et les cadres ML légers simplifient l’optimisation et le déploiement du modèle.
Expériences immersives et tendances futures
Chez Meta Reality Labs, le ML intégré est utilisé pour améliorer les expériences immersives.
« Nous tirons parti de la ML intégrée pour rendre les expériences immersives plus naturelles et réactives – pensez à une reconnaissance des gestes rapide sur un bracelet qui vous permet de contrôler les interfaces AR ou VR sans contrôleurs volumineux », a déclaré Agafonov.
Cependant, des problèmes techniques demeurent. « Un obstacle important est d’équilibrer la consommation d’énergie avec la nécessité d’une inférence presque instante », a déclaré Agafonov. «Un autre garantit que les modèles restent précis dans toutes les conditions.»
Pour l’avenir, Agafonov voit plusieurs tendances clés façonner l’avenir de la ML intégrée. L’adoption croissante des microcontrôleurs compatibles TinyML et ML, l’expansion de l’accélération matérielle avec des puces ML spécialisées, et l’utilisation croissante de l’apprentissage fédéré pour le traitement des données préservant la confidentialité sont tous prêts à stimuler l’innovation dans ce domaine.
Alors que le ML intégré continue d’évoluer, la capacité d’équilibrer la puissance, la vie privée et les performances sera cruciale pour débloquer son plein potentiel.