Chercheurs Apple a publié une étude détaillant comment les grands modèles de langage (LLM) peuvent interpréter les données audio et de mouvement pour identifier les activités des utilisateurs, en se concentrant sur la fusion tardive de capteurs multimodaux pour la reconnaissance d’activité. L’article, intitulé « Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition », par Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren et Jaya Narain, a été accepté lors de l’atelier Learning from Time Series for Health à NeurIPS 2025. Cette recherche explore l’intégration de l’analyse LLM avec les données de capteurs traditionnels pour améliorer la classification des activités. Les chercheurs déclarent : « Les flux de données des capteurs fournissent des informations précieuses sur les activités et le contexte pour les applications en aval, bien que l’intégration d’informations complémentaires puisse être difficile. Nous montrons que les grands modèles de langage (LLM) peuvent être utilisés pour une fusion tardive pour la classification des activités à partir de données de séries temporelles audio et de mouvement. Ils ont organisé un sous-ensemble de données pour la reconnaissance de diverses activités à partir de l’ensemble de données Ego4D, englobant les activités domestiques et les sports. Les LLM évalués ont obtenu des scores F1 de classe zéro et one-shot de 12 classes nettement supérieurs au hasard, sans formation spécifique à la tâche. La classification sans tir grâce à la fusion basée sur LLM à partir de modèles spécifiques à une modalité permet des applications temporelles multimodales avec des données de formation alignées limitées pour un espace d’intégration partagé. La fusion basée sur LLM permet le déploiement de modèles sans nécessiter de mémoire ni de calcul supplémentaires pour les modèles multimodaux spécifiques à une application ciblée. L’étude met en évidence la capacité des LLM à déduire les activités des utilisateurs à partir de signaux audio et de mouvement de base, démontrant une précision améliorée avec un seul exemple. Surtout, le LLM n’était pas directement alimenté en audio brut. Au lieu de cela, il a reçu de courtes descriptions textuelles générées par des modèles audio et un modèle de mouvement basé sur l’IMU, qui suit le mouvement via les données de l’accéléromètre et du gyroscope. Pour l’étude, les chercheurs ont utilisé Ego4D, un ensemble de données contenant des milliers d’heures de médias en perspective à la première personne. Ils ont organisé un ensemble de données sur les activités quotidiennes d’Ego4D en recherchant des descriptions narratives. L’ensemble de données organisé comprend des échantillons de 20 secondes provenant de douze activités de haut niveau : ces activités ont été choisies pour couvrir les tâches ménagères et de remise en forme et en fonction de leur prévalence dans l’ensemble de données plus vaste d’Ego4D. Les données audio et de mouvement ont été traitées via des modèles plus petits pour générer des légendes de texte et des prédictions de classe. Ces résultats ont ensuite été introduits dans différents LLM, en particulier Gemini-2.5-pro et Qwen-32B, pour évaluer la précision de l’identification des activités. Apple a comparé les performances des modèles dans deux scénarios : un test fermé dans lequel les modèles choisissaient parmi les 12 activités prédéfinies et un test ouvert sans options fournies. Diverses combinaisons de légendes audio, d’étiquettes audio, de données de prédiction d’activité IMU et de contexte supplémentaire ont été utilisées pour chaque test. Les chercheurs ont noté que les résultats offrent des perspectives sur la combinaison de plusieurs modèles de données sur l’activité et la santé. Cette approche est particulièrement bénéfique lorsque les données brutes des capteurs ne suffisent pas à elles seules à fournir une image claire de l’activité de l’utilisateur. Apple a également publié des documents supplémentaires, notamment des identifiants de segment Ego4D, des horodatages, des invites et des exemples ponctuels, pour faciliter la reproductibilité pour d’autres chercheurs.





