Lorsqu’un chien aboie dans un jouet grincement ou un mécanicien cesse soudainement de parler au milieu de la phrase, vous n’avez pas besoin d’un doctorat en sciences cognitives pour comprendre ce qui se passe – vous regardez, écoutez et comprenez. Mais pour les modèles d’IA multimodaux, ce simple réflexe humain reste étonnamment difficile à reproduire. Malgré tout le battage médiatique récent autour des modèles «frontières» comme GPT-4O et Gemini 1.5 Pro, la plupart d’entre eux échappent encore lorsqu’ils sont obligés de synthétiser vraiment ce qu’ils voient et entendre. C’est exactement le problème que Maverix essaie de résoudre.
Où les benchmarks échouent – et Maverix intervient
Les principaux références multimodales d’aujourd’hui pourraient affirmer qu’ils testent le raisonnement réel, mais beaucoup d’entre eux trichent. Ils récompensent les modèles qui peuvent se débrouiller avec une vision uniquement ou simplement des transcriptions de texte, au lieu de les forcer à intégrer plusieurs sens comme le font les humains. Mavertime (L’indice du raisonnement d’évaluation audiovisuel multimodal) est une nouvelle référence qui augmente enfin la barre en nécessitant un raisonnement audiovisuel étroitement couplé sur 700 vidéos et plus de 2 500 questions.
Considérez-le comme un cours intensif dans le bon sens pour l’IA: si vous entendez un bourdonnement et voyez une abeille près de la caméra, vous devriez probablement exclure le «dispositif mécanique hors écran». Mais Maverix ne se contente pas de motifs à la main quelques puzzles faciles. Il est livré avec des questions à choix multiples à huit options (pour tuer la conjecture) et des invites ouvertes (pour tester la véritable compréhension), poussant des modèles au-delà de la reconnaissance des modèles en coordination cognitive complète.
Questions réelles, vraie complexité humaine
Les questions de Maverix sont conçues comme des tests psychologiques de Rorschach pour les machines – le raisonnement causal de la couverture, l’inférence émotionnelle, la conscience spatiale et le contexte dynamique. Imaginez une vidéo de deux personnes qui se disputent. Se battent-ils pour de vrai, agissent dans un film ou imitent simplement la lutte contre la WWE pour rire? Cette réponse pourrait dépendre de la gifle et La piste de rire. Vous devez voir et entendre pour comprendre.
Pour que tout cela fonctionne, l’équipe Maverix a construit un pipeline méticuleux qui mélange l’expertise humaine avec la validation de l’IA. Chaque vidéo est livrée avec des sous-titres, des sons catégorisés (discours, de la musique, du bruit naturel) et des images clés annotées. Chaque question est vérifiée pour garantir que les raccourcis unimodaux – comme simplement lire les sous-titres – ne le coupent pas. Si un modèle pouvait répondre sans utiliser les deux modalités, la question est réécrite ou lancée.
Alors, dans quelle mesure les AIS d’aujourd’hui se produisent-ils réellement?
Pas génial. Même avec l’accès direct à l’audio et à la vidéo, le meilleur interprète – Gemini 1.5 Pro – a élaboré une précision d’environ 71,9%. C’est proche des humains, mais toujours en retard. Les humains, avec une entrée audiovisuelle complète, sont à plus de 80%. Mais voici le botteur: certains modèles open source se fissurent à peine 30%. Et lorsque vous déposez l’audio ou la vidéo, les performances tombent comme un micro.
Dans les tâches ouvertes où les modèles doivent générer leurs propres explications, les choses deviennent plus désordonnées. Le modèle moyen n’a marqué que 1,9 sur 5 dans la cohérence et le raisonnement jugés par GPT-4O. Les humains ont marqué 2,79. Cet écart s’élargit encore plus lorsque les tâches impliquent des indices émotionnels complexes ou des événements hors écran, comme deviner pourquoi une foule déplace des tables lors d’un jeu de poker ou si deux danseurs se battent ou répétent simplement.
Tous les modèles ne luttent pas de la même manière
L’une des contributions les plus révélatrices de Maverix est la façon dont il expose les différents modèles réellement compter sur. Les Gémeaux fonctionnent mieux lorsqu’ils donnent un audio brut, tandis que la plupart des autres modèles font mieux avec les sous-titres. Cela en dit long sur ce qui se passe sous le capot – certains modèles «écoutent», d’autres «lisent». Mais aucun ne correspond à la perception au niveau humain à tous les niveaux.
Fait intéressant, les tâches comme le shopping – où les données factuelles structurées sont importantes – se trouvent où les machines brillent. Mais pour les commentaires sportifs, la stratégie de jeu ou l’interprétation des émotions humaines? Les humains les écrasent. Ces lacunes montrent que l’IA actuelle est bien meilleure dans la numérisation des catalogues que l’analyse des nuances sociales ou du contexte qui évolue au fil du temps.
Les niveaux de difficulté comptent, tout comme la modalité
Les tâches faciles ont donné le plus grand coup de pouce des entrées multimodales – suggérant que certains modèles utilisent l’audio et la vidéo pour affiner les réponses évidentes. Mais lorsque les questions sont devenues plus difficiles, de nombreux modèles se sont fortement appuyés sur la vision et ont ignoré l’audio. Claude 3.5 Sonnet, par exemple, s’est amélioré de 41,5% sur des vidéos faciles avec entrée multimodale, mais seulement 17% sur les plus dures.
Cela met en évidence un problème plus profond: la plupart des modèles ne fusionnent pas vraiment les modalités. Ils les empilent. Vous pouvez leur donner à la fois audio et vidéo, mais à moins que le modèle besoins Les deux pour résoudre la tâche, il choisira un favori. Maverix vise à changer cela en concevant des questions qui exigent une véritable fusion – où la réponse dépend de l’interaction entre le son et la vue.
Pour combler l’écart de performance, nous aurons besoin de meilleures architectures qui traitent l’audio comme plus qu’une réflexion après coup. Nous aurons besoin de nouvelles stratégies de formation qui récompensent la compréhension synchronisée plutôt que des prédictions isolées. Et surtout, nous avons besoin de repères comme Maverix qui ne se contentent pas de ce qui est facile à mesurer, mais posez les questions difficiles sur la façon dont les machines comprendre.
Ainsi, la prochaine fois que votre assistant AI gâche une commande simple ou mal lu un ton, n’oubliez pas: ce n’est peut-être pas sourd – il n’a tout simplement pas réussi le test Maverix.