On pourrait penser que prédire les taux de mortalité par la démence ou la cartographie du bruit de la ville nécessiterait des équipes d’experts, des enquêtes au sol et des entreprises d’imagerie par satellite. Mais un nouveau modèle d’IA – développé par chercheurs À l’Université de Jiaotong de Pékin et à l’Université de Montréal – il peut faire tout cela à la fois, juste en regardant les cartes, les tweets et les images. Le système est appelé Omnigéeet si la recherche est à la hauteur de sa promesse, elle pourrait redéfinir la façon dont nous lisons les villes, les catastrophes et les environnements humains en temps réel.
Pourquoi le décodage des données géospatiales est si difficile
Geoai – short pour l’intelligence artificielle géospatiale – a toujours été un jeu délicat. Pensez-y de cette façon: c’est comme essayer de comprendre une ville en lisant cinq langues à la fois. Vous avez des images satellites, des photos au niveau de la rue, des statistiques de santé publique, des tweets pleins d’argot et de hashtags et des données de localisation de milliers d’endroits épinglés. Chacun de ces types de données parle un dialecte différent et la plupart des systèmes d’IA aujourd’hui ne parlent que couramment un ou deux.
Les modèles existants peuvent être bons pour classer les images de télédétection ou les emplacements de marquage dans le texte, mais lorsque vous jetez toutes ces tâches dans un seul pot, les choses s’effondrent. C’est là que Omnigeo intervient: c’est un seul système d’IA formé pour les gérer tous.
L’équipe derrière Omnigeo a conçu un Modèle multimodal grand langage (MLLM)—Une sorte d’IA qui peut interpréter les images satellites, les métadonnées géospatiales et le langage naturel à la fois. Il est basé sur des modèles open source comme Llava et Qwen2, mais il est affiné pour cinq domaines de base: géographie de la santé, géographie urbaine, télédétection, perception urbaine et sémantique géospatiale.
Au lieu de construire un modèle pour chaque tâche, Omnigeo les gère tous simultanément. Le secret? L’apprentissage basé sur l’instruction associé à ce que les chercheurs appellent «le réglage fin multimodal». En termes simples, il apprend des paires de caption d’image, des données de série temporelle, des vecteurs spatiaux, et plus encore – tous alignés autour des mêmes emplacements.
Parlons des applications du monde réel
Voici où les choses deviennent intéressantes. Omnigeo a été formé à:
- Prévoir les taux de mortalité liés à la démence au niveau du comté à l’aide de données historiques et d’images satellites.
- Détecter la fonction principale des quartiers urbains – comme si une zone est dominée par les écoles ou les bureaux commerciaux – basée sur les données au niveau de la rue et le POI (point d’intérêt).
- Évaluez à quel point une rue est «bruyante» ou «vivante», basée uniquement sur des images et des légendes associées.
- Les descriptions de l’emplacement d’analyse dans les tweets lors de catastrophes naturelles, comme extraire «21719 Grand Hollow Lane, Katy, TX» d’une demande de sauvetage des inondations.
Ce dernier cas d’utilisation seul est suffisant pour faire allusion au potentiel de ce modèle en matière d’intervention d’urgence et de gestion des villes intelligentes.
Comment Omnigeo voit le monde
Techniquement parlant, Omnigeo fonctionne en convertissant les données géographiques en récits lisibles. Par exemple, les images satellites sont transformées en légendes du langage naturel («zones vertes avec des zones industrielles clairsemées»), puis alignées sur des données structurées comme les taux de mortalité ou les distributions POI. Tout cela est enveloppé dans un ensemble de données d’instructions, permettant au modèle d’apprendre dans son contexte, comme le ferait un humain.
Ce n’est pas seulement théorique. Omnigeo a surperformé le GPT-4O et d’autres modèles de premier plan dans les tâches géospatiales clés, y compris Classification des scènes, Reconnaissance de l’emplacementet Prédiction de la fonction urbaine. Dans certains cas, il a réduit les taux d’erreur de plus de la moitié. Même dans des zones subjectives comme la perception urbaine – comment «belle» ou «déprimant» une rue – cela s’est avéré impressionnant.
Pourquoi maintenant?
Les villes deviennent plus difficiles à gérer et plus faciles à surveiller. Avec les événements climatiques, les booms de la population et les crises de santé publique qui frappent tout en une seule fois, les décideurs ont besoin d’outils plus rapides pour interpréter le chaos géospatial. Omnigeo arrive à un moment où l’IA est enfin capable d’absorber des données de haute dimension entre les formats.
La différence? La plupart des grands modèles parlent aujourd’hui. Omnigeo voit, entend et comprend l’espace.
Omnigeo est un plan pour ce à quoi pourrait ressembler à la future IA géospatiale: un système formé à travers les modalités, aligné sur les entrées du monde réel et prête à généraliser.
Si le chatppt est votre assistant linguistique, Omnigeo pourrait être le prochain cerveau d’urgence de votre ville– Transporter le chaos visuel et l’encombrement de l’emplacement dans des informations réelles et exploitables.
Et il fait tout sans jamais sortir.
Crédit d’image en vedette: Kerem Gülen / Midjourney