Le changement urbain se faufile généralement sur nous. Un nouveau café ici. Un viaduc peint là-bas. Mais que se passe-t-il si vous pouviez voir une décennie entière de transformation visuelle d’une ville, automatiquement capturée, triée et expliquée par l’IA?
C’est exactement ce qu’un nouveau projet de recherche a appelé Chroniques visuelles dispenser à faire. Développé par chercheurs De Stanford et Google Deepmind, ce système a utilisé des modèles multimodaux de grande langue (MLLMS) pour analyser plus de 40 millions d’images Google Street View de New York et de San Francisco. Il a repéré les tendances que les humains ne le remarqueraient pas facilement.
Le problème de l’échelle impossible
Le suivi de petits changements au fil du temps n’est rien de nouveau dans la vision par ordinateur. Mais la plupart des travaux antérieurs avaient besoin d’étiquettes ou se sont concentrés sur des choses spécifiques comme les voitures ou les visages. Ce projet était différent. L’objectif était ouvert: qu’est-ce qui a changé le plus souvent dans ces villes, sur une décennie?
Question simple. Brutalement dur dans la pratique.
Les grands modèles de langage sont bons pour raisonner sur les images, mais ils luttent lorsque l’ensemble de données augmente au-delà de quelques milliers d’images. Visual Chronicles avait affaire à des millions. Les chercheurs ont donc conçu une stratégie ascendante. Tout d’abord, détectez de minuscules changements locaux comme un nouveau panneau ou un arbre supprimé. Ensuite, regroupés dans des tendances plus larges à l’échelle de la ville.
Le détective de l’IA
Voici comment cela a fonctionné en action:
- Étape 1: Comparez les images du même endroit au fil du temps.
- Étape 2: Demandez à l’IA de décrire ce qui a changé, avec des preuves des images.
- Étape 3: Groupes de changements similaires trouvés dans toute la ville.
- Étape 4: Vérifiez ces tendances avec d’autres contrôles d’IA.
Cette approche hybride a permis au système de détecter des changements subtils. Configuration de restauration en plein air après Covid-19. Nouveaux panneaux solaires sur les toits. Tous ont été repérés sans noyade dans les données ou générer des réponses abstraites comme la «croissance économique».
Alors qu’est-ce que ça a trouvé?
À New York, l’IA a repéré une augmentation spectaculaire:
- Caméras de sécurité: 745 nouvelles installations dans les quartiers.
- Fences autour des parkings: 509 nouveaux ajouts.
- Mises à niveau du trottoir: 519 Nouveaux coussinets d’avertissement ADA rouges.
À San Francisco, les tendances signature de la décennie semblaient différentes:
- Panneaux solaires: 1504 nouvelles installations sur le toit, en particulier visibles à partir des autoroutes surélevées.
- Lanes de bus dédiées: 751 Conversions de nouvelles voies pour les transports publics.
- Racks à vélos: 1799 nouveaux racks, principalement près du centre-ville.
Les années covidés ont laissé des empreintes digitales visuelles partout
Les chercheurs se sont également concentrés sur la période pandémique, capturant comment les rues de la ville se sont adaptées après 2020. Les repas en plein air ont explosé à San Francisco, avec 1482 nouvelles configurations enregistrées entre 2020 et 2022 seulement.
Et puis il y avait le viaduc bleu. Une section d’autoroute à San Francisco a été peinte «Coronado Blue», un détail repéré 481 fois dans les images Street View après 2020.
À New York, le système a également été utilisé pour suivre les changements de magasin de détail. Il a révélé deux tendances opposées:
- Ouvertures de boulangeries et de jus de jus dans les zones gentrifiantes.
- Fermetures des épiceries et des succursales bancaires dans les zones de vente au détail plus anciennes.
Parce que pourquoi pas. Les chercheurs ont organisé une dernière expérience, demandant à l’IA de regarder des images aléatoires et de trouver des «choses inhabituelles».
Le gagnant? Sculptures abstraites géantes disséminées à travers New York. Plus de 200 instances d’installations artistiques publiques, toutes regroupées par le modèle.
Les modèles d’IA font-ils confiance à leurs régulateurs?
Pourquoi cela compte bien au-delà de Street View
Visual Chronicles montre comment les futurs outils d’IA pourraient permettre aux entreprises, aux gouvernements ou aux chercheurs de suivre les changements dans tout ensemble de données visuelles importantes. Images satellites. Planchers d’usine. Tout endroit qui change avec le temps.
C’est aussi un avertissement. L’IA ne se contente pas de «voir» des images. Cela nous explique de manière à façonner ce que nous croyons se produire. Plus nous faisons confiance à ces rapports de tendance automatisés, plus nous avons besoin de systèmes qui équilibrent la vitesse de l’IA avec la prudence humaine.
Visual Chronicles est un premier exemple de ce type de système. Il est assez précis pour trouver des modèles réels, suffisamment évolutifs pour gérer des millions d’images et suffisamment ancré pour laisser la narration appuyée par des preuves.