Meta abandonne SAM 3 et SAM 3D pour transformer les invites textuelles en modifications visuelles précises

Métaplateformes annoncé SAM 3 et SAM 3D, nouveaux modèles de vision par ordinateur open source de sa collection Segment Anything, qui permettent la détection d’objets basés sur du texte et la reconstruction tridimensionnelle pour prendre en charge les processus de montage vidéo et de création de contenu. Ces modèles diffèrent des versions précédentes de la collection en permettant la détection et la segmentation des objets via des invites en langage naturel plutôt que des méthodes de sélection manuelle. Par exemple, SAM 3 identifie chaque occurrence d’objets correspondant à des descriptions telles que « bus scolaire jaune » ou « personnes assises, mais ne portant pas de casquette de baseball rouge », comme détaillé dans l’annonce de Meta. Cette fonctionnalité s’étend aux requêtes complexes qui spécifient des exclusions ou des conditions, facilitant ainsi un ciblage précis dans le contenu visuel. SAM 3D se concentre sur la génération de représentations tridimensionnelles d’objets, d’individus et de scènes entières dérivées d’images bidimensionnelles individuelles. Une telle reconstruction fournit des informations de profondeur et spatiales qui n’étaient auparavant pas disponibles à partir de photos statiques, permettant ainsi des applications nécessitant une compréhension volumétrique. Les mesures de performances de SAM 3 incluent un score de précision moyen du masque zéro tir de 47,0 sur le benchmark LVIS, ce qui montre une augmentation de 22 % par rapport aux systèmes précédents, sur la base des résultats du document de recherche de Meta. Le modèle fonctionne à une vitesse d’environ 30 millisecondes par image lors de l’utilisation des GPU H200 et gère plus de 100 objets à la fois, prenant en charge le traitement en temps réel dans des scénarios exigeants. « SAM 3 surmonte cette limitation, acceptant une gamme beaucoup plus large d’invites textuelles », a déclaré Meta dans son annonce. Pour aider les développeurs, Meta a collaboré avec Roboflow, fournissant des outils d’annotation des données, de réglage fin des modèles et de déploiement adaptés à des cas d’utilisation particuliers. Ce partenariat rationalise la personnalisation pour les industries qui s’appuient sur la vision par ordinateur. L’accès aux deux modèles s’effectue via la plateforme Segment Anything Playground développée par Meta, conçue pour les utilisateurs sans compétences techniques avancées. Meta met à disposition les poids du modèle pour SAM 3, ainsi que les critères d’évaluation et les documents de recherche associés. Pour SAM 3D, la société partage spécifiquement les points de contrôle du modèle et le code d’inférence avec les membres de la communauté de recherche, favorisant ainsi le développement académique et expérimental. Dans les implémentations pratiques, SAM 3 s’intègre à l’application de création vidéo Edits de Meta et à la plateforme Vibes, où il génère des effets qui permettent de modifier les objets désignés dans les vidéos. Les créateurs peuvent ainsi éditer les éléments de manière sélective sans affecter le contenu environnant. Par ailleurs, SAM 3D prend en charge la fonctionnalité « View in Room » sur Facebook Marketplace, permettant aux acheteurs de placer des représentations virtuelles de meubles et d’objets de décoration dans leur propre environnement pour un aperçu avant l’acquisition.

Crédit image en vedette

No Result