Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Apple Research Paper dévoile Matrix3D pour la génération de contenu 3D

byAytun Çelebi
mai 14, 2025
in Research
Home Research

La photogrammétrie est depuis longtemps un incontournable de la reconstruction de la scène 3D, mais son pipeline traditionnel, ses exigences d’image dense, ses étapes de traitement déconnectées et son erreur cumulative, a été un goulot d’étranglement tenace. Le nouveau modèle Matrix3D d’Appledétaillé dans un récemment publié document de rechercheprésente un cadre unifié conçu pour éliminer ces barrières en intégrant plusieurs tâches de photogrammétrie en un seul système génératif.

Contrairement aux flux de travail de photogrammétrie traditionnels, qui reposent sur des outils distincts pour l’estimation de la pose, la prédiction de la profondeur et la synthèse de la vue nouvelle, Matrix3D gère toutes ces fonctions dans un seul modèle. Ce changement est plus qu’une consolidation technique. Il représente une évolution philosophique vers des systèmes adaptables de bout en bout capables de s’attaquer à la reconstruction 3D avec une entrée minimale, parfois même à partir d’une seule image.

Une approche tout-en-un de la photogrammétrie

Matrix3d ​​est construit sur un Transformateur de diffusion multimodal (DIT) Architecture. Cela signifie qu’il n’apprend pas seulement des images RVB, mais aussi des cartes de profondeur et des poses de caméra, toutes codées dans une représentation 2D unifiée. Par exemple, il convertit la géométrie 3D en cartes de profondeur 2.5D et représente les informations de la caméra à l’aide de cartes Ray Plücker. Cette conception lui permet d’appliquer des techniques, des modèles d’image génératifs modernes à la génération 3D multi-visualités.

Le modèle fonctionne en apprenant à prédire les modalités manquantes à partir des entrées masquées. Pendant la formation, Matrix3D est exposé à des ensembles de données partiellement complets – certaines avec des paires de pose d’image, d’autres avec des paires d’image. La stratégie de masquage élargit considérablement le pool de formation utilisable et enseigne le modèle à généraliser entre les configurations d’entrée. En supprimant la dépendance des ensembles de données complets, il améliore également la robustesse du modèle dans les applications pratiques et réelles.

Apple Research Paper dévoile Matrix3D pour la génération de contenu 3D
(Crédit d’image)

Performance entre les tâches

Les chercheurs d’Apple ont comparé Matrix3D sur plusieurs ensembles de données, y compris CO3D, DTU et GSO. Pour l’estimation de la pose dans des conditions d’entrée clairsemées, Matrix3D a surperformé des modèles de pointe tels que Raydiffusion et Dust3R. Sa capacité à estimer les poses de caméra à partir de deux ou trois images s’est avérée supérieure à la fois en rotation et en précision de traduction.

Dans la synthèse de New View, le modèle a atteint des scores PSNR et SSIM compétitifs sur diverses configurations de caméras. Lorsqu’il est testé contre les systèmes de premier plan comme Syncrémateur, Wonder3det Zéro123xl, Matrix3D a systématiquement fourni des résultats de fidélité supérieure. L’ajout de cartes de profondeur a amélioré ces mesures, présentant la force de sa manipulation de modalité hybride.

Pour une estimation de la profondeur, Matrix3D a prouvé à nouveau son adaptabilité. Même si le modèle a été formé sur plusieurs vues, il a bien fonctionné dans les tâches monoculaires, dépassant les modèles de profondeur spécialisés comme Metric3D v2 et profondeur tout ce qui est V2. Cela était particulièrement évident dans les scènes complexes de l’ensemble de données DTU, où Matrix3D a produit une erreur relative inférieure et des scores de déviation quadratique moyenne.

Apple Research Paper dévoile Matrix3D pour la génération de contenu 3D
(Crédit d’image)

L’une des fonctionnalités remarquables de Matrix3D est son Capacité à reconstruire la géométrie 3D à partir d’entrées extrêmement limitées. Le modèle peut commencer à partir d’une seule image, estimer les poses de caméra et les cartes de profondeur manquantes et synthétiser des vues supplémentaires nécessaires pour initialiser un pipeline d’éclaboration gaussienne 3D (3DGS). Ces étapes nécessitaient auparavant des outils séparés ou des données d’entrée étendues. Maintenant, ils peuvent être exécutés dans un cadre unifié qui simplifie l’ensemble du processus de reconstruction.

Avec Matrix3D, même les ensembles d’images clairsemés non plus élevés deviennent viables pour la reconstruction 3D. Le modèle estime de manière autonome la pose, remplit les vues manquantes et prépare l’entrée pour les moteurs de rendu. Ses résultats ont été validés contre les références et les comparaisons visuelles, montrant une précision prometteuse malgré le fonctionnement avec moins de ressources que les méthodes concurrentes. Matrix3D fournit des résultats comparables aux systèmes multi-GPU comme Cat3D tout en fonctionnant efficacement sur un seul GPU.

Apple Research Paper dévoile Matrix3D pour la génération de contenu 3D
(Crédit d’image)

Dans les tâches hybrides, Matrix3D est positionné uniquement. Il peut ingérer des combinaisons arbitraires d’entrées RVB, de pose et de profondeur, et générer les sorties correspondantes sans avoir besoin de recyclage ou de changements architecturaux. Cette capacité ouvre des portes pour une application plus large dans la conception 3D interactive, la génération de contenu AR / VR et la numérisation d’environnement en temps réel.

  • QuantitativementMatrix3D définit de nouveaux repères dans plusieurs tâches de photogrammétrie. Dans l’estimation de la pose, il atteint plus de 96% de la précision de rotation relative avec seulement deux vues. Pour la synthèse de la vue nouvelle, il fournit des scores SSIM et PSNR supérieurs sur plusieurs configurations. En profondeur, il enregistre des erreurs relatives absolues plus faibles et des ratios inlantes plus élevés par rapport aux lignes de base spécialisées.
  • Qualitativementles améliorations sont tout aussi frappantes. Les sorties visuelles montrent une géométrie plus crêpente, moins d’artefacts et une meilleure cohérence entre les points de vue. Par rapport aux modèles antérieurs, Matrix3D offre des rendus stables même sous des contraintes d’entrée difficiles. Cela renforce l’utilité des pipelines de photogrammétrie unifiées basées sur la diffusion comme la prochaine frontière de la génération 3D.

Crédit d’image en vedette

Tags: Matrix3dPomme

Related Posts

Les outils de recherche sur l’IA pourraient créer plus de problèmes qu’ils ne résolvent

Les outils de recherche sur l’IA pourraient créer plus de problèmes qu’ils ne résolvent

mai 14, 2025
Votre partenaire générateur d’IA super utile rend-il secrètement votre travail ennuyeux?

Votre partenaire générateur d’IA super utile rend-il secrètement votre travail ennuyeux?

mai 14, 2025
Adele de Microsoft veut donner à votre IA un profil cognitif

Adele de Microsoft veut donner à votre IA un profil cognitif

mai 14, 2025
Recherche: l’étalon-or pour l’évaluation du Genai

Recherche: l’étalon-or pour l’évaluation du Genai

mai 12, 2025
L’IA résout enfin le puzzle le plus difficile de la biologie

L’IA résout enfin le puzzle le plus difficile de la biologie

mai 6, 2025
Le chef-d’œuvre de Raphael n’est peut-être pas tout son

Le chef-d’œuvre de Raphael n’est peut-être pas tout son

mai 5, 2025

Recent Posts

  • Prêt pour un chatppt qui vous connaît vraiment?
  • Les outils de recherche sur l’IA pourraient créer plus de problèmes qu’ils ne résolvent
  • Votre partenaire générateur d’IA super utile rend-il secrètement votre travail ennuyeux?
  • Adele de Microsoft veut donner à votre IA un profil cognitif
  • Apple Research Paper dévoile Matrix3D pour la génération de contenu 3D

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.