ByteDance a récemment publié une nouvelle génération de modèle de profondeur, Depth Anything V2, qui a réalisé une percée significative dans le domaine de l'estimation de la profondeur monoculaire. Par rapport à la génération précédente, la version V2 a été grandement améliorée en termes de précision des détails, de robustesse et d'efficacité, et sa vitesse est plus de dix fois plus rapide que le modèle basé sur la diffusion stable. Les progrès de cette technologie ne se reflètent pas seulement dans l'optimisation du modèle lui-même, mais également dans ses méthodes de formation innovantes, qui apportent de nouvelles possibilités dans le domaine de la vision par ordinateur. L'article détaille les fonctionnalités clés, les méthodes de formation et le large éventail de scénarios d'application de Depth Anything V2, nous permettant d'acquérir une compréhension approfondie de l'avancement de cette technologie.
Nouvelles de ChinaZ.com du 14 juin : ByteDance a publié une nouvelle génération de modèle de profondeur Depth Anything V2, qui a permis d'améliorer considérablement les performances dans le domaine de l'estimation de la profondeur monoculaire. Par rapport à la génération précédente de Depth Anything V1, la version V2 présente des détails plus fins et une plus grande robustesse, tout en améliorant considérablement l'efficacité, plus de 10 fois plus rapide que le modèle basé sur la diffusion stable.
Principales caractéristiques :
Détails plus fins : le modèle V2 est optimisé en détail, fournissant des prévisions de profondeur plus fines.
Haute efficacité et précision : par rapport aux modèles construits sur la base de SD, la V2 a considérablement amélioré l'efficacité et la précision.
Prise en charge de modèles multi-échelles : fournit des modèles à différentes échelles avec des paramètres allant de 25M à 1,3B pour s'adapter à différents scénarios d'application.
Pratiques clés : amélioration des performances des modèles en remplaçant les images réelles par des images synthétiques, en élargissant la capacité des modèles d'enseignant et en utilisant des images pseudo-annotées à grande échelle pour enseigner des modèles aux élèves.
Trois pratiques clés pour améliorer les performances du modèle :
Utilisation d'images synthétiques : toutes les images réelles annotées sont remplacées par des images synthétiques, ce qui améliore l'efficacité de la formation du modèle.
Capacité élargie du modèle d'enseignant : en élargissant la capacité du modèle d'enseignant, la capacité de généralisation du modèle est améliorée.
Application d'images pseudo-annotées : utilisez des images réelles pseudo-annotées à grande échelle comme pont pour enseigner les modèles aux étudiants et améliorer la robustesse du modèle.
Prise en charge d'un large éventail de scénarios d'application :
Pour répondre aux besoins d'un large éventail d'applications, les chercheurs proposent des modèles à différentes échelles et exploitent leurs capacités de généralisation pour un réglage précis par étiquettes de profondeur métrique.
Un référentiel d'évaluation diversifié contenant des annotations profondes et clairsemées est construit pour faciliter les recherches futures.
Méthodes de formation basées sur des images synthétiques et réelles :
Les chercheurs ont d’abord formé le plus grand modèle d’enseignant sur des images synthétiques, puis ont généré des pseudo-étiquettes de haute qualité pour des images réelles non étiquetées à grande échelle et ont formé des modèles d’étudiants sur ces images réelles pseudo-étiquetées.
Le processus de formation utilise 595 000 images synthétiques et plus de 62 millions d’images réelles pseudo-étiquetées.
Le lancement du modèle Depth Anything V2 démontre les capacités innovantes de ByteDance dans le domaine de la technologie d'apprentissage profond. Ses caractéristiques de performance efficaces et précises indiquent que le modèle a un large potentiel d'application dans le domaine de la vision par ordinateur.
Adresse du projet : https://degree-anything-v2.github.io/
Dans l’ensemble, l’émergence du modèle Depth Anything V2 marque un bond en avant significatif dans la technologie d’estimation de profondeur monoculaire. Sa haute efficacité, sa précision et ses larges perspectives d'application lui confèrent un énorme potentiel de développement dans le domaine de la vision par ordinateur à l'avenir, et il vaut la peine d'attendre avec impatience sa mise en œuvre dans davantage de scénarios d'application.