Le modèle Depth Anything V2 dirigé par les stagiaires de ByteDance a été inclus dans la bibliothèque de modèles Core ML d'Apple, prouvant une fois de plus la forte force de la jeune génération chinoise dans le domaine de l'intelligence artificielle. Ce modèle a reçu une large attention dans l'industrie pour ses excellentes capacités d'estimation de la profondeur monoculaire et ses vastes perspectives d'application dans de multiples domaines. L'éditeur de Downcodes vous donnera une compréhension approfondie de ce projet accrocheur et des merveilleuses histoires des stagiaires derrière lui.
La grande équipe de modèles de ByteDance a apporté une autre contribution. Leur modèle Depth Anything V2 a été inclus dans la bibliothèque de modèles Core ML d'Apple. Cette réalisation n’est pas seulement une avancée technologique, mais ce qui est encore plus remarquable, c’est que le responsable de ce projet s’est avéré être un stagiaire.
Depth Anything V2 est un modèle d'estimation de profondeur monoculaire qui peut estimer les informations de profondeur d'une scène à partir d'une seule image. De la version V1 début 2024 à l'actuelle V2, le nombre de paramètres de ce modèle est passé de 25 millions à 1,3 milliard. Sa gamme d'applications couvre les effets spéciaux vidéo, la conduite autonome, la modélisation 3D, la réalité augmentée et d'autres domaines.
Ce modèle a reçu 8,7 000 étoiles sur GitHub, la version V2 compte 2,3 000 étoiles peu de temps après sa sortie et la version V1 a reçu 6,4 000 étoiles. Une telle réalisation est digne de fierté pour toute équipe technique, sans compter que la principale force derrière elle est un stagiaire.
Apple a inclus Depth Anything V2 dans la bibliothèque de modèles Core ML, ce qui constitue une grande reconnaissance des performances du modèle et des perspectives d'application. Core ML, en tant que framework d'apprentissage automatique d'Apple, permet aux modèles d'apprentissage automatique de s'exécuter efficacement sur des appareils tels que iOS et MacOS, et peut effectuer des tâches d'IA complexes même sans connexion Internet.
La version Core ML de Depth Anything V2 utilise un modèle d'au moins 25 Mo. Après optimisation par l'ingénierie officielle de HuggingFace, la vitesse d'inférence sur iPhone12Pro Max atteint 31,1 millisecondes. Ceci, avec d'autres modèles sélectionnés tels que FastViT, ResNet50, YOLOv3, etc., couvre plusieurs domaines allant du traitement du langage naturel à la reconnaissance d'images.
Dans la vague des grands modèles, la valeur des lois de mise à l’échelle est de plus en plus reconnue. L'équipe Depth Anything a choisi de créer un modèle de base simple mais puissant pour obtenir de meilleurs résultats sur une seule tâche. Ils pensent qu’il est plus pratique d’utiliser les lois de mise à l’échelle pour résoudre certains problèmes fondamentaux. L'estimation de la profondeur est l'une des tâches importantes dans le domaine de la vision par ordinateur. Déduire les informations de distance des objets dans la scène à partir d'images est crucial pour des applications telles que la conduite autonome, la modélisation 3D et la réalité augmentée. Depth Anything V2 offre non seulement de larges perspectives d'application dans ces domaines, mais peut également être intégré à des plates-formes vidéo ou à des logiciels de montage en tant que middleware pour prendre en charge la production d'effets spéciaux, le montage vidéo et d'autres fonctions. L'un des candidats au projet Depth Anything était un stagiaire de l'équipe. Sous la direction de Mentor, cette étoile montante a réalisé l'essentiel du travail, de la conception du projet à la rédaction de sa thèse, en moins d'un an. L'entreprise et l'équipe offrent une atmosphère de recherche libre et un soutien suffisant, encourageant les stagiaires à approfondir des problèmes plus difficiles et plus essentiels.
La croissance de ce stagiaire et le succès de Depth Anything V2 démontrent non seulement des efforts et des talents personnels, mais reflètent également l'exploration approfondie et la culture des talents de ByteDance dans la génération visuelle et les grands domaines liés aux modèles.
Adresse du projet : https://top.aibase.com/tool/owned-anything-v2
Le succès de Depth Anything V2 ne réside pas seulement dans ses avancées technologiques, mais aussi dans le modèle de formation de l'équipe derrière et l'accent mis sur les talents. Cela fournit une expérience précieuse à d'autres entreprises dans le domaine de l'intelligence artificielle et indique également que des talents plus exceptionnels émergeront à l'avenir. J'espère que davantage de jeunes pourront s'inspirer de cette histoire, poursuivre courageusement leurs rêves et créer leur propre gloire.