O modelo Depth Anything V2 liderado por estagiários da ByteDance foi incluído na biblioteca de modelos Core ML da Apple, provando mais uma vez a grande força da geração mais jovem da China no campo da inteligência artificial. Este modelo tem recebido ampla atenção na indústria por suas excelentes capacidades de estimativa de profundidade monocular e amplas perspectivas de aplicação em vários campos. O editor de Downcodes lhe dará uma compreensão profunda deste projeto atraente e das histórias maravilhosas dos estagiários por trás dele.
A grande equipe de modelos da ByteDance fez outra contribuição. Seu modelo Depth Anything V2 foi incluído na biblioteca de modelos Core ML da Apple. Esta conquista não é apenas um avanço tecnológico, mas o que é ainda mais notável é que o líder deste projeto era um estagiário.
Depth Anything V2 é um modelo monocular de estimativa de profundidade que pode estimar as informações de profundidade de uma cena a partir de uma única imagem. Da versão V1 no início de 2024 até a atual V2, o número de parâmetros deste modelo expandiu de 25M para 1,3B. Sua gama de aplicações abrange efeitos especiais de vídeo, direção autônoma, modelagem 3D, realidade aumentada e outros campos.
Este modelo recebeu 8,7 mil estrelas no GitHub, a versão V2 recebeu 2,3 mil estrelas logo após seu lançamento e a versão V1 recebeu 6,4 mil estrelas. Tal conquista é motivo de orgulho para qualquer equipe técnica, sem contar que a principal força por trás disso é um estagiário.
A Apple incluiu o Depth Anything V2 na biblioteca de modelos Core ML, o que é um grande reconhecimento do desempenho do modelo e das perspectivas de aplicação. Core ML, como estrutura de aprendizado de máquina da Apple, permite que modelos de aprendizado de máquina sejam executados com eficiência em dispositivos como iOS e MacOS e pode executar tarefas complexas de IA mesmo sem conexão com a Internet.
A versão Core ML do Depth Anything V2 usa um modelo de pelo menos 25M. Após otimização pela engenharia oficial da HuggingFace, a velocidade de inferência no iPhone12Pro Max chega a 31,1 milissegundos. Isto, juntamente com outros modelos selecionados, como FastViT, ResNet50, YOLOv3, etc., cobre vários campos, desde processamento de linguagem natural até reconhecimento de imagem.
Na onda dos grandes modelos, o valor das Leis de Escala é reconhecido por cada vez mais pessoas. A equipe do Depth Anything optou por construir um modelo básico simples, mas poderoso, para obter melhores resultados em uma única tarefa. Eles acreditam que usar Leis de Escala para resolver alguns problemas básicos é mais prático. A estimativa de profundidade é uma das tarefas importantes no campo da visão computacional. Inferir as informações de distância de objetos na cena a partir de imagens é crucial para aplicações como direção autônoma, modelagem 3D e realidade aumentada. O Depth Anything V2 não só tem amplas perspectivas de aplicação nesses campos, mas também pode ser integrado a plataformas de vídeo ou software de edição como middleware para suportar produção de efeitos especiais, edição de vídeo e outras funções. Um dos candidatos ao projeto Depth Anything era estagiário da equipe. Sob a orientação do Mentor, essa estrela em ascensão concluiu a maior parte do trabalho, desde a concepção do projeto até a redação da tese, em menos de um ano. A empresa e a equipe proporcionam um ambiente de pesquisa livre e suporte suficiente, incentivando os estagiários a se aprofundarem em problemas mais difíceis e essenciais.
O crescimento deste estagiário e o sucesso do Depth Anything V2 não apenas demonstram esforços e talentos pessoais, mas também refletem a exploração aprofundada e o cultivo de talentos da ByteDance na geração visual e em grandes campos relacionados a modelos.
Endereço do projeto: https://top.aibase.com/tool/profundidade-anything-v2
O sucesso do Depth Anything V2 reside não apenas nos seus avanços tecnológicos, mas também no modelo de formação da equipa por detrás dele e na sua ênfase nos talentos. Isto proporciona uma experiência valiosa para outras empresas explorarem no campo da inteligência artificial e também indica que mais talentos notáveis surgirão no futuro. Espero que mais jovens possam ser inspirados por esta história, perseguir corajosamente os seus sonhos e criar a sua própria glória.