ByteDance のインターンが主導する Depth Anything V2 モデルが Apple の Core ML モデル ライブラリに組み込まれ、人工知能分野における中国の若い世代の強い力が改めて証明されました。このモデルは、その優れた単眼深度推定機能と複数の分野での幅広い応用の可能性により、業界で広く注目を集めています。 Downcodes の編集者が、この目を引くプロジェクトとその背後にあるインターンの素晴らしいストーリーについて詳しく説明します。
ByteDance の大規模なモデル チームは、別の貢献を行いました。彼らの Depth Anything V2 モデルは、Apple の Core ML モデル ライブラリに含まれています。この成果はテクノロジーの進歩であるだけでなく、さらに注目すべきは、このプロジェクトのリーダーがインターンであったことです。
Depth Anything V2 は、1 枚の画像からシーンの奥行き情報を推定できる単眼奥行き推定モデルです。 2024 年初頭の V1 バージョンから現在の V2 まで、このモデルのパラメータ数は 25M から 1.3B まで拡張され、その適用範囲はビデオ特殊効果、自動運転、3D モデリング、拡張現実などの分野をカバーしています。
このモデルは GitHub で 8.7,000 個のスターを獲得し、V2 バージョンはリリース直後に 2.3,000 個のスターを獲得し、V1 バージョンは 6.4,000 個のスターを獲得しました。このような成果は、その主力がインターンであることは言うまでもなく、あらゆる技術チームにとって誇りに値します。
Apple は、Depth Anything V2 を Core ML モデル ライブラリに組み込みました。これは、モデルのパフォーマンスとアプリケーションの見通しが高く評価されていることです。 Apple の機械学習フレームワークである Core ML を使用すると、iOS や MacOS などのデバイス上で機械学習モデルを効率的に実行でき、インターネット接続がなくても複雑な AI タスクを実行できます。
Depth Anything V2 の Core ML バージョンは少なくとも 25M のモデルを使用し、HuggingFace 公式エンジニアリングによる最適化後、iPhone12Pro Max の推論速度は 31.1 ミリ秒に達します。これは、FastViT、ResNet50、YOLOv3 などの他の選択されたモデルと合わせて、自然言語処理から画像認識までの複数の分野をカバーします。
大型モデルの波の中で、スケーリング則の価値はますます多くの人に認識されています。 Depth Anything チームは、単一のタスクでより良い結果を達成するために、シンプルでありながら強力な基本モデルを構築することを選択しました。彼らは、いくつかの基本的な問題を解決するためにスケーリング則を使用する方がより現実的であると信じています。奥行き推定は、コンピューター ビジョンの分野における重要なタスクの 1 つであり、画像からシーン内のオブジェクトの距離情報を推測することは、自動運転、3D モデリング、拡張現実などのアプリケーションにとって重要です。 Depth Anything V2 は、これらの分野での幅広い応用が期待できるだけでなく、特殊効果制作やビデオ編集などの機能をサポートするミドルウェアとしてビデオ プラットフォームや編集ソフトウェアに統合することもできます。 Depth Anything プロジェクトの候補者の 1 人はチームのインターンでしたが、メンターの指導の下、この新星はプロジェクトの構想から論文執筆までのほとんどの作業を 1 年以内に完了しました。会社とチームは自由な研究雰囲気と十分なサポートを提供し、インターンがより困難で本質的な問題を掘り下げることを奨励します。
このインターンの成長と Depth Anything V2 の成功は、個人の努力と才能を証明するだけでなく、ビジュアル生成と大規模モデル関連分野における ByteDance の徹底した探索と人材育成を反映しています。
プロジェクトアドレス: https://top.aibase.com/tool/ Depth-anything-v2
Depth Anything V2 の成功は、技術的な進歩だけではなく、その背後にあるチームのトレーニング モデルと人材の重視にもあります。これは、他の企業が人工知能の分野で研究する貴重な経験を提供するとともに、将来的にはさらに優れた人材が出現することを示しています。より多くの若者がこの物語に触発され、勇敢に夢を追いかけ、自らの栄光を築いてほしいと願っています。