โมเดล Depth Anything V2 นำโดยนักศึกษาฝึกงาน ByteDance ได้ถูกรวมอยู่ในไลบรารีโมเดล Core ML ของ Apple ซึ่งพิสูจน์ให้เห็นถึงความแข็งแกร่งอันแข็งแกร่งของคนรุ่นใหม่ของจีนในด้านปัญญาประดิษฐ์อีกครั้ง แบบจำลองนี้ได้รับความสนใจอย่างกว้างขวางในอุตสาหกรรมเนื่องจากความสามารถในการประมาณความลึกแบบตาข้างเดียวที่ยอดเยี่ยม และแนวโน้มการใช้งานที่กว้างขวางในหลายสาขา บรรณาธิการของ Downcodes จะทำให้คุณเข้าใจเชิงลึกเกี่ยวกับโปรเจ็กต์ที่สะดุดตานี้และเรื่องราวที่ยอดเยี่ยมของผู้ฝึกงานที่อยู่เบื้องหลัง
ทีมโมเดลขนาดใหญ่ของ ByteDance ได้มีส่วนร่วมอีกครั้ง โมเดล Depth Anything V2 ได้รวมอยู่ในไลบรารีโมเดล Core ML ของ Apple แล้ว ความสำเร็จนี้ไม่เพียงแต่เป็นความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่สิ่งที่น่าทึ่งยิ่งกว่านั้นก็คือการที่ผู้นำของโครงการนี้กลายเป็นเด็กฝึกงาน
Depth Anything V2 เป็นแบบจำลองการประมาณความลึกแบบตาข้างเดียวที่สามารถประมาณข้อมูลเชิงลึกของฉากจากภาพเดียวได้ จากเวอร์ชัน V1 ในต้นปี 2024 ไปจนถึง V2 ปัจจุบัน จำนวนพารามิเตอร์ของรุ่นนี้ได้ขยายจาก 25M เป็น 1.3B ช่วงการใช้งานครอบคลุมเอฟเฟกต์พิเศษของวิดีโอ การขับขี่อัตโนมัติ การสร้างแบบจำลอง 3 มิติ ความเป็นจริงเสริม และสาขาอื่น ๆ
โมเดลนี้ได้รับ 8.7k ดาวบน GitHub เวอร์ชัน V2 ได้รับ 2.3k ดาวหลังจากเปิดตัวไม่นาน และเวอร์ชัน V1 ได้รับ 6.4k ดาว ความสำเร็จดังกล่าวสมควรภาคภูมิใจสำหรับทีมเทคนิค ไม่ต้องพูดถึงว่ากำลังหลักที่อยู่เบื้องหลังคือเด็กฝึกงาน
Apple ได้รวม Depth Anything V2 ไว้ในไลบรารีโมเดล Core ML ซึ่งเป็นที่ยอมรับอย่างสูงในด้านประสิทธิภาพของโมเดลและโอกาสในการใช้งาน Core ML ซึ่งเป็นเฟรมเวิร์กการเรียนรู้ของเครื่องของ Apple ช่วยให้โมเดลการเรียนรู้ของเครื่องทำงานอย่างมีประสิทธิภาพบนอุปกรณ์เช่น iOS และ MacOS และสามารถทำงาน AI ที่ซับซ้อนได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
Depth Anything V2 เวอร์ชัน Core ML ใช้โมเดลอย่างน้อย 25M หลังจากการเพิ่มประสิทธิภาพโดยวิศวกรรมอย่างเป็นทางการของ HuggingFace ความเร็วในการอนุมานบน iPhone12Pro Max จะสูงถึง 31.1 มิลลิวินาที เมื่อใช้ร่วมกับโมเดลที่เลือกอื่นๆ เช่น FastViT, ResNet50, YOLOv3 ฯลฯ ครอบคลุมหลายสาขาตั้งแต่การประมวลผลภาษาธรรมชาติไปจนถึงการจดจำภาพ
ในกระแสของโมเดลขนาดใหญ่ คุณค่าของ Scaling Laws ได้รับการยอมรับจากผู้คนมากขึ้นเรื่อยๆ ทีม Depth Anything เลือกสร้างโมเดลพื้นฐานที่เรียบง่ายแต่ทรงพลังเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นในงานเดียว พวกเขาเชื่อว่าการใช้กฎมาตราส่วนเพื่อแก้ไขปัญหาพื้นฐานบางอย่างมีประโยชน์มากกว่า การประมาณความลึกเป็นหนึ่งในงานที่สำคัญในด้านการมองเห็นด้วยคอมพิวเตอร์ การอนุมานข้อมูลระยะห่างของวัตถุในฉากจากรูปภาพถือเป็นสิ่งสำคัญสำหรับการใช้งานต่างๆ เช่น การขับขี่อัตโนมัติ การสร้างแบบจำลอง 3 มิติ และความเป็นจริงเสริม Depth Anything V2 ไม่เพียงแต่มีแนวโน้มการใช้งานในวงกว้างในสาขาเหล่านี้เท่านั้น แต่ยังสามารถรวมเข้ากับแพลตฟอร์มวิดีโอหรือซอฟต์แวร์ตัดต่อเป็นมิดเดิลแวร์เพื่อรองรับการผลิตเอฟเฟกต์พิเศษ การตัดต่อวิดีโอ และฟังก์ชันอื่น ๆ หนึ่งในผู้สมัครโครงการ Depth Anything เป็นผู้ฝึกงานในทีม ภายใต้การแนะนำของ Mentor ดาวรุ่งรายนี้ทำงานส่วนใหญ่ตั้งแต่การคิดโครงการไปจนถึงการเขียนวิทยานิพนธ์ได้ภายในเวลาไม่ถึงหนึ่งปี บริษัทและทีมงานจัดให้มีบรรยากาศการวิจัยฟรีและการสนับสนุนที่เพียงพอ เพื่อส่งเสริมให้นักศึกษาฝึกงานเจาะลึกปัญหาที่ยากและสำคัญยิ่งขึ้น
การเติบโตของเด็กฝึกงานคนนี้และความสำเร็จของ Depth Anything V2 ไม่เพียงแต่แสดงให้เห็นถึงความพยายามและพรสวรรค์ส่วนตัวเท่านั้น แต่ยังสะท้อนถึงการสำรวจเชิงลึกของ ByteDance และการฝึกฝนพรสวรรค์ในการสร้างภาพและสาขาที่เกี่ยวข้องกับโมเดลขนาดใหญ่อีกด้วย
ที่อยู่โครงการ: https://top.aibase.com/tool/deep-anything-v2
ความสำเร็จของ Depth Anything V2 ไม่เพียงแต่อยู่ที่ความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังอยู่ในรูปแบบการฝึกอบรมของทีมที่อยู่เบื้องหลังและการเน้นไปที่ความสามารถพิเศษอีกด้วย นี่เป็นการมอบประสบการณ์อันมีค่าแก่บริษัทอื่นๆ ในการสำรวจในด้านปัญญาประดิษฐ์ และยังบ่งชี้ว่าจะมีผู้มีความสามารถโดดเด่นเพิ่มมากขึ้นในอนาคต ฉันหวังว่าคนหนุ่มสาวจำนวนมากขึ้นจะได้รับแรงบันดาลใจจากเรื่องราวนี้ ไล่ตามความฝันอย่างกล้าหาญ และสร้างชื่อเสียงให้กับตนเอง