เมื่อเร็วๆ นี้ ByteDance ได้เปิดตัวโมเดลความลึกรุ่นใหม่ Depth Anything V2 ซึ่งได้สร้างความก้าวหน้าครั้งสำคัญในด้านการประมาณความลึกแบบตาข้างเดียว เมื่อเทียบกับรุ่นก่อนหน้า รุ่น V2 ได้รับการปรับปรุงอย่างมากในแง่ของความแม่นยำของรายละเอียด ความทนทาน และประสิทธิภาพ และความเร็วยังเร็วกว่ารุ่นที่ใช้ Stable Diffusion มากกว่าสิบเท่า ความก้าวหน้าของเทคโนโลยีนี้ไม่เพียงสะท้อนให้เห็นในการปรับโมเดลให้เหมาะสมเท่านั้น แต่ยังรวมถึงวิธีการฝึกอบรมที่เป็นนวัตกรรมซึ่งนำความเป็นไปได้ใหม่ๆ มาสู่ขอบเขตการมองเห็นของคอมพิวเตอร์ บทความนี้ให้รายละเอียดเกี่ยวกับคุณสมบัติหลัก วิธีการฝึกอบรม และสถานการณ์การใช้งานที่หลากหลายของ Depth Anything V2 ซึ่งช่วยให้เรามีความเข้าใจเชิงลึกเกี่ยวกับความก้าวหน้าของเทคโนโลยีนี้
ข่าวจาก ChinaZ.com เมื่อวันที่ 14 มิถุนายน: ByteDance ได้เปิดตัวโมเดลความลึก Depth Anything V2 เจเนอเรชั่นใหม่ ซึ่งได้รับการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในด้านการประเมินความลึกแบบตาข้างเดียว เมื่อเปรียบเทียบกับ Depth Anything V1 รุ่นก่อนหน้า เวอร์ชัน V2 มีรายละเอียดที่ละเอียดกว่าและความทนทานที่แข็งแกร่งกว่า ขณะเดียวกันก็ปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ เร็วกว่ารุ่นที่ใช้ Stable Diffusion มากกว่า 10 เท่า
คุณสมบัติที่สำคัญ:
รายละเอียดปลีกย่อย: รุ่น V2 ได้รับการปรับปรุงในรายละเอียด ให้การคาดการณ์เชิงลึกที่ละเอียดยิ่งขึ้น
ประสิทธิภาพและความแม่นยำสูง: เมื่อเทียบกับรุ่นที่สร้างโดยใช้ SD แล้ว V2 มีประสิทธิภาพและความแม่นยำที่ดีขึ้นอย่างเห็นได้ชัด
การสนับสนุนโมเดลหลายสเกล: มอบแบบจำลองของสเกลที่แตกต่างกันพร้อมพารามิเตอร์ตั้งแต่ 25M ถึง 1.3B เพื่อปรับให้เข้ากับสถานการณ์การใช้งานที่แตกต่างกัน
แนวปฏิบัติหลัก: ปรับปรุงประสิทธิภาพของโมเดลโดยการแทนที่รูปภาพจริงด้วยรูปภาพสังเคราะห์ ขยายความจุของโมเดลสำหรับครู และใช้รูปภาพที่มีคำอธิบายประกอบหลอกขนาดใหญ่เพื่อสอนโมเดลของนักเรียน
แนวทางปฏิบัติหลักสามประการเพื่อปรับปรุงประสิทธิภาพของโมเดล:
การใช้รูปภาพสังเคราะห์: รูปภาพจริงที่มีคำอธิบายประกอบทั้งหมดจะถูกแทนที่ด้วยรูปภาพสังเคราะห์ ซึ่งช่วยปรับปรุงประสิทธิภาพการฝึกของโมเดล
ความจุโมเดลครูที่ขยาย: ด้วยการขยายความจุของโมเดลครู ความสามารถในการวางนัยทั่วไปของโมเดลจึงได้รับการปรับปรุง
การใช้รูปภาพที่มีคำอธิบายประกอบหลอก: ใช้รูปภาพจริงที่มีคำอธิบายประกอบหลอกขนาดใหญ่เป็นสะพานเชื่อมในการสอนแบบจำลองของนักเรียนและปรับปรุงความทนทานของแบบจำลอง
รองรับสถานการณ์การใช้งานที่หลากหลาย:
เพื่อตอบสนองความต้องการการใช้งานที่หลากหลาย นักวิจัยได้จัดเตรียมแบบจำลองที่มีขนาดต่างกัน และใช้ประโยชน์จากความสามารถในการวางลักษณะทั่วไปของแบบจำลองเพื่อการปรับแต่งอย่างละเอียดด้วยป้ายกำกับความลึกของหน่วยเมตริก
เกณฑ์มาตรฐานการประเมินที่หลากหลายซึ่งมีคำอธิบายประกอบเชิงลึกกระจัดกระจายถูกสร้างขึ้นเพื่ออำนวยความสะดวกในการวิจัยในอนาคต
วิธีการฝึกอบรมตามภาพสังเคราะห์และภาพจริง:
ในตอนแรก นักวิจัยได้ฝึกโมเดลครูที่ใหญ่ที่สุดเกี่ยวกับรูปภาพสังเคราะห์ จากนั้นจึงสร้างป้ายหลอกคุณภาพสูงสำหรับรูปภาพจริงขนาดใหญ่ที่ไม่มีป้ายกำกับ และฝึกโมเดลนักเรียนเกี่ยวกับรูปภาพจริงที่มีป้ายกำกับหลอกเหล่านี้
กระบวนการฝึกอบรมใช้รูปภาพสังเคราะห์ 595,000 รูป และรูปภาพที่มีป้ายกำกับหลอกจริงมากกว่า 62 ล้านรูป
การเปิดตัวโมเดล Depth Anything V2 แสดงให้เห็นถึงความสามารถที่เป็นนวัตกรรมใหม่ของ ByteDance ในด้านเทคโนโลยีการเรียนรู้เชิงลึก
ที่อยู่โครงการ: https://deep-anything-v2.github.io/
โดยรวมแล้ว การเกิดขึ้นของโมเดล Depth Anything V2 ถือเป็นการก้าวกระโดดครั้งสำคัญของเทคโนโลยีการประมาณความลึกแบบตาข้างเดียว ประสิทธิภาพที่สูง ความแม่นยำ และโอกาสในการใช้งานที่กว้างขวาง ทำให้มีศักยภาพในการพัฒนาอย่างมากในด้านคอมพิวเตอร์วิทัศน์ในอนาคต และมันก็คุ้มค่าที่จะรอคอยการนำไปใช้ในสถานการณ์การใช้งานอื่นๆ มากขึ้น