Meta เปิดตัวโมเดลการวิเคราะห์ด้วยภาพ Sapien ที่สามารถมองเห็นทุกการเคลื่อนไหวของคุณ

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-23 11:00:01

Sapiens ซึ่งเป็นโมเดล AI ล่าสุดที่ออกโดย Meta Reality Labs ได้สร้างความก้าวหน้าครั้งสำคัญในการประมวลผลงานการมองเห็นของมนุษย์ สามารถวิเคราะห์ท่าทาง การเคลื่อนไหว และรายละเอียดส่วนต่างๆ ของร่างกายของมนุษย์ในรูปภาพและวิดีโอได้อย่างแม่นยำ โดยคงไว้ซึ่งความแม่นยำสูงแม้ในสภาพแวดล้อมที่ซับซ้อนหรือเมื่อข้อมูลมีน้อย ชุดข้อมูลการฝึกอบรมของ Sapiens ประกอบด้วยภาพมนุษย์มากกว่า 300 ล้านภาพ และใช้สถาปัตยกรรมการแปลงภาพขั้นสูงและเทคโนโลยีการเรียนรู้แบบหลายงานเพื่อให้มีความสามารถในการสรุปข้อมูลทั่วไปที่แข็งแกร่งและมีเสถียรภาพ โดยมีแนวโน้มการใช้งานที่หลากหลาย ครอบคลุมสาขาต่างๆ เช่น กล้องวงจรปิด ความเป็นจริงเสมือน การดูแลทางการแพทย์ และโซเชียลมีเดีย และคาดว่าจะปฏิวัติวิธีการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์และความสามารถในการวิเคราะห์ข้อมูลในสาขาเหล่านี้

ฟังก์ชันหลักของโมเดล Sapiens ได้แก่ การประมาณท่าทางแบบ 2 มิติ การแบ่งส่วนของร่างกาย การประมาณความลึก และการทำนายพื้นผิวตามปกติ ด้วยฟังก์ชันเหล่านี้ Sapiens สามารถจดจำท่าทางของมนุษย์ได้อย่างแม่นยำ แยกส่วนต่างๆ ของร่างกายอย่างละเอียด และคาดการณ์ข้อมูลเชิงลึกและการวางแนวพื้นผิวของวัตถุในภาพ มีประสิทธิภาพเหนือกว่าวิธีการอันล้ำสมัยที่มีอยู่ในงานหลายประเภท แสดงให้เห็นถึงความแม่นยำและความสม่ำเสมอในระดับสูง ประสิทธิภาพอันทรงพลังและความเป็นไปได้ในการใช้งานในวงกว้าง ทำให้ผลิตภัณฑ์นี้เป็นความก้าวหน้าครั้งสำคัญในด้านปัญญาประดิษฐ์ แนบที่อยู่โครงการและที่อยู่วิทยานิพนธ์แล้ว ยินดีต้อนรับสู่การเยี่ยมชมสำหรับข้อมูลเพิ่มเติม

จากมุมมองทางเทคนิค Sapiens ใช้วิธีการขั้นสูงหลายวิธี ประการแรก ได้รับการฝึกอบรมล่วงหน้าโดยอิงตามชุดข้อมูลขนาดใหญ่ที่มีรูปภาพ 300 ล้านภาพ ซึ่งทำให้โมเดลมีความสามารถในการสรุปข้อมูลทั่วไปที่แข็งแกร่ง ประการที่สอง Sapiens ใช้สถาปัตยกรรมตัวแปลงภาพที่สามารถประมวลผลอินพุตที่มีความละเอียดสูงและดำเนินการให้เหตุผลแบบละเอียดได้ นอกจากนี้ ด้วยการฝึกอบรมล่วงหน้าสำหรับการเข้ารหัสอัตโนมัติแบบสวมหน้ากากและการเรียนรู้แบบหลายงาน Sapiens จึงสามารถเรียนรู้การนำเสนอคุณสมบัติที่มีประสิทธิภาพและจัดการงานที่ซับซ้อนหลายงานพร้อมกันได้

โอกาสในการสมัครของ Sapiens นั้นกว้างมาก ในด้านกล้องวงจรปิดและความเป็นจริงเสมือน สามารถวิเคราะห์การเคลื่อนไหวและท่าทางของมนุษย์แบบเรียลไทม์ โดยให้การสนับสนุนการจับภาพเคลื่อนไหวและการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ ในสาขาการแพทย์ Sapiens สามารถช่วยเหลือผู้เชี่ยวชาญทางการแพทย์ในการติดตามผู้ป่วยและคำแนะนำในการฟื้นฟูสมรรถภาพผ่านการวิเคราะห์ท่าทางและชิ้นส่วนที่แม่นยำ สำหรับแพลตฟอร์มโซเชียลมีเดีย Sapiens สามารถใช้เพื่อวิเคราะห์ภาพที่ผู้ใช้อัปโหลดเพื่อมอบประสบการณ์การโต้ตอบที่สมบูรณ์ยิ่งขึ้น ในด้านความเป็นจริงเสมือนและความเป็นจริงเสริม จะช่วยสร้างภาพมนุษย์ที่สมจริงยิ่งขึ้น และปรับปรุงประสบการณ์ที่ดื่มด่ำของผู้ใช้

ผลการทดลองแสดงให้เห็นว่า Sapiens มีประสิทธิภาพเหนือกว่าวิธีการอันล้ำสมัยที่มีอยู่ในงานต่างๆ มากมาย Sapiens แสดงให้เห็นถึงความแม่นยำและความสม่ำเสมอในการตรวจจับจุดสำคัญของร่างกาย ใบหน้า มือ และเท้า รวมถึงการแบ่งส่วนของร่างกาย การประมาณความลึก และงานการทำนายพื้นผิวตามปกติ

ที่อยู่โครงการ: https://about.meta.com/realitylabs/codecavatars/sapiens

ที่อยู่กระดาษ: https://arxiv.org/pdf/2408.12569

โดยรวมแล้ว โมเดล Sapiens แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญในด้านความเข้าใจด้วยการมองเห็นของมนุษย์เกี่ยวกับปัญญาประดิษฐ์ และประสิทธิภาพอันทรงพลังและศักยภาพในการประยุกต์ที่กว้างขวางของโมเดลดังกล่าว มอบความเป็นไปได้ใหม่ๆ สำหรับนวัตกรรมทางเทคโนโลยีในอนาคต เราหวังเป็นอย่างยิ่งว่า Sapiens จะมีบทบาทในสาขาต่างๆ มากขึ้น และส่งเสริมความก้าวหน้าทางเทคโนโลยี