โมเดล SAM ของ Meta ทำงานได้ดีในด้านการแบ่งส่วนภาพ แต่มีข้อบกพร่องในการติดตามวัตถุวิดีโอ โดยเฉพาะอย่างยิ่งในฉากที่ซับซ้อนและผลการติดตามไม่ดี นักวิจัยจากมหาวิทยาลัยวอชิงตันได้พัฒนาแบบจำลอง SAMURAI และปรับปรุง SAM2 ซึ่งปรับปรุงประสิทธิภาพการติดตามวัตถุวิดีโออย่างมีนัยสำคัญ SAMURAI ผสมผสานกลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหวอย่างชาญฉลาด เช่นเดียวกับนักรบที่มีทักษะสูง SAMURAI สามารถทำนายวิถีการเคลื่อนที่ของวัตถุได้อย่างแม่นยำ และเลือกหน้ากากที่น่าเชื่อถือที่สุด
โมเดล "แบ่งส่วนทุกอย่าง" ที่ Meta เปิดตัวโดย Meta นั้นอยู่ยงคงกระพันในด้านการแบ่งส่วนภาพ แต่เมื่อพูดถึงการติดตามวัตถุวิดีโอ มันไม่สามารถทำสิ่งที่ต้องการได้เล็กน้อย โดยเฉพาะอย่างยิ่งในฉากที่มีผู้คนจำนวนมาก เป้าหมายที่เคลื่อนที่อย่างรวดเร็ว หรือการเล่นซ่อนหา เนื่องจากกลไกหน่วยความจำของรุ่น SAM เปรียบเสมือน "หน้าต่างคงที่" ซึ่งจะบันทึกเฉพาะภาพล่าสุดและไม่สนใจคุณภาพของเนื้อหาหน่วยความจำ ส่งผลให้เกิดข้อผิดพลาดในการแพร่กระจายในวิดีโอ และลดเอฟเฟกต์การติดตามลงอย่างมาก
เพื่อที่จะแก้ไขปัญหานี้ นักวิจัยจากมหาวิทยาลัยวอชิงตัน "คิดหนัก" และในที่สุดก็พัฒนาแบบจำลองที่เรียกว่า SAMURAI ซึ่ง SAM2 "ดัดแปลงโดยปีศาจ" ซึ่งใช้โดยเฉพาะเพื่อให้บรรลุการติดตามวัตถุวิดีโอ ชื่อของ SAMURAI นั้นดูโดดเด่นมาก และมีสองแปรง: มันรวมเบาะแสการเคลื่อนที่ของเวลาและกลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหวที่นำเสนอใหม่ เช่นเดียวกับนักรบที่มีทักษะสูง มันสามารถทำนายวิถีการเคลื่อนที่ของวัตถุได้อย่างแม่นยำ และปรับปรุงการเลือกหน้ากากในที่สุดทำให้แข็งแกร่ง การติดตามที่แม่นยำโดยไม่จำเป็นต้องฝึกอบรมใหม่หรือปรับแต่งอย่างละเอียด
ความลับของซามูไรอยู่ที่นวัตกรรมที่สำคัญสองประการ:
เคล็ดลับแรก: ระบบการสร้างแบบจำลองการเคลื่อนไหว ระบบนี้เปรียบเสมือน "ตาอินทรี" ของซามูไร ซึ่งสามารถทำนายตำแหน่งของวัตถุในฉากที่ซับซ้อนได้แม่นยำยิ่งขึ้น จึงเพิ่มประสิทธิภาพการเลือกหน้ากากเพื่อไม่ให้ SAMURAI สับสนกับวัตถุที่คล้ายกัน
การเคลื่อนไหวครั้งที่สอง: กลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหว SAMURAI ละทิ้งกลไกหน่วยความจำ "หน้าต่างตายตัว" ที่เรียบง่ายของ SAM2 และใช้ระบบการให้คะแนนแบบไฮบริดแทนซึ่งรวมเอาความคล้ายคลึงของมาสก์ดิบ วัตถุ และคะแนนการเคลื่อนไหว เช่นเดียวกับที่ซามูไรเลือกอาวุธอย่างระมัดระวัง โดยคงไว้เพียงข้อมูลทางประวัติศาสตร์ที่เกี่ยวข้องมากที่สุดเท่านั้น จึงปรับปรุงความน่าเชื่อถือในการติดตามโดยรวม ของโมเดลและหลีกเลี่ยงการแพร่กระจายข้อผิดพลาด
ซามูไรไม่เพียงแต่มีทักษะด้านศิลปะการต่อสู้สูงเท่านั้น แต่ยังมีความคล่องตัวและสามารถปฏิบัติการแบบเรียลไทม์ได้อีกด้วย ที่สำคัญกว่านั้น ได้แสดงให้เห็นประสิทธิภาพการทำงานแบบศูนย์ตัวอย่างที่แข็งแกร่งบนชุดข้อมูลเบนช์มาร์กต่างๆ ซึ่งหมายความว่าสามารถปรับให้เข้ากับสถานการณ์ต่างๆ ได้โดยไม่ต้องมีการฝึกอบรมพิเศษ และแสดงให้เห็นถึงความสามารถในการวางนัยทั่วไปที่แข็งแกร่ง
ในการทดสอบภาคสนาม SAMURAI ได้รับการปรับปรุงอย่างมีนัยสำคัญเหนือเครื่องติดตามที่มีอยู่ทั้งในด้านอัตราความสำเร็จและความแม่นยำ ตัวอย่างเช่น ในชุดข้อมูล LaSOText จะได้ AUC เพิ่มขึ้น 7.1% และในชุดข้อมูล GOT-10k จะได้ AO เพิ่มขึ้น 3.5% สิ่งที่น่าแปลกใจยิ่งกว่านั้นคือสามารถบรรลุผลลัพธ์ที่เทียบเคียงได้กับวิธีการที่ได้รับการดูแลอย่างเต็มรูปแบบบนชุดข้อมูล LaSOT ซึ่งพิสูจน์ให้เห็นถึงพลังในสถานการณ์การติดตามที่ซับซ้อน และศักยภาพที่ยอดเยี่ยมสำหรับการใช้งานจริงในสภาพแวดล้อมแบบไดนามิก
ความสำเร็จของ SAMURAI เกิดจากการใช้ข้อมูลการเคลื่อนไหวอย่างชาญฉลาด นักวิจัยได้รวมตัวกรองคาลมานแบบดั้งเดิมเข้ากับ SAM2 เพื่อช่วยแบบจำลองในการเลือกหน้ากากที่เชื่อถือได้มากที่สุดจากมาสก์ตัวเลือกหลายตัว โดยการทำนายตำแหน่งและขนาดของวัตถุ นอกจากนี้ พวกเขายังได้ออกแบบกลไกการเลือกหน่วยความจำตามคะแนนสามคะแนน (คะแนนความคล้ายคลึงกันของมาสก์ คะแนนลักษณะที่ปรากฏของวัตถุ และคะแนนการเคลื่อนไหว) เมื่อคะแนนทั้งสามนี้ถึงเกณฑ์เท่านั้น เฟรมหน่วยความจำจะถูกเลือก กลไกหน่วยความจำแบบเลือกสรรนี้หลีกเลี่ยงการรบกวนจากข้อมูลที่ไม่เกี่ยวข้องได้อย่างมีประสิทธิภาพ และปรับปรุงความแม่นยำในการติดตาม
การเกิดขึ้นของ SAMURAI นำความหวังใหม่มาสู่การติดตามวัตถุวิดีโอ ไม่เพียงแต่มีประสิทธิภาพเหนือกว่าตัวติดตามที่มีอยู่เท่านั้น แต่ยังไม่จำเป็นต้องฝึกอบรมซ้ำหรือปรับแต่งอย่างละเอียด และสามารถนำไปใช้กับสถานการณ์ต่างๆ ได้อย่างง่ายดาย ฉันเชื่อว่าในอนาคต SAMURAI จะมีบทบาทสำคัญในสาขาต่างๆ เช่น การขับขี่อัตโนมัติ หุ่นยนต์ และกล้องวงจรปิด ซึ่งจะนำประสบการณ์ชีวิตที่ชาญฉลาดยิ่งขึ้นมาให้เรา
ที่อยู่โครงการ: https://yangchris11.github.io/samurai/
ที่อยู่กระดาษ: https://arxiv.org/pdf/2411.11922
โดยรวมแล้ว โมเดล SAMURAI มีความก้าวหน้าอย่างก้าวกระโดดในด้านการติดตามวัตถุวิดีโอ และประสิทธิภาพที่มีประสิทธิภาพ แม่นยำ และแข็งแกร่ง ให้การสนับสนุนทางเทคนิคที่แข็งแกร่งสำหรับแอปพลิเคชันอัจฉริยะในอนาคต กลไกหน่วยความจำที่เป็นนวัตกรรมใหม่และระบบการสร้างแบบจำลองการเคลื่อนไหวนั้นคุ้มค่าแก่การศึกษาและอ้างอิงในเชิงลึก