ทีมวิจัยของมหาวิทยาลัยวอชิงตันได้เปิดตัวโมเดลการติดตามด้วยภาพใหม่ SAMURAI ซึ่งใช้ SAM2 และมีเป้าหมายที่จะเอาชนะความท้าทายในการติดตามด้วยภาพในฉากที่ซับซ้อน โดยเฉพาะอย่างยิ่งการติดตามวัตถุที่เคลื่อนไหวเร็วและปิดบังตัวเอง SAMURAI ปรับปรุงความสามารถในการทำนายการเคลื่อนไหวของวัตถุและความแม่นยำในการเลือกมาสก์ได้อย่างมาก โดยการแนะนำสัญญาณการเคลื่อนไหวชั่วคราวและกลไกการเลือกหน่วยความจำที่รับรู้การเคลื่อนไหว ทำให้มีการติดตามที่แข็งแกร่งและแม่นยำ โดยไม่ต้องฝึกอบรมใหม่และทำงานได้ดีกับชุดข้อมูลเบนช์มาร์กหลายชุด
เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยวอชิงตันได้เปิดตัวโมเดลการติดตามด้วยภาพใหม่ที่เรียกว่า SAMURAI โมเดลนี้มีพื้นฐานมาจาก Segment Anything Model2 (SAM2) และได้รับการออกแบบมาเพื่อแก้ปัญหาความท้าทายที่พบในการติดตามวัตถุด้วยภาพในฉากที่ซับซ้อน โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับวัตถุที่เคลื่อนที่เร็วและปิดบังตัวเอง
SAM2 ทำงานได้ดีในงานแบ่งส่วนวัตถุ แต่มีข้อจำกัดบางประการในการติดตามด้วยภาพ ตัวอย่างเช่น ในฉากที่มีผู้คนหนาแน่น การจำแบบหน้าต่างคงที่ไม่สามารถคำนึงถึงคุณภาพของหน่วยความจำที่เลือกได้ ซึ่งอาจทำให้เกิดข้อผิดพลาดในการเผยแพร่ตลอดลำดับวิดีโอ
เพื่อที่จะแก้ไขปัญหานี้ ทีมวิจัยได้เสนอ SAMURAI ซึ่งปรับปรุงความสามารถในการทำนายการเคลื่อนไหวของวัตถุและความแม่นยำของการเลือกหน้ากากได้อย่างมาก โดยการแนะนำสัญญาณการเคลื่อนไหวชั่วขณะและกลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหว นวัตกรรมนี้ช่วยให้ SAMURAI สามารถติดตามได้อย่างมีประสิทธิภาพและแม่นยำโดยไม่จำเป็นต้องฝึกอบรมใหม่หรือปรับแต่งอย่างละเอียด
ในแง่ของการทำงานแบบเรียลไทม์ SAMURAI แสดงให้เห็นถึงประสิทธิภาพการทำงานแบบ Zero-Shot ที่แข็งแกร่ง ซึ่งหมายความว่าโมเดลยังคงทำงานได้ดีโดยไม่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลเฉพาะ
จากการประเมิน ทีมวิจัยพบว่าอัตราความสำเร็จและความแม่นยำของ SAMURAI ในชุดข้อมูลเกณฑ์มาตรฐานหลายชุดได้รับการปรับปรุงอย่างมีนัยสำคัญ ในชุดข้อมูล LaSOT-ext SAMURAI สามารถเพิ่ม AUC ได้ถึง 7.1% ในขณะที่ชุดข้อมูล GOT-10k สามารถเพิ่ม AO ได้ถึง 3.5% นอกจากนี้ เมื่อเปรียบเทียบกับวิธีการที่ได้รับการดูแลอย่างเต็มรูปแบบ SAMURAI ก็สามารถแข่งขันได้อย่างเท่าเทียมกันบนชุดข้อมูล LaSOT ซึ่งแสดงให้เห็นถึงความแข็งแกร่งและศักยภาพในการประยุกต์ใช้งานในวงกว้างในสถานการณ์การติดตามที่ซับซ้อน
ทีมวิจัยระบุว่าความสำเร็จของ SAMURAI เป็นการวางรากฐานสำหรับการประยุกต์ใช้เทคโนโลยีการติดตามด้วยภาพในอนาคตในสภาพแวดล้อมที่ซับซ้อนและมีไดนามิกมากขึ้น พวกเขาหวังว่านวัตกรรมนี้สามารถส่งเสริมการพัฒนาในด้านการติดตามด้วยภาพ ตอบสนองความต้องการของแอปพลิเคชันแบบเรียลไทม์ และมอบความสามารถในการจดจำภาพที่แข็งแกร่งยิ่งขึ้นสำหรับอุปกรณ์อัจฉริยะต่างๆ
ทางเข้าโครงการ: https://yangchris11.github.io/samurai/
ไฮไลท์:
SAMURAI เป็นการปรับปรุงเชิงนวัตกรรมสำหรับโมเดล SAM2 โดยมีเป้าหมายเพื่อปรับปรุงความสามารถในการติดตามวัตถุด้วยภาพในฉากที่ซับซ้อน
ด้วยการแนะนำกลไกหน่วยความจำแบบรับรู้การเคลื่อนไหว SAMURAI จึงสามารถคาดการณ์การเคลื่อนไหวของวัตถุได้อย่างแม่นยำ และเพิ่มประสิทธิภาพการเลือกมาสก์ เพื่อหลีกเลี่ยงการแพร่กระจายข้อผิดพลาด
ในชุดข้อมูลการวัดประสิทธิภาพหลายชุด SAMURAI แสดงให้เห็นถึงประสิทธิภาพการทำงานแบบ Zero-Shot ที่แข็งแกร่ง ซึ่งช่วยปรับปรุงอัตราความสำเร็จและความแม่นยำในการติดตามได้อย่างมาก
การเกิดขึ้นของโมเดล SAMURAI ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการติดตามด้วยภาพ ความแม่นยำและความทนทานสูงในฉากที่ซับซ้อน ให้การสนับสนุนอย่างมากสำหรับการปรับปรุงความสามารถในการจดจำภาพของอุปกรณ์อัจฉริยะในอนาคต .