บรรณาธิการ Downcodes รายงาน: ทีมวิจัยของมหาวิทยาลัยวอชิงตันได้เปิดตัวโมเดลการติดตามด้วยภาพใหม่ที่เรียกว่า SAMURAI ซึ่งใช้ SAM2 และมีเป้าหมายที่จะเอาชนะความท้าทายในการติดตามด้วยภาพในฉากที่ซับซ้อน โดยเฉพาะอย่างยิ่งในการจัดการกับวัตถุที่เคลื่อนไหวเร็วและบดบังตัวเอง SAMURAI ปรับปรุงความสามารถในการทำนายการเคลื่อนไหวของวัตถุและความแม่นยำในการเลือกหน้ากากได้อย่างมาก โดยการแนะนำสัญญาณการเคลื่อนไหวชั่วคราวและกลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหว บรรลุการติดตามที่แข็งแกร่งและแม่นยำโดยไม่ต้องฝึกใหม่หรือปรับแต่ง ประสิทธิภาพการทำงานเป็นศูนย์ช็อตที่แข็งแกร่งช่วยให้ทำงานได้ดีโดยไม่ต้องผ่านการฝึกอบรมกับชุดข้อมูลเฉพาะ
SAM2 ทำงานได้ดีในงานแบ่งส่วนวัตถุ แต่มีข้อจำกัดบางประการในการติดตามด้วยภาพ ตัวอย่างเช่น ในฉากที่มีผู้คนหนาแน่น การจำแบบหน้าต่างคงที่ไม่สามารถคำนึงถึงคุณภาพของหน่วยความจำที่เลือกได้ ซึ่งอาจทำให้เกิดข้อผิดพลาดในการเผยแพร่ตลอดลำดับวิดีโอ
เพื่อที่จะแก้ไขปัญหานี้ ทีมวิจัยได้เสนอ SAMURAI ซึ่งปรับปรุงความสามารถในการทำนายการเคลื่อนไหวของวัตถุและความแม่นยำของการเลือกหน้ากากได้อย่างมาก โดยการแนะนำสัญญาณการเคลื่อนไหวชั่วขณะและกลไกการเลือกหน่วยความจำการรับรู้การเคลื่อนไหว นวัตกรรมนี้ช่วยให้ SAMURAI สามารถติดตามได้อย่างมีประสิทธิภาพและแม่นยำโดยไม่จำเป็นต้องฝึกอบรมใหม่หรือปรับแต่งอย่างละเอียด
ในแง่ของการทำงานแบบเรียลไทม์ SAMURAI แสดงให้เห็นถึงประสิทธิภาพการทำงานแบบ Zero-Shot ที่แข็งแกร่ง ซึ่งหมายความว่าโมเดลยังคงทำงานได้ดีโดยไม่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลเฉพาะ
จากการประเมิน ทีมวิจัยพบว่าอัตราความสำเร็จและความแม่นยำของ SAMURAI ในชุดข้อมูลเกณฑ์มาตรฐานหลายชุดได้รับการปรับปรุงอย่างมีนัยสำคัญ ในชุดข้อมูล LaSOT-ext SAMURAI สามารถเพิ่ม AUC ได้ถึง 7.1% ในขณะที่ชุดข้อมูล GOT-10k สามารถเพิ่ม AO ได้ถึง 3.5% นอกจากนี้ เมื่อเปรียบเทียบกับวิธีการที่ได้รับการดูแลอย่างเต็มรูปแบบ SAMURAI ก็สามารถแข่งขันได้อย่างเท่าเทียมกันบนชุดข้อมูล LaSOT ซึ่งแสดงให้เห็นถึงความแข็งแกร่งและศักยภาพในการประยุกต์ใช้งานในวงกว้างในสถานการณ์การติดตามที่ซับซ้อน
ทีมวิจัยระบุว่าความสำเร็จของ SAMURAI เป็นการวางรากฐานสำหรับการประยุกต์ใช้เทคโนโลยีการติดตามด้วยภาพในอนาคตในสภาพแวดล้อมที่ซับซ้อนและมีไดนามิกมากขึ้น พวกเขาหวังว่านวัตกรรมนี้สามารถส่งเสริมการพัฒนาในด้านการติดตามด้วยภาพ ตอบสนองความต้องการของแอปพลิเคชันแบบเรียลไทม์ และมอบความสามารถในการจดจำภาพที่แข็งแกร่งยิ่งขึ้นสำหรับอุปกรณ์อัจฉริยะต่างๆ
ทางเข้าโครงการ: https://yangchris11.github.io/samurai/
การเกิดขึ้นของโมเดล SAMURAI ได้นำมาซึ่งความก้าวหน้าครั้งใหม่มาสู่เทคโนโลยีการติดตามด้วยภาพ และประสิทธิภาพและความแม่นยำในฉากที่ซับซ้อนก็น่าประทับใจ ในอนาคต โมเดลนี้คาดว่าจะมีการใช้กันอย่างแพร่หลายในด้านต่างๆ เช่น การขับขี่อัตโนมัติและการมองเห็นของหุ่นยนต์ ซึ่งส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์เพิ่มเติม บรรณาธิการของ Downcodes รอคอยที่จะได้เห็น SAMURAI บรรลุผลลัพธ์ที่น่าประทับใจยิ่งขึ้นในอนาคต!