ViTPose เป็นแบบจำลองการประมาณท่าทางของมนุษย์แบบโอเพ่นซอร์สโดยใช้ Visual Transformer ซึ่งเป็นที่รู้จักในด้านโครงสร้างที่เรียบง่ายและมีประสิทธิภาพ และประสิทธิภาพที่ยอดเยี่ยม โดยละทิ้งโครงข่ายประสาทเทียมที่ซับซ้อน และใช้เฉพาะชั้น Transformer ที่ซ้อนกันเพื่อแยกคุณสมบัติรูปภาพ และสามารถปรับขนาดโมเดลและความละเอียดอินพุตได้ตามความต้องการ เพื่อให้เกิดความสมดุลระหว่างประสิทธิภาพและความเร็ว โมเดลนี้ได้รับผลลัพธ์ที่ยอดเยี่ยมในชุดข้อมูล MS COCO แม้จะเหนือกว่าโมเดลที่ซับซ้อนกว่าหลายตัว และรองรับการถ่ายโอนความรู้ ดังนั้นโมเดลขนาดเล็กจึงสามารถมีความสามารถเหมือนกับโมเดลขนาดใหญ่ได้เช่นกัน โค้ดและแบบจำลองโอเพ่นซอร์สช่วยอำนวยความสะดวกในการวิจัยและพัฒนา
โดยที่แกนหลัก ViTPose ใช้ Transformer ที่มองเห็นได้เพียงอย่างเดียว ซึ่งทำหน้าที่เหมือน "โครงกระดูก" อันทรงพลังเพื่อแยกคุณสมบัติหลักๆ ออกจากรูปภาพ ไม่ต้องการความช่วยเหลือจากโครงข่ายประสาทเทียมแบบซับซ้อน (CNN) เช่นเดียวกับรุ่นอื่นๆ โครงสร้างของมันง่ายมาก นั่นคือ Transformers หลายตัวซ้อนกันเป็นชั้นๆ
โมเดล ViTPose สามารถปรับขนาดได้ตามต้องการ เช่นเดียวกับไม้บรรทัดที่ยืดได้ คุณสามารถควบคุมขนาดของโมเดลได้โดยการเพิ่มหรือลดจำนวนเลเยอร์ Transformer เพื่อค้นหาสมดุลระหว่างประสิทธิภาพและความเร็ว คุณยังสามารถปรับความละเอียดของภาพที่ป้อนเข้าไปได้ จากนั้นโมเดลจะปรับให้เหมาะสม นอกจากนี้ ยังสามารถประมวลผลชุดข้อมูลหลายชุดพร้อมกันได้ กล่าวคือ คุณสามารถใช้เพื่อจดจำข้อมูลจากท่าทางที่แตกต่างกันได้
แม้จะมีโครงสร้างที่เรียบง่าย แต่ ViTPose ก็ทำงานได้ดีมากในการประมาณท่าทางของมนุษย์ ให้ผลลัพธ์ที่ดีมากกับชุดข้อมูล MS COCO ที่มีชื่อเสียง แม้จะเหนือกว่ารุ่นที่ซับซ้อนอื่นๆ อีกมากมายก็ตาม นี่แสดงให้เห็นว่าโมเดลธรรมดาสามารถทรงพลังได้มาก คุณสมบัติอีกอย่างของ ViTPose ก็คือสามารถถ่ายทอด "ความรู้" จากรุ่นใหญ่ไปสู่รุ่นเล็กได้ เปรียบเสมือนครูที่มีประสบการณ์สามารถถ่ายทอดความรู้ให้นักเรียน รุ่นเล็ก ๆ ก็มีความเข้มแข็งเท่ารุ่นใหญ่ได้
รหัสและแบบจำลองของ ViTPose เป็นโอเพ่นซอร์ส ซึ่งหมายความว่าใครๆ ก็สามารถใช้งานได้ฟรี และดำเนินการวิจัยและพัฒนาเกี่ยวกับมัน
ViTPose เปรียบเสมือนเครื่องมือที่เรียบง่ายแต่ทรงพลังที่ช่วยให้คอมพิวเตอร์เข้าใจการกระทำของมนุษย์ ข้อดีของมันคือความเรียบง่าย ความยืดหยุ่น ประสิทธิภาพ และความง่ายในการเรียนรู้ ทำให้เป็นแบบจำลองพื้นฐานที่น่าหวังมากในด้านการประมาณท่าทางของมนุษย์
แบบจำลองนี้ใช้เลเยอร์ Transformer เพื่อประมวลผลข้อมูลภาพ และใช้ตัวถอดรหัสน้ำหนักเบาเพื่อทำนายจุดสำคัญ ตัวถอดรหัสสามารถใช้เลเยอร์การแยกส่วนแบบง่ายหรือการแก้ไขแบบไบลิเนียร์เพื่อเพิ่มตัวอย่างแผนผังคุณลักษณะ ViTPose ไม่เพียงทำงานได้ดีกับชุดข้อมูลมาตรฐาน แต่ยังทำงานได้ดีในการจัดการสิ่งกีดขวางและท่าทางต่างๆ สามารถนำไปใช้กับงานต่างๆ ได้ เช่น การประมาณท่าทางของมนุษย์ การประมาณท่าทางของสัตว์ และการตรวจจับจุดสำคัญของใบหน้า
สาธิต:https://huggingface.co/spaces/hysts/ViTPose-transformers
นางแบบ : https://huggingface.co/collections/usyd-community/vitpose-677fcfd0a0b2b5c8f79c4335
โดยรวมแล้ว ViTPose มอบแบบจำลองพื้นฐานที่ทรงพลังสำหรับสาขาการประมาณท่าทางของมนุษย์ด้วยโครงสร้างที่มีประสิทธิภาพและประสิทธิภาพที่ยอดเยี่ยม คุณสมบัติโอเพ่นซอร์สยังอำนวยความสะดวกในการมีส่วนร่วมของนักวิจัยและนักพัฒนามากขึ้นและส่งเสริมการพัฒนาในสาขานี้ ความเรียบง่าย ประสิทธิภาพ และความสะดวกในการใช้งานเป็นข้อได้เปรียบหลัก