บรรณาธิการของ Downcodes จะแนะนำให้คุณรู้จักกับ SegVG ซึ่งเป็นเฟรมเวิร์กใหม่ที่ช่วยแก้ปัญหาการวางตำแหน่งเป้าหมายในด้านวิสัยทัศน์ AI! อัลกอริธึมการวางตำแหน่งเป้าหมายแบบเดิมนั้นเหมือนกับ "สายตาสั้น" โดยสามารถเลือกได้เฉพาะเป้าหมายคร่าวๆ และไม่สามารถบันทึกรายละเอียดได้ SegVG ก้าวข้ามปัญหาคอขวดนี้ โดยใช้ข้อมูลโดยละเอียดระดับพิกเซลเพื่อทำให้ AI รู้สึกเหมือนสวม "แว่นตาความละเอียดสูง" และระบุทุกพิกเซลของเป้าหมายได้อย่างแม่นยำ บทความนี้จะแนะนำหลักการทำงาน ข้อดี และศักยภาพของ SegVG ในการใช้งานจริงในลักษณะที่เรียบง่ายและเข้าใจง่าย และแนบลิงก์ไปยังเอกสารและรหัสเพื่ออำนวยความสะดวกในการศึกษาและวิจัยเชิงลึกของผู้อ่าน
ในด้านการมองเห็นของ AI การวางตำแหน่งเป้าหมายถือเป็นปัญหาที่ยากมาโดยตลอด อัลกอริธึมแบบเดิมนั้นเหมือนกับ "สายตาสั้น" มันสามารถล้อมรอบเป้าหมายอย่างคร่าวๆ ด้วย "กรอบ" เท่านั้น แต่ไม่สามารถมองเห็นรายละเอียดภายในได้ชัดเจน นี่เหมือนกับการอธิบายบุคคลให้เพื่อนฟังและบอกเพียงส่วนสูงและรูปร่างโดยทั่วไปเท่านั้น แปลกที่เพื่อนของคุณจะหาคนๆ นั้นเจอ!
เพื่อที่จะแก้ไขปัญหานี้ กลุ่มคนสำคัญจาก Illinois Institute of Technology, Cisco Research Institute และ University of Central Florida ได้พัฒนากรอบการวางตำแหน่งภาพใหม่ที่เรียกว่า SegVG โดยอ้างว่าจะทำให้ AI บอกลา "สายตาสั้น"!
ความลับหลักของ SegVG คือ: รายละเอียด "ระดับพิกเซล"! อัลกอริธึมแบบดั้งเดิมใช้เฉพาะข้อมูลขอบเขตเพื่อฝึก AI ซึ่งเทียบเท่ากับการแสดงเฉพาะเงาที่พร่ามัวให้กับ AI SegVG แปลงข้อมูล Bounding Box เป็นสัญญาณการแบ่งส่วนซึ่งเทียบเท่ากับการใส่ "แว่นตาความละเอียดสูง" ลงบน AI ทำให้ AI มองเห็นทุกพิกเซลของเป้าหมายได้อย่างชัดเจน!
โดยเฉพาะอย่างยิ่ง SegVG ใช้ "ตัวเข้ารหัส-ตัวถอดรหัสหลายเลเยอร์หลายงาน" ชื่อฟังดูซับซ้อน แต่จริงๆ แล้วคุณสามารถคิดว่ามันเป็น "กล้องจุลทรรศน์" ที่มีความซับซ้อนอย่างยิ่งซึ่งมีข้อความค้นหาสำหรับการถดถอยและข้อความค้นหาหลายรายการสำหรับการแบ่งส่วน พูดง่ายๆ ก็คือ มีการใช้ "เลนส์" ที่แตกต่างกันเพื่อดำเนินการงาน Bounding Box Regression และ Segmentation ตามลำดับ และจะมีการสังเกตเป้าหมายซ้ำๆ เพื่อดึงข้อมูลที่ละเอียดยิ่งขึ้น
สิ่งที่ทรงพลังยิ่งกว่านั้นคือ SegVG ยังแนะนำ "โมดูลการจัดตำแหน่งแบบไตรภาค" ซึ่งเทียบเท่ากับการจัดเตรียม AI ด้วย "นักแปล" เพื่อแก้ปัญหา "อุปสรรคทางภาษา" โดยเฉพาะระหว่างพารามิเตอร์การฝึกอบรมล่วงหน้าของโมเดลและการฝังแบบสอบถาม ด้วยกลไกการเอาใจใส่แบบไตรภาค "นักแปล" นี้สามารถ "แปล" ข้อความค้นหา ข้อความ และคุณลักษณะภาพลงในช่องทางเดียวกัน ช่วยให้ AI เข้าใจข้อมูลเป้าหมายได้ดียิ่งขึ้น
ผลกระทบของ SegVG คืออะไร ผู้เชี่ยวชาญได้ทำการทดลองกับชุดข้อมูลที่ใช้กันทั่วไป 5 ชุดและพบว่าประสิทธิภาพของ SegVG เอาชนะอัลกอริธึมแบบเดิมๆ มากมาย! โดยเฉพาะอย่างยิ่งใน "ความยากลำบาก" ที่มีชื่อเสียงสองประการของ RefCOCO+ และ RefCOCOg "ในชุดข้อมูล SegVG ประสบความสำเร็จ ผลลัพธ์ที่ก้าวล้ำ!
นอกจากการวางตำแหน่งที่แม่นยำแล้ว SegVG ยังสามารถส่งออกคะแนนความเชื่อมั่นของการทำนายแบบจำลองได้อีกด้วย พูดง่ายๆ ก็คือ AI จะบอกคุณว่ามันมั่นใจแค่ไหนในการตัดสิน สิ่งนี้สำคัญมากในการใช้งานจริง ตัวอย่างเช่น หากคุณต้องการใช้ AI เพื่อระบุภาพทางการแพทย์ หากความเชื่อมั่นของ AI ไม่สูง คุณจะต้องตรวจสอบด้วยตนเองเพื่อหลีกเลี่ยงการวินิจฉัยผิดพลาด
โอเพ่นซอร์สของ SegVG เป็นประโยชน์อย่างยิ่งต่อขอบเขตการมองเห็นของ AI ทั้งหมด! ฉันเชื่อว่านักพัฒนาและนักวิจัยจำนวนมากขึ้นเรื่อยๆ จะเข้าร่วมค่าย SegVG ในอนาคตเพื่อร่วมกันส่งเสริมการพัฒนาเทคโนโลยีการมองเห็นของ AI
ที่อยู่กระดาษ: https://arxiv.org/pdf/2407.03200
ลิงค์โค้ด: https://github.com/WeitaiKang/SegVG/tree/main
โดยรวมแล้ว การเกิดขึ้นของ SegVG ทำให้เกิดแนวคิดและวิธีการใหม่ๆ สำหรับการวางตำแหน่งเป้าหมายที่แม่นยำในด้านการมองเห็นของ AI และโอเพ่นซอร์สยังมอบทรัพยากรการเรียนรู้และการวิจัยอันทรงคุณค่าสำหรับนักพัฒนาอีกด้วย ฉันเชื่อว่าการพัฒนา SegVG ในอนาคตจะมีผลกระทบอย่างมากต่อเทคโนโลยีการมองเห็นของ AI และสมควรได้รับความสนใจอย่างต่อเนื่องของเรา!