เทคโนโลยีการวางตำแหน่งเป้าหมาย AI นั้นต้องเผชิญกับคอขวดที่แม่นยำเสมอ นักวิจัยที่ Illinois Tech สถาบันวิจัยซิสโก้และมหาวิทยาลัยกลางฟลอริดาได้พัฒนากรอบ SEGVG เพื่อแก้ปัญหานี้และให้ AI "วิสัยทัศน์ความละเอียดสูง" แกนกลางของ SEGVG คือการประมวลผลรายละเอียดระดับพิกเซลการแปลงข้อมูลกล่องขอบเขตเป็นสัญญาณการแบ่งส่วนเช่นการสวมใส่ "แว่นตาความละเอียดสูง" สำหรับ AI ทำให้สามารถระบุพิกเซลทุกพิกเซลได้อย่างชัดเจน
ในด้านการมองเห็น AI การวางตำแหน่งเป้าหมายเป็นปัญหาที่ยากเสมอ อัลกอริทึมแบบดั้งเดิมเป็นเหมือน "สายตาสั้น" ซึ่งสามารถวนรอบเป้าหมายด้วย "เฟรม" ได้เพียงอย่างเดียว แต่ไม่สามารถดูรายละเอียดภายในได้ มันเหมือนกับเมื่อคุณอธิบายถึงเพื่อนและพูดถึงความสูงและรูปร่างโดยประมาณของเขาหรือเธอ
เพื่อแก้ปัญหานี้กลุ่มใหญ่จากมหาวิทยาลัยเทคโนโลยีแห่งรัฐอิลลินอยส์สถาบันวิจัยซิสโก้และมหาวิทยาลัยกลางฟลอริดาได้พัฒนากรอบการวางตำแหน่งภาพใหม่ที่เรียกว่า SEGVG โดยอ้างว่าให้ AI เสนอราคา Farewell เป็น "สายตาสั้น" ต่อจากนี้!
ความลับหลักของ SEGVG คือ: "Pixel-Level" รายละเอียด! SEGVG แปลงข้อมูลกล่องขอบเขตเป็นสัญญาณการแบ่งส่วนซึ่งเทียบเท่ากับการใส่ "แว่นตาความละเอียดสูง" บน AI ทำให้ AI เห็นทุกพิกเซลของเป้าหมายอย่างชัดเจน!
โดยเฉพาะ SEGVG ใช้ "ตัวเข้ารหัสมัลติทาสกิ้งหลายชั้น" ชื่อฟังดูซับซ้อน แต่คุณสามารถเข้าใจได้จริงว่าเป็น "กล้องจุลทรรศน์" ที่มีความแม่นยำสูงกว่าที่มีการสืบค้นสำหรับการถดถอยและการสืบค้นหลายครั้งสำหรับการแบ่งส่วน พูดง่ายๆก็คือการใช้ "เลนส์" ที่แตกต่างกันเพื่อดำเนินงานการถดถอยกล่องและการแบ่งส่วนที่มีขอบเขตสังเกตเห็นเป้าหมายซ้ำ ๆ ซ้ำ ๆ และแยกข้อมูลที่ละเอียดมากขึ้น
สิ่งที่น่าทึ่งยิ่งกว่านั้นคือ SEGVG ยังแนะนำ "โมดูลการจัดตำแหน่งแบบ ternal" ซึ่งเทียบเท่ากับการจัดเตรียม AI ด้วย "นักแปล" เพื่อแก้ปัญหาของ "การอุดตันภาษา" โดยเฉพาะระหว่างพารามิเตอร์การฝึกอบรมล่วงหน้าแบบจำลองและการฝังคิวรี ผ่านกลไกความสนใจแบบไตรมาส "นักแปล" นี้สามารถ "แปล" คุณสมบัติการสืบค้นข้อความและภาพไปยังช่องทางเดียวกันทำให้ AI เข้าใจข้อมูลเป้าหมายได้ดีขึ้น
SEGVG มีผลอย่างไร? ได้รับผลลัพธ์ที่ก้าวหน้า!
นอกเหนือจากการวางตำแหน่งที่แม่นยำแล้ว SEGVG ยังสามารถส่งออกคะแนนความเชื่อมั่นที่คาดการณ์ไว้โดยแบบจำลอง พูดง่ายๆคือ AI จะบอกคุณว่ามั่นใจได้ว่าจะตัดสินตัวเองได้อย่างไร นี่เป็นสิ่งสำคัญมากในการใช้งานจริง
โอเพ่นซอร์สของ SEGVG เป็นประโยชน์หลักสำหรับวิสัยทัศน์ AI ทั้งหมด!
ที่อยู่กระดาษ: https://arxiv.org/pdf/2407.03200
ลิงค์รหัส: https://github.com/weitaikang/segvg/tree/main
การเกิดขึ้นของ SEGVG เป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการวางตำแหน่งเป้าหมาย AI Visual