สาขาปัญญาประดิษฐ์มุ่งมั่นที่จะทำให้เครื่องจักรเข้าใจโลกทางกายภาพที่ซับซ้อน ความก้าวหน้าในด้านนี้มีความสำคัญต่อหลายสาขา เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยเหรินหมินแห่งประเทศจีน, มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง, Shanghai AI Lab และสถาบันอื่นๆ ได้พัฒนาเทคโนโลยี Ref-AVS ซึ่งเป็นแนวทางใหม่ในการแก้ปัญหานี้ เทคโนโลยี Ref-AVS รวมข้อมูลโมดัลหลายอย่าง เช่น การแบ่งส่วนวัตถุวิดีโอ การแบ่งส่วนการอ้างอิงวัตถุวิดีโอ และการแบ่งส่วนภาพและเสียงผ่านวิธีการฟิวชั่นหลายรูปแบบที่ชาญฉลาด ช่วยให้ระบบ AI สามารถเข้าใจคำสั่งภาษาธรรมชาติได้แม่นยำยิ่งขึ้น และดำเนินการเสียงที่ซับซ้อน งานภาพ การวางตำแหน่งที่แม่นยำของวัตถุเป้าหมายในฉากนั้นทะลุข้อจำกัดก่อนหน้าของ AI ในการทำความเข้าใจหลายรูปแบบ
ในสาขาปัญญาประดิษฐ์ การทำให้เครื่องจักรเข้าใจโลกทางกายภาพที่ซับซ้อนเหมือนมนุษย์ถือเป็นความท้าทายที่สำคัญมาโดยตลอด เมื่อเร็วๆ นี้ ทีมวิจัยซึ่งประกอบด้วยมหาวิทยาลัยเหรินหมินแห่งประเทศจีน, มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง, Shanghai AI Lab และสถาบันอื่นๆ ได้เสนอเทคโนโลยีที่ก้าวล้ำอย่าง Ref-AVS ซึ่งนำมาซึ่งความหวังใหม่ในการแก้ปัญหานี้
แกนหลักของเทคโนโลยี Ref-AVS อยู่ที่วิธีการฟิวชั่นหลายรูปแบบอันเป็นเอกลักษณ์ โดยผสานรวมข้อมูลโมดอลหลายอย่างอย่างชาญฉลาด เช่น การแบ่งส่วนวัตถุวิดีโอ (VOS) การแบ่งส่วนการอ้างอิงวัตถุวิดีโอ (Ref-VOS) และการแบ่งส่วนภาพและเสียง (AVS) นวัตกรรมฟิวชั่นนี้ช่วยให้ระบบ AI ไม่เพียงแต่ประมวลผลวัตถุที่มีเสียงเท่านั้น แต่ยังระบุวัตถุที่ไม่ทำให้เกิดเสียงแต่มีความสำคัญเท่าเทียมกันในฉากอีกด้วย ความก้าวหน้านี้ช่วยให้ AI เข้าใจคำสั่งที่ผู้ใช้อธิบายผ่านภาษาธรรมชาติได้แม่นยำยิ่งขึ้น และระบุตำแหน่งวัตถุเฉพาะในฉากภาพและเสียงที่ซับซ้อนได้อย่างแม่นยำ
เพื่อสนับสนุนการวิจัยและการตรวจสอบเทคโนโลยี Ref-AVS ทีมวิจัยได้สร้างชุดข้อมูลขนาดใหญ่ที่เรียกว่า Ref-AVS Bench ชุดข้อมูลนี้ประกอบด้วยเฟรมวิดีโอ 40,020 เฟรมซึ่งครอบคลุมออบเจ็กต์ 6,888 รายการและนิพจน์อ้างอิง 20,261 รายการ แต่ละเฟรมวิดีโอจะมาพร้อมกับเสียงที่เกี่ยวข้องและคำอธิบายประกอบที่มีรายละเอียดระดับพิกเซล ชุดข้อมูลที่หลากหลายและหลากหลายนี้เป็นรากฐานที่มั่นคงสำหรับการวิจัยหลายรูปแบบ และเปิดโอกาสใหม่สำหรับการวิจัยในอนาคตในสาขาที่เกี่ยวข้อง
ในชุดการทดลองเชิงปริมาณและเชิงคุณภาพที่เข้มงวด เทคโนโลยี Ref-AVS แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม โดยเฉพาะอย่างยิ่งในชุดย่อย Seen นั้น Ref-AVS มีประสิทธิภาพเหนือกว่าวิธีการอื่นๆ ที่มีอยู่ ซึ่งพิสูจน์ให้เห็นถึงความสามารถในการแบ่งส่วนอันทรงพลังอย่างเต็มที่ สิ่งที่น่าสังเกตมากกว่านั้นคือผลการทดสอบในชุดย่อย Unseen และ Null ยังตรวจสอบความสามารถในการสรุปทั่วไปที่ยอดเยี่ยมและความทนทานของเทคโนโลยี Ref-AVS กับการอ้างอิงที่เป็นค่าว่าง ซึ่งมีความสำคัญอย่างยิ่งต่อสถานการณ์การใช้งานจริง
ความสำเร็จของเทคโนโลยี Ref-AVS ไม่เพียงแต่ดึงดูดความสนใจอย่างกว้างขวางในแวดวงวิชาการเท่านั้น แต่ยังเปิดเส้นทางใหม่สำหรับการใช้งานจริงในอนาคตอีกด้วย เราคาดการณ์ได้ว่าเทคโนโลยีนี้จะมีบทบาทสำคัญในหลายๆ ด้าน เช่น การวิเคราะห์วิดีโอ การประมวลผลภาพทางการแพทย์ การขับขี่อัตโนมัติ และการนำทางด้วยหุ่นยนต์ ตัวอย่างเช่น ในด้านการแพทย์ Ref-AVS อาจช่วยให้แพทย์ตีความภาพทางการแพทย์ที่ซับซ้อนได้แม่นยำมากขึ้น ในด้านการขับขี่แบบอัตโนมัติ อาจปรับปรุงการรับรู้ของยานพาหนะต่อสภาพแวดล้อมโดยรอบ ในด้านวิทยาการหุ่นยนต์ อาจทำให้หุ่นยนต์เข้าใจได้ดีขึ้น ปฏิบัติตามคำแนะนำด้วยวาจาของมนุษย์
ผลการวิจัยนี้ได้รับการนำเสนอที่ ECCV2024 และยังมีการเผยแพร่เอกสารและข้อมูลโครงการที่เกี่ยวข้องต่อสาธารณะ ซึ่งเป็นแหล่งการเรียนรู้และการสำรวจอันทรงคุณค่าสำหรับนักวิจัยและนักพัฒนาทั่วโลกที่สนใจในสาขานี้ ทัศนคติที่เปิดกว้างและแบ่งปันนี้ไม่เพียงสะท้อนถึงจิตวิญญาณทางวิชาการของทีมวิจัยทางวิทยาศาสตร์ของจีนเท่านั้น แต่ยังจะส่งเสริมการพัฒนาอย่างรวดเร็วของสาขา AI ทั้งหมดอีกด้วย
การเกิดขึ้นของเทคโนโลยี Ref-AVS ถือเป็นก้าวสำคัญในการทำความเข้าใจปัญญาประดิษฐ์แบบหลายรูปแบบ งานดังกล่าวไม่เพียงแสดงให้เห็นถึงความสามารถด้านนวัตกรรมของทีมวิจัยทางวิทยาศาสตร์ของจีนในสาขา AI เท่านั้น แต่ยังวาดพิมพ์เขียวที่ชาญฉลาดและเป็นธรรมชาติมากขึ้นสำหรับอนาคตของการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ เนื่องจากเทคโนโลยีนี้ได้รับการปรับปรุงและนำไปใช้อย่างต่อเนื่อง เราจึงมีเหตุผลที่จะคาดหวังว่าระบบ AI ในอนาคตจะสามารถเข้าใจและปรับให้เข้ากับโลกที่ซับซ้อนของมนุษย์ได้ดีขึ้น และนำการเปลี่ยนแปลงที่ปฏิวัติวงการมาสู่ทุกสาขาอาชีพ
ที่อยู่กระดาษ: https://arxiv.org/abs/2407.10957
หน้าแรกของโครงการ:
https://gewu-lab.github.io/Ref-AVS/
กล่าวโดยย่อ การถือกำเนิดของเทคโนโลยี Ref-AVS ได้นำมาซึ่งความก้าวหน้าครั้งใหม่ในด้านความเข้าใจปัญญาประดิษฐ์แบบหลายรูปแบบ เทคโนโลยีนี้จะส่งเสริมการพัฒนาปัญญาประดิษฐ์ไปสู่การโต้ตอบที่ชาญฉลาดและเป็นธรรมชาติมากขึ้น นำความสะดวกสบายมาสู่สังคมมนุษย์มากขึ้น