Microsoft เปิดตัว OmniParser รุ่นใหม่: ให้ GPT-4V เข้าใจเนื้อหาของภาพหน้าจอในไม่กี่วินาทีและเข้าใจว่าจะชี้ไปที่ใด

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-01 14:00:01

GPT-4V ซึ่งเป็นสิ่งประดิษฐ์ที่เรียกว่า "การดูภาพและการพูด" ถูกวิพากษ์วิจารณ์ว่าขาดความเข้าใจเกี่ยวกับอินเทอร์เฟซแบบกราฟิก มันเหมือนกับคน “ตาบอดหน้าจอ” ที่มักจะคลิกปุ่มผิดจนน่าโมโห อย่างไรก็ตาม คาดว่าโมเดล OmniParser ที่ออกโดย Microsoft จะสามารถแก้ไขปัญหานี้ได้อย่างสมบูรณ์! OmniParser เปรียบเสมือน "ตัวแปลหน้าจอ" โดยแปลงภาพหน้าจอเป็นภาษาที่มีโครงสร้างที่เข้าใจง่ายของ GPT-4V ทำให้ "สายตา" ของ GPT-4V คมชัดยิ่งขึ้น บรรณาธิการของ Downcodes จะพาคุณไปทำความเข้าใจอย่างลึกซึ้งเกี่ยวกับโมเดลมหัศจรรย์นี้ ดูว่ามันช่วยให้ GPT-4V เอาชนะข้อบกพร่องของ "ตาบอดตา" ได้อย่างไร และเทคโนโลยีที่น่าทึ่งเบื้องหลัง

คุณยังจำ GPT-4V สิ่งประดิษฐ์ที่เรียกว่า "การดูรูปและการพูด" ได้หรือไม่ มันสามารถเข้าใจเนื้อหาของรูปภาพและทำงานตามรูปภาพได้ ถือเป็นพรสำหรับคนเกียจคร้าน! จุดอ่อน: สายตามันไม่ค่อยดี !

ลองนึกภาพว่าคุณขอให้ GPT-4V คลิกปุ่มให้คุณ แต่มันคลิกไปทั่วเหมือน "ม่านบังตา" ใช่ไหม

วันนี้ฉันจะแนะนำสิ่งประดิษฐ์ที่สามารถทำให้ GPT-4V ดูดีขึ้น - OmniParser! นี่คือรุ่นใหม่ที่ออกโดย Microsoft โดยมีเป้าหมายเพื่อแก้ปัญหาการโต้ตอบอัตโนมัติของส่วนต่อประสานกราฟิกกับผู้ใช้ (GUI)

OmniParser ทำอะไร?

พูดง่ายๆ ก็คือ OmniParser เป็น "ตัวแปลหน้าจอ" ที่สามารถแยกวิเคราะห์ภาพหน้าจอเป็น "ภาษาที่มีโครงสร้าง" ที่ GPT-4V สามารถเข้าใจได้ OmniParser รวมโมเดลการตรวจจับไอคอนเชิงโต้ตอบที่ได้รับการปรับแต่ง โมเดลคำอธิบายไอคอนที่ได้รับการปรับแต่ง และเอาต์พุตของโมดูล OCR

การรวมกันนี้จะสร้างการแสดง UI ที่มีโครงสร้างเหมือน DOM รวมถึงภาพหน้าจอที่ครอบคลุมกรอบขอบขององค์ประกอบที่อาจโต้ตอบได้ นักวิจัยได้สร้างชุดข้อมูลการตรวจจับไอคอนแบบโต้ตอบโดยใช้หน้าเว็บยอดนิยมและชุดข้อมูลคำอธิบายไอคอน ชุดข้อมูลเหล่านี้ใช้เพื่อปรับแต่งโมเดลพิเศษ: โมเดลการตรวจจับสำหรับการแยกวิเคราะห์พื้นที่โต้ตอบได้บนหน้าจอ และโมเดลคำอธิบายสำหรับการแยกความหมายการทำงานขององค์ประกอบที่ตรวจพบ

โดยเฉพาะ OmniParser จะ:

ระบุไอคอนและปุ่มแบบโต้ตอบทั้งหมดบนหน้าจอ ทำเครื่องหมายด้วยกล่อง และมอบ ID ที่ไม่ซ้ำกันให้กับแต่ละกล่อง

ใช้ข้อความเพื่ออธิบายการทำงานของแต่ละไอคอน เช่น "การตั้งค่า" และ "ย่อเล็กสุด" จดจำข้อความบนหน้าจอและดึงข้อมูลออกมา

ด้วยวิธีนี้ GPT-4V จึงสามารถรู้ได้อย่างชัดเจนว่ามีอะไรอยู่บนหน้าจอและทำอะไรได้บ้าง เพียงบอก ID ของปุ่มที่คุณต้องการคลิก

OmniParser ยอดเยี่ยมแค่ไหน?

นักวิจัยใช้การทดสอบต่างๆ เพื่อทดสอบ OmniParser และพบว่ามันสามารถทำให้ GPT-4V “ดีขึ้น” ได้จริงๆ!

ในการทดสอบ ScreenSpot นั้น OmniParser ได้ปรับปรุงความแม่นยำของ GPT-4V อย่างมาก แม้จะเหนือกว่าบางรุ่นที่ได้รับการฝึกฝนเป็นพิเศษสำหรับอินเทอร์เฟซแบบกราฟิกก็ตาม ตัวอย่างเช่น ในชุดข้อมูล ScreenSpot นั้น OmniParser ปรับปรุงความแม่นยำขึ้น 73% ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลที่ต้องอาศัยการแยกวิเคราะห์ HTML พื้นฐาน โดยเฉพาะอย่างยิ่ง การรวมความหมายท้องถิ่นขององค์ประกอบ UI ส่งผลให้มีการปรับปรุงความแม่นยำในการทำนายอย่างมีนัยสำคัญ - ไอคอนของ GPT-4V ได้รับการติดป้ายกำกับอย่างถูกต้องจาก 70.5% เป็น 93.8% เมื่อใช้เอาต์พุตของ OmniParser

ในการทดสอบ Mind2Web นั้น OmniParser ได้ปรับปรุงประสิทธิภาพของ GPT-4V ในงานท่องเว็บ และความแม่นยำของมันก็เกิน GPT-4V ที่ใช้ความช่วยเหลือด้านข้อมูล HTML อีกด้วย

ในการทดสอบ AITW นั้น OmniParser ได้ปรับปรุงประสิทธิภาพของ GPT-4V ในงานนำทางด้วยโทรศัพท์มือถืออย่างมีนัยสำคัญ

อะไรคือข้อบกพร่องของ OmniParser?

แม้ว่า OmniParser จะทรงพลังมาก แต่ก็มีข้อบกพร่องเล็กๆ น้อยๆ อยู่บ้าง เช่น:

เป็นเรื่องง่ายที่จะสับสนเมื่อต้องเผชิญกับไอคอนหรือข้อความซ้ำๆ และจำเป็นต้องมีคำอธิบายโดยละเอียดเพิ่มเติมเพื่อแยกแยะความแตกต่าง

บางครั้งการวาดเฟรมไม่แม่นยำเพียงพอ ทำให้ GPT-4V คลิกผิดตำแหน่ง

การตีความไอคอนอาจมีข้อผิดพลาดในบางครั้ง และต้องมีบริบทเพื่อให้คำอธิบายแม่นยำยิ่งขึ้น

อย่างไรก็ตาม นักวิจัยกำลังทำงานอย่างหนักเพื่อปรับปรุง OmniParser และเชื่อว่ามันจะมีประสิทธิภาพมากขึ้นเรื่อยๆ และในที่สุดก็กลายเป็นพันธมิตรที่ดีที่สุดของ GPT-4V!

ประสบการณ์โมเดล: https://huggingface.co/microsoft/OmniParser

ทางเข้ากระดาษ: https://arxiv.org/pdf/2408.00203

ข้อมูลเบื้องต้นอย่างเป็นทางการ: https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/

ไฮไลท์:

✨OmniParser สามารถช่วยให้ GPT-4V เข้าใจเนื้อหาบนหน้าจอได้ดีขึ้นและทำงานต่างๆ ได้แม่นยำยิ่งขึ้น

OmniParser ทำงานได้ดีในการทดสอบต่างๆ ซึ่งพิสูจน์ถึงประสิทธิภาพ

️OmniParser ยังคงมีบางจุดที่ต้องปรับปรุง แต่ก็มีความหวังในอนาคต

โดยรวมแล้ว OmniParser นำการปรับปรุงที่ปฏิวัติวงการมาสู่การโต้ตอบของ GPT-4V กับอินเทอร์เฟซผู้ใช้แบบกราฟิก แม้ว่าจะมีข้อบกพร่องอยู่บ้าง แต่ศักยภาพของมันก็มีมาก และการพัฒนาในอนาคตก็คุ้มค่าที่จะรอคอย บรรณาธิการของ Downcodes เชื่อว่าด้วยความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง OmniParser จะกลายเป็นดาวเด่นในด้านปัญญาประดิษฐ์!