Microsoft ปล่อย Omniparser v2.0: แปลงภาพหน้าจอเป็นรูปแบบโครงสร้างที่สร้างขึ้นได้ LLM - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-17 22:48:02

Omniparser V2.0 รุ่นล่าสุดของ Microsoft เป็นเครื่องมือแยกวิเคราะห์การปฏิวัติที่ออกแบบมาโดยเฉพาะเพื่อแปลงภาพหน้าจอผู้ใช้ (UI) เป็นรูปแบบข้อมูลที่มีโครงสร้าง เป้าหมายหลักของเครื่องมือนี้คือการช่วยให้ผู้ใช้เข้าใจและจัดการข้อมูลบนหน้าจอได้อย่างมีประสิทธิภาพมากขึ้นโดยเพิ่มประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM)-เอเจนต์ UI ที่ขับเคลื่อนด้วย การเปิดตัว Omniparser เป็นขั้นตอนใหม่ในเทคโนโลยีการประมวลผลระบบอัตโนมัติ UI ทำให้ผู้ใช้ได้รับประสบการณ์การโต้ตอบที่ชาญฉลาดยิ่งขึ้น

เพื่อให้แน่ใจว่าประสิทธิภาพและความแม่นยำของ Omniparser Microsoft ได้สร้างชุดข้อมูลหลักสองชุดอย่างรอบคอบ: ชุดข้อมูลการตรวจจับไอคอนแบบโต้ตอบและชุดข้อมูลคำอธิบายไอคอน อดีตสกัดตัวอย่างจำนวนมากของพื้นที่ที่คลิกได้และสามารถดำเนินการได้จากหน้าเว็บยอดนิยมและใส่หมายเหตุประกอบด้วยเทคโนโลยีการเพิ่มความคิดเห็นอัตโนมัติ การสร้างชุดข้อมูลเหล่านี้เป็นรากฐานที่แข็งแกร่งสำหรับการฝึกอบรมและการเพิ่มประสิทธิภาพของ Omniparser

ใน v2.0 Omniparser ได้รับการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ ชุดข้อมูลที่อัปเดตไม่เพียง แต่มีขนาดใหญ่ขึ้นเท่านั้น แต่ยังมีคุณภาพสูงขึ้นซึ่งจะเพิ่มความแม่นยำของคำอธิบายไอคอนและการวางตำแหน่ง 60% นอกจากนี้รุ่นนี้ได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในเวลาแฝงโดยใช้เวลาในการประมวลผลเฉลี่ยบนอุปกรณ์ A100 เพียง 0.6 วินาที/เฟรมและ 0.8 วินาที/เฟรมในการ์ดกราฟิก 4090 เดียว ในการทดสอบ Screnspot Pro อัตราความแม่นยำเฉลี่ยของ Omniparser ถึง 39.6%แสดงให้เห็นถึงความสามารถในการวิเคราะห์ที่แข็งแกร่ง

การผสมผสานที่ไร้รอยต่อของ Omniparser และ Omnitool ช่วยให้ผู้ใช้ได้รับประสบการณ์การทำงานที่ยืดหยุ่นมากขึ้น ด้วย Omnitool ผู้ใช้สามารถควบคุมเครื่องเสมือน Windows 11 ได้อย่างง่ายดายและเลือกรุ่นภาพที่เหมาะสมสำหรับการแยกวิเคราะห์ ปัจจุบัน Omnitool รองรับโมเดลภาษาขนาดใหญ่ที่หลากหลายรวมถึง OpenAI, Deepseek (R1) หลายรุ่น, Qwen (2.5VL) และการใช้คอมพิวเตอร์มานุษยวิทยาตอบสนองความต้องการของผู้ใช้ที่แตกต่างกัน

ฟังก์ชั่นหลักของ Omniparser คือการแปลงภาพสกรีนช็อตที่ไม่มีโครงสร้างเป็นรายการที่มีโครงสร้างขององค์ประกอบรวมถึงที่ตั้งของพื้นที่เชิงโต้ตอบและคำอธิบายของฟังก์ชันการทำงานที่เป็นไปได้ของไอคอน เครื่องมือนี้เหมาะสำหรับภาพหน้าจอหลายประเภทซึ่งสามารถประมวลผลได้อย่างมีประสิทธิภาพไม่ว่าจะเป็นอินเทอร์เฟซพีซีหรืออินเทอร์เฟซโทรศัพท์มือถือ อย่างไรก็ตามผู้ใช้จำเป็นต้องมีทักษะการวิเคราะห์และการคิดอย่างมีวิจารณญาณในระหว่างการใช้งานเพราะแม้ว่า Omniparser สามารถแยกข้อมูลได้

แม้ว่า Omniparser ทำงานได้ดีในการแยกวิเคราะห์ UI แต่ก็ไม่สามารถละเว้นข้อ จำกัด ได้ เครื่องมือนี้ไม่ได้รวมฟังก์ชั่นการตรวจจับเนื้อหาที่เป็นอันตรายดังนั้นผู้ใช้ควรให้ข้อมูลด้วยความระมัดระวังเมื่อใช้งานเพื่อให้แน่ใจว่าไม่มีข้อมูลที่เป็นอันตรายใด ๆ นอกจากนี้แม้ว่า Omniparser จะแปลงภาพหน้าจอเป็นข้อความ แต่ยังสามารถใช้ในการสร้างเอเจนต์อินเทอร์เฟซผู้ใช้กราฟิกที่สามารถดำเนินการได้ นักพัฒนาจะต้องปฏิบัติตามมาตรฐานความปลอดภัยและจริยธรรมอย่างเคร่งครัดเมื่อสร้างและดำเนินงานตัวแทนเพื่อให้แน่ใจว่าการใช้เทคโนโลยีอย่างรับผิดชอบ

การเปิดตัว Omniparser v2.0 ไม่เพียง แต่ให้เครื่องมือที่ทรงพลังสำหรับระบบอัตโนมัติ UI แต่ยังเปิดโอกาสใหม่สำหรับนักพัฒนาเพื่อสำรวจสถานการณ์แอปพลิเคชันเพิ่มเติม ไม่ว่าจะเป็นการปรับปรุงประสบการณ์ผู้ใช้หรือเพิ่มประสิทธิภาพกระบวนการทางธุรกิจ Omniparser ได้แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยม ด้วยการทำซ้ำอย่างต่อเนื่องของเทคโนโลยีเราหวังว่าจะได้เห็นแอพพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นและผลักดันเทคโนโลยีการวิเคราะห์ UI ให้สูงขึ้น