OmniParser ซึ่งเป็นเครื่องมือแยกวิเคราะห์เนื้อหาบนหน้าจอที่เพิ่งเปิดตัวโดย Microsoft สัปดาห์นี้ติดอันดับรายชื่อโมเดลที่ได้รับความนิยมมากที่สุดบนแพลตฟอร์มโอเพ่นซอร์สเทคโนโลยีประดิษฐ์ HuggingFace ตามที่ Clem Delangue ผู้ร่วมก่อตั้งและซีอีโอของ HuggingFace กล่าวไว้ นี่เป็นเครื่องมือแยกวิเคราะห์ตัวแรกในสาขานี้ที่ชนะรางวัลนี้
OmniParser ส่วนใหญ่จะใช้ในการแปลงภาพหน้าจอเป็นข้อมูลที่มีโครงสร้างเพื่อช่วยให้ระบบอื่นเข้าใจและประมวลผลส่วนต่อประสานผู้ใช้แบบกราฟิกได้ดีขึ้น เครื่องมือนี้ใช้วิธีการทำงานร่วมกันหลายรูปแบบ: YOLOv8 มีหน้าที่ตรวจจับตำแหน่งขององค์ประกอบเชิงโต้ตอบ BLIP-2 วิเคราะห์การใช้องค์ประกอบ และติดตั้งโมดูลการรู้จำอักขระด้วยแสงเพื่อดึงข้อมูลข้อความ ในที่สุดก็บรรลุการวิเคราะห์ที่ครอบคลุมในท้ายที่สุด ของอินเทอร์เฟซ
เครื่องมือโอเพ่นซอร์สนี้มีความเข้ากันได้ในวงกว้างและรองรับโมเดลวิชันซิสเต็มหลายรุ่น Ahmed Awadallah ผู้จัดการฝ่ายวิจัยพันธมิตรของ Microsoft เน้นย้ำว่าความร่วมมือแบบเปิดเป็นสิ่งสำคัญในการส่งเสริมการพัฒนาทางเทคโนโลยี และ OmniParser ก็เป็นผลผลิตของการฝึกฝนแนวคิดนี้
ในปัจจุบัน ยักษ์ใหญ่ด้านเทคโนโลยีได้วางแผนเกี่ยวกับการโต้ตอบบนหน้าจอ Anthropic เปิดตัวโซลูชันโอเพนซอร์สที่เรียกว่า Computer Use และ Apple เปิดตัว Ferret-UI สำหรับอินเทอร์เฟซมือถือ ในทางตรงกันข้าม OmniParser แสดงให้เห็นถึงข้อได้เปรียบที่ไม่เหมือนใครเนื่องจากความสามารถรอบด้านข้ามแพลตฟอร์ม
อย่างไรก็ตาม OmniParser ยังคงเผชิญกับความท้าทายทางเทคนิคบางอย่าง เช่น การจดจำไอคอนซ้ำๆ และการวางตำแหน่งที่แม่นยำในสถานการณ์ที่ข้อความทับซ้อนกัน แต่โดยทั่วไปแล้วชุมชนโอเพ่นซอร์สเชื่อว่าเมื่อนักพัฒนามีส่วนร่วมในการปรับปรุงมากขึ้น ปัญหาเหล่านี้ก็คาดว่าจะได้รับการแก้ไข
ความนิยมอย่างรวดเร็วของ OmniParser แสดงให้เห็นถึงความจำเป็นเร่งด่วนของนักพัฒนาสำหรับเครื่องมือโต้ตอบหน้าจอสากล และยังบ่งชี้ว่าสาขานี้อาจนำไปสู่การพัฒนาอย่างรวดเร็ว
ที่อยู่: https://microsoft.github.io/OmniParser/