마이크로소프트가 최근 출시한 화면 콘텐츠 분석 도구인 옴니파서(OmniParser)가 이번 주 인공기술 오픈소스 플랫폼 허깅페이스(HuggingFace)에서 가장 인기 있는 모델 목록에서 1위를 차지했다. HuggingFace의 공동 창립자이자 CEO인 Clem Delangue에 따르면, 이는 이 상을 수상한 이 분야 최초의 구문 분석 도구입니다.
OmniParser는 주로 스크린샷을 구조화된 데이터로 변환하여 다른 시스템이 그래픽 사용자 인터페이스를 더 잘 이해하고 처리할 수 있도록 돕는 데 사용됩니다. 이 도구는 다중 모델 협업 작업 방법을 채택합니다. YOLOv8은 대화형 요소의 위치를 감지하고, BLIP-2는 요소의 사용을 분석하며, 광학 문자 인식 모듈을 갖추고 텍스트 정보를 추출하여 궁극적으로 포괄적인 분석을 수행합니다. 인터페이스의.
이 오픈 소스 도구는 광범위한 호환성을 갖추고 있으며 많은 주류 비전 모델을 지원합니다. Microsoft Partner Research 관리자인 Ahmed Awadallah는 기술 개발을 촉진하려면 개방적인 협력이 중요하며 OmniParser는 이러한 개념을 실천한 산물이라고 강조했습니다.
현재 거대 기술 기업들은 화면 상호 작용 분야에 대한 계획을 세웠습니다. Anthropic은 Computer Use라는 비공개 소스 솔루션을 출시했고 Apple은 모바일 인터페이스용 Ferret-UI를 출시했습니다. 이와 대조적으로 OmniParser는 플랫폼 간 다양성으로 인해 고유한 장점을 보여줍니다.
그러나 OmniParser는 반복되는 아이콘 인식 및 텍스트 중복 시나리오에서의 정확한 위치 지정과 같은 몇 가지 기술적인 문제에 여전히 직면해 있습니다. 그러나 오픈 소스 커뮤니티는 일반적으로 더 많은 개발자가 개선에 참여할수록 이러한 문제가 해결될 것으로 믿고 있습니다.
OmniParser의 빠른 인기는 범용 화면 상호 작용 도구에 대한 개발자의 긴급한 요구를 보여주며 이 분야가 빠른 개발을 가져올 수 있음을 나타냅니다.
주소: https://microsoft.github.io/OmniParser/