OmniParser, un outil d'analyse de contenu d'écran récemment lancé par Microsoft, est arrivé cette semaine en tête de liste des modèles les plus populaires sur la plateforme open source de technologie artificielle HuggingFace. Selon Clem Delangue, co-fondateur et PDG de HuggingFace, il s'agit du premier outil d'analyse dans ce domaine à remporter ce prix.
OmniParser est principalement utilisé pour convertir des captures d'écran en données structurées afin d'aider d'autres systèmes à mieux comprendre et traiter les interfaces utilisateur graphiques. L'outil adopte une méthode de travail collaborative multimodèle : YOLOv8 est responsable de la détection de la position des éléments interactifs, BLIP-2 analyse l'utilisation des éléments et est équipé d'un module de reconnaissance optique de caractères pour extraire les informations textuelles, obtenant finalement une analyse complète. de l'interface.
Cet outil open source offre une large compatibilité et prend en charge de nombreux modèles de vision traditionnels. Ahmed Awadallah, responsable de la recherche auprès des partenaires Microsoft, a souligné qu'une coopération ouverte est cruciale pour promouvoir le développement technologique, et qu'OmniParser est le produit de la mise en pratique de ce concept.
À l’heure actuelle, les géants de la technologie ont exposé leurs projets dans le domaine de l’interaction sur écran. Anthropic a publié une solution fermée appelée Computer Use, et Apple a lancé Ferret-UI pour les interfaces mobiles. En revanche, OmniParser présente des avantages uniques en raison de sa polyvalence multiplateforme.
Cependant, OmniParser est encore confronté à certains défis techniques, tels que la reconnaissance répétée des icônes et le positionnement précis dans les scénarios de chevauchement de texte. Mais la communauté open source estime généralement qu’à mesure que davantage de développeurs participent aux améliorations, ces problèmes devraient être résolus.
La popularité rapide d'OmniParser montre le besoin urgent des développeurs en outils universels d'interaction avec l'écran et indique également que ce domaine pourrait ouvrir la voie à un développement rapide.
Adresse : https://microsoft.github.io/OmniParser/