La dernière version de Microsoft d'Omniparser V2.0 est un outil d'analyse révolutionnaire conçu spécifiquement pour convertir des captures d'écran d'interface utilisateur (UI) en formats de données structurés. L'objectif central de cet outil est d'aider les utilisateurs à comprendre et à manipuler plus efficacement des informations à l'écran en améliorant les performances des agents d'interface utilisateur basés sur le modèle de grande langue (LLM). Le lancement d'Omniparser marque une nouvelle étape dans la technologie de traitement de l'automatisation de l'interface utilisateur, offrant aux utilisateurs une expérience interactive plus intelligente.
Pour garantir l'efficacité et la précision d'Omniparser, Microsoft a soigneusement construit deux ensembles de données clés: l'ensemble de données interactif de détection d'icône et l'ensemble de données de description de l'icône. Le premier extrait un grand nombre d'exemples de zones cliquables et exploitables à partir de pages Web populaires et les annote avec une technologie d'annotation automatisée; La construction de ces ensembles de données offre une base solide pour la formation et l'optimisation de l'omniparser.
Dans la v2.0, omniparser a réalisé des améliorations significatives des performances. L'ensemble de données mis à jour est non seulement plus grand, mais aussi de qualité supérieure, ce qui augmente la précision de la description et du positionnement de l'icône de 60%. De plus, cette version a fait une percée significative de latence, le temps de traitement moyen sur le périphérique A100 n'étant que de 0,6 seconde / cadre et 0,8 seconde / cadre sur une seule carte graphique 4090. Dans le test pro dens de capot pro, le taux de précision moyen d'Omniparrser a atteint 39,6%, démontrant ses fortes capacités analytiques.
La combinaison transparente d'Omniparser et Omnitool offre aux utilisateurs une expérience de fonctionnement plus flexible. Avec Omnitool, les utilisateurs peuvent facilement contrôler les machines virtuelles Windows 11 et sélectionner des modèles visuels appropriés pour l'analyse. Actuellement, Omnitool prend en charge une variété de modèles de grandes langues, y compris plusieurs versions d'OpenAI, Deepseek (R1), Qwen (2.5VL) et l'utilisation d'ordinateurs anthropiques, répondant aux besoins des différents utilisateurs.
La fonction centrale de l'omniparser est de convertir des images de capture d'écran non structurées en listes structurées d'éléments, y compris l'emplacement des zones interactives et la description des fonctionnalités potentielles des icônes. Cet outil convient à de nombreux types de captures d'écran, qui peuvent être traitées efficacement, qu'il s'agisse de l'interface PC ou de l'interface de téléphone mobile. Cependant, les utilisateurs doivent avoir certaines compétences analytiques et une réflexion critique pendant l'utilisation, car bien qu'Omniparser puisse extraire des informations, le jugement final doit encore être porté par l'utilisateur.
Bien que Omniparser fonctionne bien dans l'analyse de l'interface utilisateur, ses limites ne peuvent pas être ignorées. Cet outil n'intégre pas les fonctions de détection de contenu nocives, les utilisateurs doivent donc fournir une entrée avec prudence lors de l'utilisation pour s'assurer qu'elle ne contient aucune information nocive. De plus, bien qu'Omniparser convertit uniquement les captures d'écran en texte, il peut toujours être utilisé pour créer des agents d'interface utilisateur graphiques exploitables. Les développeurs doivent strictement respecter les normes de sécurité et l'éthique lors de la construction et des agents d'exploitation pour assurer l'utilisation responsable de la technologie.
La sortie d'Omniparrser V2.0 fournit non seulement des outils puissants pour l'automatisation de l'interface utilisateur, mais ouvre également de nouvelles possibilités pour les développeurs pour explorer plus de scénarios d'application. Qu'il s'agisse d'améliorer l'expérience utilisateur ou d'optimiser les processus métier, omniparser a montré un grand potentiel. Avec l'itération continue de la technologie, nous sommes impatients de voir des applications plus innovantes émerger et de pousser la technologie d'analyse de l'interface utilisateur à une nouvelle hauteur.