Microsoft が最近発表した画面コンテンツ解析ツールである OmniParser が、今週、人工テクノロジーのオープンソース プラットフォームである HuggingFace で最も人気のあるモデルのリストのトップになりました。 HuggingFace の共同創設者兼 CEO である Clem Delangue 氏によると、これはこの分野でこの賞を受賞した最初の解析ツールであるとのことです。
OmniParser は主に、他のシステムがグラフィカル ユーザー インターフェイスをよりよく理解して処理できるように、スクリーンショットを構造化データに変換するために使用されます。このツールは、マルチモデルの共同作業方式を採用しています。YOLOv8 はインタラクティブ要素の位置を検出し、BLIP-2 は要素の使用を分析し、テキスト情報を抽出する光学式文字認識モジュールを備えており、最終的に包括的な分析を実現します。インターフェースの。
このオープンソース ツールには幅広い互換性があり、多くの主流のビジョン モデルをサポートしています。 Microsoft パートナー リサーチ マネージャーの Ahmed Awadallah 氏は、技術開発を促進するにはオープンな協力が不可欠であり、OmniParser はこの概念を実践した結果であると強調しました。
現在、テクノロジー大手は画面インタラクションの分野での計画を立てています。 Anthropic は Computer Use と呼ばれるクローズドソース ソリューションをリリースし、Apple はモバイル インターフェイス用の Ferret-UI をリリースしました。対照的に、OmniParser は、クロスプラットフォームの汎用性により、独特の利点を示します。
ただし、OmniParser は、テキストが重なるシナリオでの繰り返しのアイコン認識や正確な位置決めなど、いくつかの技術的な課題に依然として直面しています。しかし、オープンソース コミュニティは一般に、より多くの開発者が改善に参加すれば、これらの問題は解決されると信じています。
OmniParser の急速な人気は、開発者がユニバーサル画面対話ツールを緊急に必要としていることを示しており、また、この分野が急速な発展をもたらす可能性があることも示しています。
アドレス: https://microsoft.github.io/OmniParser/