清華大学知能産業研究院(AIR)は2024年12月24日、モバイルデバイスの自動化制御効率の大幅な向上を目指し、最新のAIモデルAutoDroid-V2をリリースした。このモデルは、クラウドの大規模な言語モデルに依存するのではなく、小規模な言語モデルに基づくスクリプト方式を画期的に採用しており、従来の手法における高トラフィック消費と高いプライバシーとセキュリティのリスクの問題を効果的に解決し、ユーザー エクスペリエンスを向上させながらコストを削減します。サーバー側のランニングコスト。
最近、清華大学知能産業研究所 (AIR) は、モバイル デバイスの自動制御機能の最適化を目的として、AutoDroid-V2 と呼ばれる AI モデルを 2024 年 12 月 24 日にリリースしました。このモデルは、小さな言語モデルの適用を通じて、自然言語によるユーザーの操作の効率を大幅に向上させます。
AutoDroid-V2 はスクリプトベースのアプローチを採用しています。これは、クラウド内の大規模言語モデル (LLM) に依存する従来のアプローチとは異なります。この革新により、デバイスはユーザーの指示を効率的に実行し、クラウド サービスへの依存を軽減できるため、プライバシーとセキュリティが大幅に向上します。同時に、ユーザー側のトラフィック消費とサーバー側の運用コストも削減され、モバイル デバイスの普及が促進されます。
プロジェクトの背景には、近年、大規模言語モデルやビジュアル言語モデルの台頭により、自然言語コマンドによるモバイルデバイスの制御が可能になったことがある。これらのテクノロジーは、複雑なユーザー タスクを解決する新しい方法を提供します。ただし、従来の「ステップバイステップ GUI エージェント」アプローチには、大量のトラフィック消費とプライバシー セキュリティ リスクの問題があり、大規模な導入が障害に直面しています。
AutoDroid-V2 の革新的な点は、ユーザーの指示に基づいて複数ステップのスクリプトを生成し、複数の GUI 操作を一度に実行できることです。この方法では、クエリの頻度が大幅に削減され、リソースの消費が削減され、ユーザー デバイス上でタスク スクリプトを直接生成して実行できます。このモデルは、アプリケーションのドキュメントをオフラインで構築し、後続のスクリプト生成の基礎を築きます。
パフォーマンス テストでは、AutoDroid-V2 は 23 のモバイル アプリケーションで 226 のタスクのベンチマーク テストを実施し、AutoDroid や SeeClick などの以前のモデルと比較して、タスクの完了率が 10.5% 増加して 51.7% になりました。さらに、入力と出力のトークン消費量はそれぞれ 1/43.5 と 1/5.8 に削減され、モデル推論のレイテンシは元の 5.7 ~ 13.4 倍に削減されます。これらの結果は、実際のアプリケーションにおける AutoDroid-V2 の効率と信頼性を示しています。
ハイライト:
AutoDroid-V2 は、モバイル デバイスの自然言語制御の効率を向上させる、清華大学によって発表された新しい AI モデルです。
このモデルは、小規模な言語モデルを通じてクラウド サービスへの依存を軽減し、ユーザーのプライバシーとセキュリティを強化します。
ベンチマーク テストでは、AutoDroid-V2 はタスクの完了率とリソース消費量が大幅に向上しており、アプリケーションの強力な可能性を示しています。
全体として、AutoDroid-V2 は、高効率、安全性、低コストでモバイル デバイスの自動制御のための新しいソリューションを提供し、その将来の開発と幅広い用途に期待する価値があります。