Das Intelligent Industry Research Institute (AIR) der Tsinghua University hat am 24. Dezember 2024 das neueste KI-Modell AutoDroid-V2 veröffentlicht, mit dem Ziel, die Automatisierungssteuerungseffizienz mobiler Geräte deutlich zu verbessern. Dieses Modell übernimmt bahnbrechend eine Skriptmethode, die auf einem kleinen Sprachmodell basiert, anstatt sich auf ein großes Sprachmodell in der Cloud zu verlassen. Es löst effektiv die Probleme des hohen Datenverkehrsverbrauchs und der hohen Datenschutz- und Sicherheitsrisiken bei herkömmlichen Methoden und verbessert so die Benutzererfahrung bei gleichzeitiger Reduzierung serverseitige Betriebskosten.
Kürzlich hat das Intelligent Industry Research Institute (AIR) der Tsinghua University am 24. Dezember 2024 ein KI-Modell namens AutoDroid-V2 veröffentlicht, das darauf abzielt, die Automatisierungssteuerungsfunktionen mobiler Geräte zu optimieren. Dieses Modell verbessert die Effizienz der Benutzeroperationen durch natürliche Sprache durch die Anwendung kleiner Sprachmodelle erheblich.
AutoDroid-V2 verfolgt einen skriptbasierten Ansatz, der sich vom herkömmlichen Ansatz unterscheidet, der auf großen Sprachmodellen (LLM) in der Cloud basiert. Diese Innovation ermöglicht es dem Gerät, Benutzeranweisungen effizient auszuführen und die Abhängigkeit von Cloud-Diensten zu verringern, wodurch Datenschutz und Sicherheit deutlich verbessert werden. Gleichzeitig werden der nutzerseitige Verkehrsverbrauch und die serverseitigen Betriebskosten reduziert und die flächendeckende Verbreitung mobiler Geräte gefördert.
Vor dem Hintergrund des Projekts hat der Aufstieg großer Sprachmodelle und visueller Sprachmodelle in den letzten Jahren die Steuerung mobiler Geräte durch Befehle in natürlicher Sprache ermöglicht. Diese Technologien bieten neue Möglichkeiten zur Lösung komplexer Benutzeraufgaben. Der herkömmliche „Schritt-für-Schritt-GUI-Agent“-Ansatz weist jedoch Probleme mit hohem Datenverkehrsverbrauch und Datenschutzrisiken auf, sodass eine groß angelegte Bereitstellung auf Hindernisse stößt.
Die Innovation von AutoDroid-V2 besteht darin, dass es auf der Grundlage von Benutzeranweisungen mehrstufige Skripts generieren kann, um mehrere GUI-Vorgänge gleichzeitig auszuführen. Diese Methode reduziert die Abfragehäufigkeit erheblich, reduziert den Ressourcenverbrauch und kann Aufgabenskripte direkt auf dem Benutzergerät generieren und ausführen. Dieses Modell erstellt die Anwendungsdokumentation offline und legt damit den Grundstein für die anschließende Skriptgenerierung.
Im Leistungstest führte AutoDroid-V2 einen Benchmark-Test mit 226 Aufgaben auf 23 mobilen Anwendungen durch. Im Vergleich zu Vorgängermodellen wie AutoDroid und SeeClick stieg die Aufgabenerfüllungsrate um 10,5 % auf 51,7 %. Darüber hinaus wird der Eingabe- und Ausgabe-Token-Verbrauch auf 1/43,5 bzw. 1/5,8 reduziert und die Latenz der Modellinferenz wird auf das 5,7- bis 13,4-fache des Originals reduziert. Diese Ergebnisse zeigen die Effizienz und Zuverlässigkeit von AutoDroid-V2 in praktischen Anwendungen.
Höhepunkte:
AutoDroid-V2 ist ein neues KI-Modell der Tsinghua-Universität, das die Effizienz der natürlichen Sprachsteuerung mobiler Geräte verbessert.
Dieses Modell reduziert die Abhängigkeit von Cloud-Diensten durch kleine Sprachmodelle und verbessert die Privatsphäre und Sicherheit der Benutzer.
Benchmark-Tests zeigen, dass AutoDroid-V2 erhebliche Verbesserungen bei der Aufgabenerledigungsrate und dem Ressourcenverbrauch aufweist, was ein starkes Anwendungspotenzial demonstriert.
Alles in allem bietet AutoDroid-V2 mit seiner hohen Effizienz, Sicherheit und niedrigen Kosten eine neue Lösung für die automatisierte Steuerung mobiler Geräte, die große Anwendungsaussichten zeigt. Es lohnt sich, auf die zukünftige Entwicklung und breitere Anwendungsmöglichkeiten zu blicken.