Die im Oktober veröffentlichte Claude-Funktion „Computer Usage“ von Anthropic gab KI-Agenten beispiellose Möglichkeiten, über eine grafische Benutzeroberfläche (GUI) mit Menschen zu interagieren, was große Aufmerksamkeit erregte. Diese Funktion durchbricht die Einschränkungen herkömmlicher API-Schnittstellen und ermöglicht es Claude, den Computer direkt zu steuern, um komplexere Aufgaben auszuführen. Untersuchungen des National University of Singapore Show Lab führten einen umfassenden Test mit Claude durch, um seine Leistung in verschiedenen Szenarien zu bewerten und uns das Potenzial und die Grenzen dieser Technologie aufzuzeigen.
Seit Anthropic im Oktober Claudes „Computer Use“-Funktion auf den Markt brachte, haben die Fähigkeiten des KI-Agenten große Aufmerksamkeit erregt. Diese Funktion macht Claude zum ersten hochmodernen Modell, das über dieselbe grafische Benutzeroberfläche (GUI) wie ein Mensch interagiert.
Claude bietet Benutzern eine bequeme Möglichkeit, Vorgänge zu automatisieren, ohne dass eine API-Schnittstelle erforderlich ist, indem sie über Tastatur- und Mausoperationen auf Desktop-Screenshots zugreifen und Aufgaben erledigen.
In einer vom Show Lab der National University of Singapore durchgeführten Studie testeten Forscher Claude bei einer Vielzahl von Aufgaben, darunter Websuchen, Workflow-Abschluss, Büroproduktivität und Videospiele. Bei diesen Aufgaben wurden Claudes Fähigkeiten in verschiedenen Szenarien getestet, beispielsweise beim Suchen und Kaufen von Artikeln im Internet oder beim Extrahieren von Informationen von einer Website und dem Einfügen in eine Tabellenkalkulation. Durch diese Tests bewerteten die Forscher Claudes Leistung in drei Dimensionen: Planung, Aktion und Bewertung.
Claudes Leistung ist beeindruckend, wenn es um die Ausführung komplexer Aufgaben geht. Es ist die Fähigkeit, einen klaren Plan zu formulieren, ihn Schritt für Schritt zu befolgen und den Fortschritt bei jedem Schritt zu bewerten. Darüber hinaus kann es mehrere Anwendungen koordinieren, beispielsweise das Kopieren von Webseiten mit Informationen in eine Tabellenkalkulation. In manchen Fällen ist Claude sogar in der Lage, die Ergebnisse am Ende der Mission zu überprüfen, um sicherzustellen, dass alles im Soll ist.
Allerdings macht Claude auch einige einfache Fehler, die der durchschnittliche Benutzer leicht vermeiden kann. Beispielsweise konnte bei einer Aufgabe das Abonnement nicht abgeschlossen werden, weil nicht auf der Seite nach unten gescrollt werden konnte, um die entsprechende Schaltfläche zu finden.
Es gab auch Fälle, in denen es bei offensichtlichen Aufgaben, wie dem Auswählen und Ersetzen von Text oder dem Umwandeln von Aufzählungszeichen in Zahlen, umständlich war. Darüber hinaus erkennt Claude manchmal seine Fehler nicht oder macht falsche Annahmen darüber, warum er seine Ziele nicht erreicht hat.
Die Forscher wiesen darauf hin, dass Claudes Mängel bei den Selbstbewertungsmechanismen die Ursache für diese Fehler sein könnten und dass das GUI-Agent-Framework in Zukunft möglicherweise verbessert werden muss, um strengere Selbstbewertungsmodule hinzuzufügen. Die Ergebnisse zeigen auch, dass vorhandene GUI-Agenten die grundlegenden Nuancen der menschlichen Nutzung von Computern nicht vollständig nachbilden.
Für Unternehmen ist die Möglichkeit, einfache Texte zur Beschreibung automatisierter Aufgaben zu verwenden, verlockend, aber die Technologie ist noch nicht für eine groß angelegte Einführung bereit. Das Verhalten des Modells ist unregelmäßig, was in sensiblen Anwendungen zu unvorhersehbaren Folgen führen kann. Gleichzeitig ist die Ausführung von Vorgängen über eine von Menschen gestaltete Schnittstelle nicht der schnellste Weg, eine Aufgabe zu erledigen.
Vor einer flächendeckenden Einführung müssen sich Unternehmen auch über die Sicherheitsrisiken Gedanken machen, die entstehen, wenn sie Mäusen und Tastaturen große Sprachmodelle (LLMs) anvertrauen. Untersuchungen haben beispielsweise gezeigt, dass Netzwerk-Proxys anfällig für gegnerische Angriffe sind, die Menschen leicht ignorieren können. Dennoch können Tools wie Claude Produktteams dabei helfen, Ideen zu erkunden und Lösungen zu iterieren, wodurch Zeit und Geld gespart wird, bevor neue Funktionen oder Dienste entwickelt werden.
Highlight:
1. Claude zeichnet sich durch seine Fähigkeit aus, komplexe Aufgaben über eine grafische Benutzeroberfläche zu automatisieren.
2. Claude macht bei der Ausführung einfacher Aufgaben Fehler, was die Unzulänglichkeit seines Selbstbewertungsmechanismus widerspiegelt.
3. Zum jetzigen Zeitpunkt ist diese Technologie nicht für groß angelegte Anwendungen geeignet und Unternehmen müssen hinsichtlich potenzieller Sicherheitsrisiken vorsichtig sein.
Insgesamt zeigt Claudes „Computer Usage“-Feature das große Potenzial von KI im Bereich der Automatisierung, zeigt aber auch Bereiche auf, die hinsichtlich Stabilität und Sicherheit noch verbesserungswürdig sind. Mit der kontinuierlichen Weiterentwicklung und Verbesserung der Technologie werden KI-Agenten wie Claude in Zukunft in weiteren Bereichen eine wichtige Rolle spielen.