Claudes Unterstützung für die Manipulation von Computerfunktionen wie ein Mensch zeigt Vorteile und Grenzen in der Forschung auf

Autor：Eve Cole Aktualisierungszeit：2025-01-09 18:12:01

Anthropics „Computernutzung“-Funktion von Claude, die im Oktober eingeführt wurde, hat wegen seiner KI-Agent-Fähigkeiten Aufmerksamkeit erregt. Claude ist das erste hochmoderne Modell, das über dieselbe grafische Benutzeroberfläche (GUI) wie Menschen interagieren kann. Der Herausgeber von Downcodes wird Ihnen einen detaillierten Einblick in die bahnbrechenden Fortschritte dieser Technologie sowie in die Herausforderungen, denen sie gegenübersteht, und ihre zukünftige Entwicklungsrichtung geben.

Seit Anthropic im Oktober Claudes „Computer Use“-Funktion auf den Markt brachte, haben die Fähigkeiten des KI-Agenten große Aufmerksamkeit erregt. Diese Funktion macht Claude zum ersten hochmodernen Modell, das über dieselbe grafische Benutzeroberfläche (GUI) wie ein Mensch interagiert.

Claude bietet Benutzern eine bequeme Möglichkeit, Vorgänge zu automatisieren, ohne dass eine API-Schnittstelle erforderlich ist, indem sie über Tastatur- und Mausoperationen auf Desktop-Screenshots zugreifen und Aufgaben erledigen.

In einer vom Show Lab der National University of Singapore durchgeführten Studie testeten Forscher Claude bei einer Vielzahl von Aufgaben, darunter Websuchen, Workflow-Abschluss, Büroproduktivität und Videospiele. Bei diesen Aufgaben wurden Claudes Fähigkeiten in verschiedenen Szenarien getestet, beispielsweise beim Suchen und Kaufen von Artikeln im Internet oder beim Extrahieren von Informationen von einer Website und dem Einfügen in eine Tabellenkalkulation. Durch diese Tests bewerteten die Forscher Claudes Leistung anhand von drei Dimensionen: Planung, Aktion und Bewertung.

Claudes Leistung ist beeindruckend, wenn es um die Ausführung komplexer Aufgaben geht. Es ist die Fähigkeit, einen klaren Plan zu formulieren, ihn Schritt für Schritt zu befolgen und den Fortschritt bei jedem Schritt zu bewerten. Darüber hinaus kann es mehrere Anwendungen koordinieren, beispielsweise das Kopieren von Webseiten mit Informationen in eine Tabellenkalkulation. In manchen Fällen ist Claude sogar in der Lage, die Ergebnisse am Ende der Mission zu überprüfen, um sicherzustellen, dass alles im Soll ist.

Allerdings macht Claude auch einige einfache Fehler, die der durchschnittliche Benutzer leicht vermeiden kann. Beispielsweise konnte bei einer Aufgabe das Abonnement nicht abgeschlossen werden, weil nicht auf der Seite nach unten gescrollt werden konnte, um die entsprechende Schaltfläche zu finden.

Es gab auch Fälle, in denen es bei offensichtlichen Aufgaben, wie dem Auswählen und Ersetzen von Text oder dem Umwandeln von Aufzählungszeichen in Zahlen, umständlich war. Darüber hinaus erkennt Claude manchmal seine Fehler nicht oder macht falsche Annahmen darüber, warum er seine Ziele nicht erreicht hat.

Die Forscher wiesen darauf hin, dass Claudes Mängel bei den Selbstbewertungsmechanismen die Ursache für diese Fehler sein könnten und dass das GUI-Agent-Framework in Zukunft möglicherweise verbessert werden muss, um strengere Selbstbewertungsmodule hinzuzufügen. Die Ergebnisse zeigen auch, dass vorhandene GUI-Agenten die grundlegenden Nuancen der menschlichen Nutzung von Computern nicht vollständig nachbilden.

Für Unternehmen ist die Möglichkeit, einfache Texte zur Beschreibung automatisierter Aufgaben zu verwenden, verlockend, aber die Technologie ist noch nicht für eine groß angelegte Einführung bereit. Das Verhalten des Modells ist unregelmäßig, was in sensiblen Anwendungen zu unvorhersehbaren Folgen führen kann. Gleichzeitig ist die Ausführung von Vorgängen über eine von Menschen gestaltete Schnittstelle nicht der schnellste Weg, eine Aufgabe zu erledigen.

Vor einer flächendeckenden Einführung müssen sich Unternehmen auch über die Sicherheitsrisiken Gedanken machen, die entstehen, wenn sie Mäusen und Tastaturen große Sprachmodelle (LLMs) anvertrauen. Untersuchungen haben beispielsweise gezeigt, dass Netzwerk-Proxys anfällig für gegnerische Angriffe sind, die Menschen leicht ignorieren können. Dennoch können Tools wie Claude Produktteams dabei helfen, Ideen zu erkunden und Lösungen zu iterieren, wodurch Zeit und Geld gespart wird, bevor neue Funktionen oder Dienste entwickelt werden.

Claudes Funktion „Computernutzung“ zeigt das enorme Potenzial für Fortschritte in der KI-Technologie, zeigt aber auch Raum für Verbesserungen in Bezug auf Zuverlässigkeit und Sicherheit auf. Ich glaube, dass KI-Tools wie Claude den Menschen in Zukunft besser dienen, die Effizienz verbessern und mehr Möglichkeiten bieten werden, da sich die Technologie weiterentwickelt und verbessert.