Поддержка Клодом манипулирования функциями компьютера подобно человеку показывает преимущества и ограничения в исследованиях - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-25 18:48:01

Функция Клода Anthropic «Использование компьютера», выпущенная в октябре, дала агентам ИИ беспрецедентные возможности взаимодействия с людьми через графический интерфейс пользователя (GUI), что привлекло широкое внимание. Эта функция преодолевает ограничения традиционных интерфейсов API и позволяет Клоду напрямую управлять компьютером для выполнения более сложных задач. Исследование, проведенное Шоу-лабораторией Национального университета Сингапура, провело комплексное тестирование Claude, чтобы оценить его производительность в различных сценариях, показав нам потенциал и ограничения этой технологии.

С тех пор как в октябре Anthropic запустила функцию Клода «Использование компьютера», возможности ИИ-агента привлекли широкое внимание. Эта функция делает Клода первой передовой моделью, которая взаимодействует через тот же графический интерфейс пользователя (GUI), что и человек.

Claude предоставляет пользователям удобный способ автоматизации операций без необходимости использования интерфейса API путем доступа к снимкам экрана рабочего стола и выполнения задач с помощью операций с клавиатурой и мышью.

В исследовании, проведенном шоу-лабораторией Национального университета Сингапура, исследователи протестировали Клода на различных задачах, включая веб-поиск, завершение рабочего процесса, производительность в офисе и видеоигры. Эти задачи проверяли способности Клода в различных сценариях, таких как поиск и покупка товаров в Интернете или извлечение информации с веб-сайта и вставка ее в электронную таблицу. С помощью этих тестов исследователи оценили эффективность Клода по трем измерениям: планирование, действие и оценка.

Производительность Клода впечатляет, когда дело доходит до выполнения сложных задач. Это умение сформулировать четкий план, следовать ему шаг за шагом и оценивать прогресс на каждом этапе. Кроме того, он может координировать работу нескольких приложений, например копировать информационные веб-страницы в электронную таблицу. В некоторых случаях Клод даже может просмотреть результаты в конце миссии, чтобы убедиться, что все соответствует цели.

Однако Клод также допускает несколько простых ошибок, которых средний пользователь может легко избежать. Например, в одной задаче не удалось завершить подписку, поскольку не было прокрутки страницы вниз для поиска соответствующей кнопки.

Были также случаи, когда он работал неуклюже при выполнении очевидных задач, таких как выделение и замена текста или замена маркеров на числа. Кроме того, Клод иногда не осознает своих ошибок или делает неверные предположения о том, почему ему не удалось достичь своих целей.

Исследователи отметили, что причиной этих ошибок могут быть недостатки Клода в механизмах самооценки и что в будущем, возможно, потребуется улучшить структуру агента с графическим интерфейсом, чтобы добавить более строгие модули самооценки. Результаты также показывают, что существующие агенты с графическим интерфейсом не полностью воспроизводят фундаментальные нюансы того, как люди используют компьютеры.

Для бизнеса возможность использовать простой текст для описания автоматизированных задач заманчива, но технология еще не готова к широкомасштабному внедрению. Поведение модели нестабильно, что может привести к непредсказуемым последствиям в чувствительных приложениях. В то же время выполнение операций через интерфейс, разработанный человеком, — не самый быстрый способ выполнения задачи.

Прежде чем начать широкое внедрение, предприятия также должны быть обеспокоены рисками безопасности, связанными с передачей больших языковых моделей (LLM) мышам и клавиатурам. Например, исследования показали, что сетевые прокси уязвимы для состязательных атак, которые люди могут легко игнорировать. Тем не менее, такие инструменты, как Claude, могут помочь продуктовым группам исследовать идеи и разрабатывать решения, экономя время и деньги перед разработкой новых функций или услуг.

Выделять:

1. Клод превосходно умеет автоматизировать сложные задачи с помощью графического пользовательского интерфейса.

2. Клод допускает ошибки при выполнении простых задач, что отражает неадекватность его механизма самооценки.

3. На данном этапе эта технология не подходит для крупномасштабного применения, и предприятиям необходимо проявлять осторожность в отношении потенциальных рисков безопасности.

В целом функция Клода «Использование компьютера» демонстрирует большой потенциал ИИ в области автоматизации, но также раскрывает области, которые все еще нуждаются в улучшении с точки зрения стабильности и безопасности. В будущем, благодаря постоянному развитию и совершенствованию технологий, агенты ИИ, такие как Клод, будут играть важную роль во многих областях.