Функция «использования компьютера» компании Anthropic в Claude, запущенная в октябре, привлекла внимание своими возможностями агента искусственного интеллекта. Claude стал первой передовой моделью, которая может взаимодействовать через тот же графический интерфейс пользователя (GUI), что и люди. Редактор Downcodes даст вам глубокое понимание революционного прогресса этой технологии, а также проблем, с которыми она сталкивается, и направления ее будущего развития.
С тех пор как в октябре Anthropic запустила функцию Клода «Использование компьютера», возможности ИИ-агента привлекли широкое внимание. Эта функция делает Клода первой передовой моделью, которая взаимодействует через тот же графический интерфейс пользователя (GUI), что и человек.
Claude предоставляет пользователям удобный способ автоматизации операций без необходимости использования интерфейса API путем доступа к снимкам экрана рабочего стола и выполнения задач с помощью операций с клавиатурой и мышью.
В исследовании, проведенном шоу-лабораторией Национального университета Сингапура, исследователи протестировали Клода на различных задачах, включая веб-поиск, завершение рабочего процесса, производительность в офисе и видеоигры. Эти задачи проверяли способности Клода в различных сценариях, таких как поиск и покупка товаров в Интернете или извлечение информации с веб-сайта и вставка ее в электронную таблицу. С помощью этих тестов исследователи оценивали эффективность Клода по трем измерениям: планирование, действие и оценка.
Производительность Клода впечатляет, когда дело доходит до выполнения сложных задач. Это умение сформулировать четкий план, следовать ему шаг за шагом и оценивать прогресс на каждом этапе. Кроме того, он может координировать работу нескольких приложений, например копировать информационные веб-страницы в электронную таблицу. В некоторых случаях Клод даже может просмотреть результаты в конце миссии, чтобы убедиться, что все соответствует цели.
Однако Клод также допускает несколько простых ошибок, которых средний пользователь может легко избежать. Например, в одной задаче не удалось завершить подписку, поскольку не было прокрутки страницы вниз для поиска соответствующей кнопки.
Были также случаи, когда он работал неуклюже при выполнении очевидных задач, таких как выделение и замена текста или замена маркеров на числа. Кроме того, Клод иногда не осознает своих ошибок или делает неверные предположения о том, почему ему не удалось достичь своих целей.
Исследователи отметили, что причиной этих ошибок могут быть недостатки Клода в механизмах самооценки и что в будущем, возможно, потребуется улучшить структуру агента с графическим интерфейсом, чтобы добавить более строгие модули самооценки. Результаты также показывают, что существующие агенты с графическим интерфейсом не полностью воспроизводят фундаментальные нюансы того, как люди используют компьютеры.
Для бизнеса возможность использовать простой текст для описания автоматизированных задач заманчива, но технология еще не готова к широкомасштабному внедрению. Поведение модели нестабильно, что может привести к непредсказуемым последствиям в чувствительных приложениях. В то же время выполнение операций через интерфейс, разработанный человеком, — не самый быстрый способ выполнения задачи.
Перед широким распространением предприятиям также следует задуматься о рисках безопасности, связанных с передачей больших языковых моделей (LLM) мышам и клавиатурам. Например, исследования показали, что сетевые прокси уязвимы для состязательных атак, которые люди могут легко игнорировать. Тем не менее, такие инструменты, как Claude, могут помочь продуктовым командам исследовать идеи и разрабатывать решения, экономя время и деньги перед разработкой новых функций или услуг.
Функция Клода «Использование компьютера» демонстрирует огромный потенциал развития технологий искусственного интеллекта, но также открывает возможности для улучшения с точки зрения надежности и безопасности. В будущем, когда технологии продолжат развиваться и совершенствоваться, я верю, что инструменты искусственного интеллекта, такие как Клод, будут лучше служить людям, повышать эффективность и открывать больше возможностей.