Anthropic обновила модели серии Claude 3.5, позволяя вам управлять компьютером как человек!

Автор：Eve Cole Время обновления：2024-12-09 17:48:01

Редактор Downcodes узнал, что компания Anthropic, занимающаяся искусственным интеллектом, обновила серию моделей Claude 3.5 и выпустила новые Claude 3.5 Sonnet и Claude 3.5 Haiku. Основным моментом этого обновления является то, что оно значительно улучшает возможности кодирования и дает Клоду возможность моделировать человеческие операции на компьютерах, что знаменует собой важный шаг Anthropic в расширении коммерческих моделей ИИ до комплексных «агентов ИИ». Оценка Sonnet на SWE-bench Verified выросла до 49,0%, превзойдя все общедоступные модели, включая модель OpenAI o1-preview. Haiku хорошо показывает себя в многочисленных интеллектуальных тестах производительности, обладая более высокой скоростью и более точным выполнением команд. Это обновление предоставит более мощные инструменты помощи искусственному интеллекту и сделает работу более удобной для разработчиков и пользователей.

Компания Anthropic, занимающаяся искусственным интеллектом, объявила о крупных обновлениях серии моделей Claude 3.5, включая новые Claude 3.5 Sonnet и Claude 3.5 Haiku. В обновленной версии утверждается, что искусственный интеллект может взять на себя управление вашим компьютером, выполняя основные задачи, такие как имитация ввода с клавиатуры и щелчков мыши, для использования любого приложения, установленного на вашем компьютере.

Возможности кодирования значительно улучшены, превосходя модель OpenAI o1-preview.

Новый Claude3.5Sonnet был значительно улучшен во всех аспектах, особенно с точки зрения возможностей кодирования. Его оценка на SWE-bench Verified выросла с 33,4% до 49,0%, превзойдя все общедоступные модели, включая модель OpenAI o1-preview.

Кроме того, улучшились его показатели на стенде TAU, особенно в секторах розничной торговли и авиации. И все это при сохранении той же цены и скорости, что и его предшественник.

Отзывы клиентов показывают, что обновленный Claude3.5Sonnet совершил качественный скачок в кодировании искусственного интеллекта. Например, GitLab протестировал эту модель для задач DevSecOps и обнаружил значительные улучшения в возможностях рассуждения без увеличения задержки.

Claude3.5Haiku — это самая быстрая модель Claude следующего поколения , превосходящая Claude3Opus при той же цене и скорости и хорошо показывающая множество интеллектуальных тестов, особенно при выполнении задач кодирования. Низкая задержка Claude3.5Haiku и более точное отслеживание команд делают его очень подходящим для создания продуктов с пользовательским интерфейсом и персонализированного опыта.

Управляйте компьютером как человек

Недавно запущенная функция использования компьютера — это совершенно новая попытка . Чиновники заявляют, что речь идет не о разработке конкретных инструментов для Claude, а о том, чтобы научить его общим компьютерным навыкам, чтобы он мог использовать различные стандартные инструменты и программы. Разработчики могут использовать эту возможность для автоматизации повторяющихся процессов, создания и тестирования программного обеспечения, проведения открытых исследований и многого другого.

Конечно, нынешние способности Клода пользоваться компьютерами еще нуждаются в улучшении. Некоторые простые операции, такие как прокрутка и перетаскивание, по-прежнему вызывают затруднения у Клода. Чтобы обеспечить безопасность, чиновники также разработали новый классификатор, который может определить, причинило ли использование компьютера потенциальный вред.

«Мы собираемся вступить в новую эру, когда искусственный интеллект сможет использовать все инструменты, которые вы используете как личность для выполнения задач», — сказал в интервью Джаред Каплан, главный научный сотрудник Anthropic. Важный шаг был сделан в расширении коммерческого ИИ. модели от традиционных чат-фреймворков до полномасштабных «агентов ИИ».

В одной из демонстраций Клода попросили спланировать поездку для друга, чтобы увидеть восход солнца над мостом Золотые Ворота. ИИ не только открыл веб-страницу, но и нашел подходящее место для просмотра в Google и добавил маршрут в приложение-календарь. Хотя эта производительность впечатляет, Wired отмечает, что она не предоставляет какой-либо дополнительной информации, например, о том, как добраться до места назначения.

Кроме того, в ходе другой демонстрации Клоду было предложено создать простой веб-сайт. В результате он успешно создал веб-сайт с использованием кода Microsoft Visual Studio и открыл локальный сервер для тестирования. Однако по пути он обнаружил несколько незначительных ошибок, но при появлении соответствующего запроса успешно исправил код.

Клод 3.5 Зонне продемонстрировал свою способность выполнять многоэтапные задачи на различных программных платформах, получая необходимую информацию из системы управления взаимоотношениями с клиентами (CRM) для автономного заполнения формы запроса поставщика.

Обновленный Claude3.5Sonnet теперь доступен всем пользователям. Начиная с сегодняшнего дня, разработчики могут создавать компьютерные бета-версии на основе Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Новый Claude3.5Haiku выйдет позднее в этом месяце.

Официальный блог: https://www.anthropic.com/news/3-5-models-and-computer-use.

Выделять:

Модели Claude3.5Sonnet и Haiku были значительно обновлены, а их возможности кодирования значительно улучшены.

? Недавно запущенная функция использования компьютера позволяет Клоду управлять компьютером как человек, открывая больше возможностей.

? Использование помощников искусственного интеллекта сопряжено с риском для безопасности, и Anthropic делает упор на постепенное наблюдение и улучшение для обеспечения безопасности.

В целом, обновление модели серии Claude 3.5 от Anthropic демонстрирует быстрое развитие технологии искусственного интеллекта, а также указывает на то, что в будущем искусственный интеллект будет играть более важную роль в большем количестве областей. Несмотря на то, что некоторые проблемы все еще существуют, перспективы развития заслуживают того, чтобы с нетерпением ждать. Редактор Downcodes продолжит обращать внимание на последние разработки в этой области и предлагать читателям еще больше интересных отчетов.