Anthropic은 Claude 3.5 시리즈 모델을 업그레이드하여 컴퓨터를 사람처럼 조작할 수 있도록 했습니다!

저자：Eve Cole 업데이트 시간：2024-12-09 17:48:01

Downcodes의 편집자는 인공 지능 회사인 Anthropic이 Claude 3.5 시리즈 모델을 업그레이드하고 새로운 Claude 3.5 Sonnet 및 Claude 3.5 Haiku를 출시했다는 사실을 알게 되었습니다. 이번 업그레이드의 핵심 하이라이트는 코딩 기능을 크게 향상시키고 Claude에게 컴퓨터에서 인간의 작업을 시뮬레이션할 수 있는 능력을 제공하여 상업용 AI 모델을 포괄적인 "AI 에이전트"로 확장하는 Anthropic의 중요한 단계를 표시한다는 것입니다. SWE-bench Verified에서 Sonnet의 점수는 49.0%로 증가하여 OpenAI의 o1-preview 모델을 포함하여 공개적으로 사용 가능한 모든 모델을 능가했습니다. Haiku는 더 빠른 속도와 더 정확한 명령 추적 기능으로 여러 지능형 벤치마크 테스트에서 좋은 성능을 발휘합니다. 이번 업그레이드는 개발자와 사용자에게 더욱 강력한 AI 지원 도구와 더욱 편리한 경험을 제공할 것입니다.

인공 지능 회사 Anthropic은 새로운 Claude 3.5 Sonnet 및 Claude 3.5 Haiku를 포함하여 Claude 3.5 시리즈 모델에 대한 주요 업그레이드를 발표했습니다. 업그레이드된 버전에서는 인공 지능이 PC를 장악하여 키보드 입력 및 마우스 클릭 시뮬레이션과 같은 기본 작업을 수행하여 컴퓨터에 설치된 모든 응용 프로그램을 사용할 수 있다고 주장합니다.

OpenAI o1-preview 모델을 능가하는 코딩 기능이 대폭 향상되었습니다.

새로운 Claude3.5Sonnet은 모든 측면, 특히 코딩 기능 측면에서 크게 개선되었습니다. SWE-bench Verified의 점수는 33.4%에서 49.0%로 증가하여 OpenAI의 o1-preview 모델을 포함하여 공개적으로 사용 가능한 모든 모델을 능가했습니다.

또한 특히 소매 및 항공 부문에서 TAU 벤치의 성능이 향상되었습니다. 이 모든 것은 이전 제품과 동일한 가격과 속도를 유지하면서 이루어집니다.

고객 피드백에 따르면 업그레이드된 Claude3.5Sonnet은 AI 코딩에서 질적인 도약을 이루었습니다. 예를 들어 GitLab은 DevSecOps 작업에 대해 이 모델을 테스트한 결과 대기 시간을 늘리지 않고도 추론 기능이 크게 향상되었음을 발견했습니다.

Claude3.5Haiku는 Claude의 차세대 가장 빠른 모델로 , 동일한 비용과 속도에서 Claude3Opus보다 성능이 뛰어나며 특히 인코딩 작업에서 여러 스마트 벤치마크에서 좋은 성능을 발휘합니다. Claude3.5Haiku의 낮은 대기 시간과 보다 정확한 명령 추적 기능은 사용자 인터페이스 제품 및 개인화된 경험 생성에 매우 적합합니다.

사람처럼 컴퓨터를 조작하세요

새롭게 출시된 컴퓨터 활용 기능은 전혀 새로운 시도이다 . 관계자들은 이것이 클로드를 위한 특정 도구를 개발하는 것이 아니라 다양한 표준 도구와 소프트웨어 프로그램을 사용할 수 있도록 일반적인 컴퓨터 기술을 가르치는 것이라고 말합니다. 개발자는 이 기능을 사용하여 반복적인 프로세스를 자동화하고, 소프트웨어를 구축 및 테스트하고, 공개 연구를 수행하는 등의 작업을 수행할 수 있습니다.

물론 클로드의 현재 컴퓨터 사용 능력은 여전히 개선되어야 합니다. 스크롤이나 드래그와 같은 일부 간단한 작업은 여전히 Claude에게 어려운 일입니다. 안전을 보장하기 위해 당국은 컴퓨터 사용으로 인해 잠재적인 피해가 발생했는지 여부를 식별할 수 있는 새로운 분류 기준도 개발했습니다.

Anthropic의 최고 과학 책임자인 Jared Kaplan은 인터뷰에서 "인공 지능이 개인으로서 사용하는 모든 도구를 활용하여 작업을 완료할 수 있는 새로운 시대로 진입하려고 합니다"라고 말했습니다. 전통적인 채팅 프레임워크부터 본격적인 "AI 에이전트"까지의 모델을 제공합니다.

한 데모에서 Claude는 친구에게 금문교 위로 일출을 감상할 여행을 계획해 달라는 요청을 받았습니다. AI는 웹페이지를 열었을 뿐 아니라, 구글에서 적당한 시청 장소를 찾아 달력 앱에 일정을 추가하기도 했다. 이 성능은 인상적이지만 목적지까지 가는 방법과 같은 몇 가지 추가 정보를 제공하지 않는다고 Wired는 지적합니다.

또한, 또 다른 시연에서는 클로드에게 간단한 웹사이트 구축을 요청한 결과, 마이크로소프트의 비주얼 스튜디오 코드를 이용해 웹사이트를 성공적으로 제작하고, 테스트를 위해 로컬 서버를 오픈했다. 그러나 도중에 몇 가지 사소한 버그가 발생했지만 메시지가 표시되면 코드를 성공적으로 수정했습니다.

Claude 3.5 Sonne은 공급업체 요청 양식을 자동으로 작성하기 위해 고객 관계 관리 시스템(CRM)에서 필요한 정보를 검색하여 다양한 소프트웨어 플랫폼에서 다단계 작업을 수행하는 능력을 보여주었습니다.

이제 모든 사용자가 업그레이드된 Claude3.5Sonnet을 사용할 수 있습니다. 오늘부터 개발자는 Anthropic API, Amazon Bedrock 및 Google Cloud의 Vertex AI에서 컴퓨터 베타를 사용하여 구축할 수 있습니다. 새로운 Claude3.5Haiku는 이달 말에 출시될 예정입니다.

공식 블로그: https://www.anthropic.com/news/3-5-models-and-computer-use

가장 밝은 부분:

Claude3.5Sonnet 및 Haiku 모델이 크게 업그레이드되었으며 코딩 기능이 크게 향상되었습니다.

? 새로 출시된 컴퓨터 사용 기능을 통해 클로드가 인간처럼 컴퓨터를 조작할 수 있어 더 많은 가능성이 열립니다.

? AI 비서를 사용하면 안전 위험이 발생하므로 Anthropic은 안전을 보장하기 위한 점진적인 관찰과 개선을 강조합니다.

전체적으로 Anthropic의 Claude 3.5 시리즈 모델 업그레이드는 AI 기술의 급속한 발전을 보여주며, AI가 앞으로 더 많은 분야에서 더욱 강력한 역할을 하게 될 것임을 나타냅니다. 아직 몇 가지 과제가 남아 있지만 개발 전망은 기대해 볼 가치가 있습니다. Downcodes의 편집자는 이 분야의 최신 개발에 계속해서 관심을 기울이고 독자들에게 더욱 흥미로운 보고서를 제공할 것입니다.