지난 10월 출시된 앤트로픽의 '컴퓨터 사용' 기능인 클로드(Claude)는 AI 에이전트 기능으로 주목을 받았다. 클로드는 인간과 동일한 그래픽 사용자 인터페이스(GUI)를 통해 상호 작용할 수 있는 최초의 최첨단 모델이 됐다. Downcodes의 편집자는 이 기술의 획기적인 발전뿐만 아니라 이 기술이 직면한 과제와 향후 개발 방향에 대한 심층적인 이해를 제공할 것입니다.
앤트로픽은 지난 10월 클로드의 '컴퓨터 사용' 기능을 출시한 이후 AI 에이전트의 역량이 폭넓은 관심을 끌었다. 이 기능을 통해 Claude는 인간과 동일한 그래픽 사용자 인터페이스(GUI)를 통해 상호 작용하는 최초의 최첨단 모델이 되었습니다.
Claude는 데스크탑 스크린샷에 액세스하고 키보드 및 마우스 조작을 통해 작업을 완료함으로써 API 인터페이스 없이도 작업을 자동화할 수 있는 편리한 방법을 사용자에게 제공합니다.
싱가포르 국립 대학교 Show Lab에서 실시한 연구에서 연구원들은 웹 검색, 작업 흐름 완료, 사무 생산성 및 비디오 게임을 포함한 다양한 작업에 대해 Claude를 테스트했습니다. 이러한 작업은 웹에서 항목을 검색하고 구매하거나 웹사이트에서 정보를 추출하여 스프레드시트에 삽입하는 등 다양한 시나리오에서 Claude의 능력을 테스트했습니다. 이러한 테스트를 통해 연구자들은 계획, 행동, 평가라는 세 가지 차원에 따라 Claude의 성과를 평가했습니다.
복잡한 작업을 실행할 때 Claude의 성과는 인상적입니다. 명확한 계획을 수립하고 이를 단계별로 실행하며 각 단계의 진행 상황을 평가하는 능력입니다. 또한 정보 웹 페이지를 스프레드시트로 복사하는 등 여러 애플리케이션 간을 조정할 수 있습니다. 어떤 경우에는 Claude가 임무가 끝난 후 결과를 검토하여 모든 것이 목표에 부합하는지 확인할 수도 있습니다.
그러나 Claude는 일반 사용자가 쉽게 피할 수 있는 몇 가지 간단한 실수도 저지릅니다. 예를 들어, 한 작업에서는 해당 버튼을 찾기 위해 페이지를 아래로 스크롤하지 않았기 때문에 구독을 완료하지 못했습니다.
텍스트를 선택하고 바꾸거나 글머리 기호를 숫자로 변경하는 등 명백한 작업을 수행할 때 투박한 경우도 있었습니다. 또한 Claude는 때때로 자신의 실수를 깨닫지 못하거나 목표 달성에 실패한 이유에 대해 잘못된 가정을 합니다.
연구원들은 Claude의 자체 평가 메커니즘 결함이 이러한 오류의 원인일 수 있으며, 향후 보다 엄격한 자체 평가 모듈을 추가하려면 GUI 에이전트 프레임워크를 개선해야 할 수도 있다고 지적했습니다. 결과는 또한 기존 GUI 에이전트가 인간이 컴퓨터를 사용하는 방식의 기본적인 뉘앙스를 완전히 복제하지 못한다는 것을 보여줍니다.
기업의 경우 자동화된 작업을 설명하기 위해 간단한 텍스트를 사용할 수 있는 가능성이 매력적이지만 이 기술은 아직 대규모 채택을 위한 준비가 되어 있지 않습니다. 모델의 동작이 불규칙하여 민감한 애플리케이션에서 예측할 수 없는 결과를 초래할 수 있습니다. 동시에 사람이 디자인한 인터페이스를 통해 작업을 수행하는 것은 작업을 완료하는 가장 빠른 방법이 아닙니다.
널리 배포하기 전에 기업은 LLM(대형 언어 모델)을 마우스와 키보드에 맡김으로써 발생하는 보안 위험에 대해서도 우려해야 합니다. 예를 들어, 연구에 따르면 네트워크 프록시는 인간이 쉽게 무시할 수 있는 적대적 공격에 취약한 것으로 나타났습니다. 그럼에도 불구하고 Claude와 같은 도구는 제품 팀이 아이디어를 탐색하고 솔루션을 반복하여 새로운 기능이나 서비스를 개발하기 전에 시간과 비용을 절약하는 데 도움이 될 수 있습니다.
Claude의 "컴퓨터 사용" 기능은 AI 기술의 발전에 대한 엄청난 잠재력을 보여 주지만 신뢰성과 보안 측면에서 개선의 여지도 보여줍니다. 앞으로도 기술이 계속 발전하고 향상됨에 따라 Claude와 같은 AI 도구는 인간에게 더 나은 서비스를 제공하고 효율성을 향상하며 더 많은 가능성을 가져올 것이라고 믿습니다.