인간처럼 컴퓨터 기능을 조작하는 클로드의 지원은 연구의 장점과 한계를 보여줍니다 - AI 기사

저자：Eve Cole 업데이트 시간：2025-01-25 18:48:01

지난 10월 출시된 Anthropic의 Claude '컴퓨터 사용' 기능은 AI 에이전트에게 그래픽 사용자 인터페이스(GUI)를 통해 인간과 상호 작용할 수 있는 전례 없는 기능을 제공하여 광범위한 관심을 끌었습니다. 이 기능은 기존 API 인터페이스의 한계를 뛰어넘고 Claude가 컴퓨터를 직접 제어하여 더 복잡한 작업을 완료할 수 있게 해줍니다. 싱가포르 국립 대학교 쇼 랩(National University of Singapore Show Lab)의 연구에서는 다양한 시나리오에서 성능을 평가하기 위해 Claude에 대한 포괄적인 테스트를 수행하여 이 기술의 잠재력과 한계를 보여주었습니다.

앤트로픽은 지난 10월 클로드의 '컴퓨터 사용' 기능을 출시한 이후 AI 에이전트의 역량이 폭넓은 관심을 끌었다. 이 기능을 통해 Claude는 인간과 동일한 그래픽 사용자 인터페이스(GUI)를 통해 상호 작용하는 최초의 최첨단 모델이 되었습니다.

Claude는 데스크탑 스크린샷에 액세스하고 키보드 및 마우스 조작을 통해 작업을 완료함으로써 API 인터페이스 없이도 작업을 자동화할 수 있는 편리한 방법을 사용자에게 제공합니다.

싱가포르 국립 대학교의 Show Lab에서 실시한 연구에서 연구원들은 웹 검색, 작업 흐름 완료, 사무 생산성 및 비디오 게임을 포함한 다양한 작업에 대해 Claude를 테스트했습니다. 이러한 작업은 웹에서 항목을 검색하고 구매하거나 웹사이트에서 정보를 추출하여 스프레드시트에 삽입하는 등 다양한 시나리오에서 Claude의 능력을 테스트했습니다. 이러한 테스트를 통해 연구원들은 계획, 행동, 평가라는 세 가지 차원에 따라 Claude의 성과를 평가했습니다.

복잡한 작업을 실행할 때 Claude의 성과는 인상적입니다. 명확한 계획을 수립하고 이를 단계별로 실행하며 각 단계의 진행 상황을 평가하는 능력입니다. 또한 정보 웹 페이지를 스프레드시트로 복사하는 등 여러 애플리케이션 간을 조정할 수 있습니다. 어떤 경우에는 Claude가 임무가 끝난 후 결과를 검토하여 모든 것이 목표에 부합하는지 확인할 수도 있습니다.

그러나 Claude는 일반 사용자가 쉽게 피할 수 있는 몇 가지 간단한 실수도 저지릅니다. 예를 들어, 한 작업에서는 해당 버튼을 찾기 위해 페이지를 아래로 스크롤하지 않았기 때문에 구독을 완료하지 못했습니다.

텍스트를 선택하고 바꾸거나 글머리 기호를 숫자로 변경하는 등 명백한 작업을 수행할 때 투박한 경우도 있었습니다. 또한 Claude는 때때로 자신의 실수를 깨닫지 못하거나 목표 달성에 실패한 이유에 대해 잘못된 가정을 합니다.

연구원들은 Claude의 자체 평가 메커니즘 결함이 이러한 오류의 원인일 수 있으며, 향후 보다 엄격한 자체 평가 모듈을 추가하려면 GUI 에이전트 프레임워크를 개선해야 할 수도 있다고 지적했습니다. 결과는 또한 기존 GUI 에이전트가 인간이 컴퓨터를 사용하는 방식의 기본적인 뉘앙스를 완전히 복제하지 못한다는 것을 보여줍니다.

기업의 경우 자동화된 작업을 설명하기 위해 간단한 텍스트를 사용할 수 있는 가능성이 매력적이지만 이 기술은 아직 대규모 채택을 위한 준비가 되어 있지 않습니다. 모델의 동작이 불규칙하여 민감한 애플리케이션에서 예측할 수 없는 결과를 초래할 수 있습니다. 동시에 사람이 디자인한 인터페이스를 통해 작업을 수행하는 것은 작업을 완료하는 가장 빠른 방법이 아닙니다.

널리 배포하기 전에 기업은 LLM(대형 언어 모델)을 마우스와 키보드에 맡김으로써 발생하는 보안 위험에 대해서도 우려해야 합니다. 예를 들어, 연구에 따르면 네트워크 프록시는 인간이 쉽게 무시할 수 있는 적대적 공격에 취약한 것으로 나타났습니다. 그럼에도 불구하고 Claude와 같은 도구는 제품 팀이 아이디어를 탐색하고 솔루션을 반복하여 새로운 기능이나 서비스를 개발하기 전에 시간과 비용을 절약하는 데 도움이 될 수 있습니다.

가장 밝은 부분:

1. Claude는 그래픽 사용자 인터페이스를 통해 복잡한 작업을 자동화하는 능력이 뛰어납니다.

2. 클로드는 자기 평가 메커니즘이 부적절함을 반영하여 간단한 작업을 수행할 때 실수를 합니다.

3. 현 단계에서 이 기술은 대규모 적용에 적합하지 않으므로 기업은 잠재적인 보안 위험에 대해 주의해야 합니다.

전체적으로 Claude의 "컴퓨터 사용" 기능은 자동화 분야에서 AI의 큰 잠재력을 보여 주지만 안정성과 보안 측면에서 여전히 개선이 필요한 영역도 노출합니다. 앞으로는 기술의 지속적인 발전과 개선으로 클로드와 같은 AI 에이전트가 더 많은 분야에서 중요한 역할을 하게 될 것입니다.