O recurso Claude “Computer Usage” da Anthropic, lançado em outubro, deu aos agentes de IA capacidades sem precedentes para interagir com humanos por meio de uma interface gráfica de usuário (GUI), que atraiu atenção generalizada. Esta função rompe as limitações das interfaces API tradicionais e permite que Claude controle diretamente o computador para realizar tarefas mais complexas. Uma pesquisa do Show Lab da Universidade Nacional de Cingapura realizou um teste abrangente no Claude para avaliar seu desempenho em diferentes cenários, mostrando-nos o potencial e as limitações desta tecnologia.
Desde que a Anthropic lançou o recurso “Uso do computador” de Claude em outubro, as capacidades do agente de IA atraíram a atenção generalizada. Esse recurso faz de Claude o primeiro modelo de ponta a interagir por meio da mesma interface gráfica de usuário (GUI) que um ser humano.
Claude fornece aos usuários uma maneira conveniente de automatizar operações sem a necessidade de uma interface API, acessando capturas de tela da área de trabalho e concluindo tarefas por meio de operações de teclado e mouse.
Em um estudo conduzido pelo Show Lab da Universidade Nacional de Cingapura, os pesquisadores testaram Claude em uma variedade de tarefas, incluindo pesquisas na web, conclusão de fluxo de trabalho, produtividade no escritório e videogames. Essas tarefas testaram a habilidade de Claude em diferentes cenários, como pesquisar e comprar itens na web ou extrair informações de um site e inseri-las em uma planilha. Por meio desses testes, os pesquisadores avaliaram o desempenho de Claude em três dimensões: planejamento, ação e avaliação.
O desempenho de Claude é impressionante na execução de tarefas complexas. É a capacidade de formular um plano claro, segui-lo passo a passo e avaliar seu progresso em cada etapa. Além disso, ele pode coordenar vários aplicativos, como copiar páginas da web com informações em uma planilha. Em alguns casos, Claude consegue até revisar os resultados no final da missão para ter certeza de que tudo está conforme o esperado.
No entanto, Claude também comete alguns erros simples que o usuário médio pode facilmente evitar. Por exemplo, em uma tarefa, não foi possível concluir a assinatura porque não houve rolagem da página para encontrar o botão correspondente.
Também houve casos em que era complicado executar tarefas óbvias, como selecionar e substituir texto ou alterar marcadores para números. Além disso, Claude às vezes não percebe seus erros ou faz suposições incorretas sobre por que não conseguiu atingir seus objetivos.
Os pesquisadores apontaram que as deficiências de Claude nos mecanismos de autoavaliação podem ser a causa desses erros, e que a estrutura do agente GUI pode precisar ser melhorada no futuro para adicionar módulos de autoavaliação mais rigorosos. Os resultados também mostram que os agentes GUI existentes não reproduzem totalmente as nuances fundamentais de como os humanos usam os computadores.
Para as empresas, o potencial de utilização de texto simples para descrever tarefas automatizadas é atraente, mas a tecnologia ainda não está pronta para adoção em larga escala. O comportamento do modelo é errático, o que pode levar a consequências imprevisíveis em aplicações sensíveis. Ao mesmo tempo, realizar operações através de uma interface projetada por humanos não é a maneira mais rápida de concluir uma tarefa.
Antes da implantação generalizada, as empresas também precisam se preocupar com os riscos de segurança representados pela confiança de grandes modelos de linguagem (LLMs) a mouses e teclados. Por exemplo, pesquisas mostraram que os proxies de rede são vulneráveis a ataques adversários que os humanos podem facilmente ignorar. Ainda assim, ferramentas como o Claude podem ajudar as equipes de produto a explorar ideias e iterar soluções, economizando tempo e dinheiro antes de desenvolver novos recursos ou serviços.
Destaque:
1. Claude se destaca por sua capacidade de automatizar tarefas complexas por meio de uma interface gráfica de usuário.
2. Claude comete erros ao realizar tarefas simples, refletindo a inadequação do seu mecanismo de autoavaliação.
3. Nesta fase, esta tecnologia não é adequada para aplicação em larga escala e as empresas precisam de ser cautelosas relativamente aos potenciais riscos de segurança.
Em suma, o recurso “Uso do Computador” de Claude demonstra o grande potencial da IA no campo da automação, mas também expõe áreas que ainda precisam de melhorias em termos de estabilidade e segurança. No futuro, com o contínuo desenvolvimento e melhoria da tecnologia, agentes de IA como Claude desempenharão um papel importante em mais campos.