O recurso de "uso de computador" da Anthropic, lançado em outubro, atraiu a atenção por suas capacidades de agente de IA. Claude se tornou o primeiro modelo de ponta que pode interagir por meio da mesma interface gráfica de usuário (GUI) que os humanos. O editor de Downcodes lhe dará uma compreensão profunda do progresso revolucionário desta tecnologia, bem como dos desafios que ela enfrenta e sua direção de desenvolvimento futuro.
Desde que a Anthropic lançou o recurso “Uso do computador” de Claude em outubro, as capacidades do agente de IA atraíram a atenção generalizada. Esse recurso faz de Claude o primeiro modelo de ponta a interagir por meio da mesma interface gráfica de usuário (GUI) que um ser humano.
Claude fornece aos usuários uma maneira conveniente de automatizar operações sem a necessidade de uma interface API, acessando capturas de tela da área de trabalho e concluindo tarefas por meio de operações de teclado e mouse.
Em um estudo conduzido pelo Show Lab da Universidade Nacional de Cingapura, os pesquisadores testaram Claude em uma variedade de tarefas, incluindo pesquisas na web, conclusão de fluxo de trabalho, produtividade no escritório e videogames. Essas tarefas testaram a habilidade de Claude em diferentes cenários, como pesquisar e comprar itens na web ou extrair informações de um site e inseri-las em uma planilha. Por meio desses testes, os pesquisadores avaliaram o desempenho de Claude em três dimensões: planejamento, ação e avaliação.
O desempenho de Claude é impressionante na execução de tarefas complexas. É a capacidade de formular um plano claro, segui-lo passo a passo e avaliar seu progresso em cada etapa. Além disso, ele pode coordenar vários aplicativos, como copiar páginas da web com informações em uma planilha. Em alguns casos, Claude consegue até revisar os resultados no final da missão para ter certeza de que tudo está conforme o esperado.
No entanto, Claude também comete alguns erros simples que o usuário médio pode facilmente evitar. Por exemplo, em uma tarefa, não foi possível concluir a assinatura porque não houve rolagem da página para encontrar o botão correspondente.
Também houve casos em que era complicado executar tarefas óbvias, como selecionar e substituir texto ou alterar marcadores para números. Além disso, Claude às vezes não percebe seus erros ou faz suposições incorretas sobre por que não conseguiu atingir seus objetivos.
Os pesquisadores apontaram que as deficiências de Claude nos mecanismos de autoavaliação podem ser a causa desses erros, e que a estrutura do agente GUI pode precisar ser melhorada no futuro para adicionar módulos de autoavaliação mais rigorosos. Os resultados também mostram que os agentes GUI existentes não reproduzem totalmente as nuances fundamentais de como os humanos usam os computadores.
Para as empresas, o potencial de utilização de texto simples para descrever tarefas automatizadas é atraente, mas a tecnologia ainda não está pronta para adoção em larga escala. O comportamento do modelo é errático, o que pode levar a consequências imprevisíveis em aplicações sensíveis. Ao mesmo tempo, realizar operações através de uma interface projetada por humanos não é a maneira mais rápida de concluir uma tarefa.
Antes da implantação generalizada, as empresas também precisam se preocupar com os riscos de segurança representados pela confiança de grandes modelos de linguagem (LLMs) a mouses e teclados. Por exemplo, pesquisas mostraram que os proxies de rede são vulneráveis a ataques adversários que os humanos podem facilmente ignorar. Ainda assim, ferramentas como o Claude podem ajudar as equipes de produto a explorar ideias e iterar soluções, economizando tempo e dinheiro antes de desenvolver novos recursos ou serviços.
O recurso "Uso do Computador" de Claude demonstra o enorme potencial para avanços na tecnologia de IA, mas também revela espaço para melhorias em termos de confiabilidade e segurança. No futuro, à medida que a tecnologia continua a desenvolver-se e a melhorar, acredito que ferramentas de IA como o Claude servirão melhor os humanos, melhorarão a eficiência e trarão mais possibilidades.