La función "Uso de computadora" de Claude de Anthropic lanzada en octubre brindó a los agentes de inteligencia artificial capacidades sin precedentes para interactuar con humanos a través de una interfaz gráfica de usuario (GUI), que atrajo una atención generalizada. Esta función rompe las limitaciones de las interfaces API tradicionales y permite a Claude controlar directamente la computadora para completar tareas más complejas. Una investigación del Show Lab de la Universidad Nacional de Singapur realizó una prueba exhaustiva a Claude para evaluar su desempeño en diferentes escenarios, mostrándonos el potencial y las limitaciones de esta tecnología.
Desde que Anthropic lanzó la función "Uso de computadora" de Claude en octubre, las capacidades del agente de IA han atraído una atención generalizada. Esta característica convierte a Claude en el primer modelo de vanguardia que interactúa a través de la misma interfaz gráfica de usuario (GUI) que un humano.
Claude proporciona a los usuarios una manera conveniente de automatizar operaciones sin la necesidad de una interfaz API al acceder a capturas de pantalla del escritorio y completar tareas mediante operaciones del teclado y el mouse.
En un estudio realizado por el Show Lab de la Universidad Nacional de Singapur, los investigadores probaron a Claude en una variedad de tareas, incluidas búsquedas en la web, finalización del flujo de trabajo, productividad de oficina y videojuegos. Estas tareas pusieron a prueba la capacidad de Claude en diferentes escenarios, como buscar y comprar artículos en la web o extraer información de un sitio web e insertarla en una hoja de cálculo. A través de estas pruebas, los investigadores evaluaron el desempeño de Claude en tres dimensiones: planificación, acción y evaluación.
El desempeño de Claude es impresionante cuando se trata de ejecutar tareas complejas. Es la capacidad de formular un plan claro, seguirlo paso a paso y evaluar su progreso en cada paso. Además, puede coordinar múltiples aplicaciones, como copiar páginas web de información en una hoja de cálculo. En algunos casos, Claude incluso puede revisar los resultados al final de la misión para asegurarse de que todo va según lo previsto.
Sin embargo, Claude también comete algunos errores sencillos que el usuario medio puede evitar fácilmente. Por ejemplo, en una tarea, no pudo completar la suscripción porque no era posible desplazarse hacia abajo en la página para encontrar el botón correspondiente.
También hubo casos en los que resultaba complicado al realizar tareas obvias, como seleccionar y reemplazar texto o cambiar viñetas por números. Además, a veces Claude no se da cuenta de sus errores o hace suposiciones incorrectas sobre por qué no logró sus objetivos.
Los investigadores señalaron que las deficiencias de Claude en los mecanismos de autoevaluación pueden ser la causa de estos errores, y que es posible que sea necesario mejorar el marco del agente GUI en el futuro para agregar módulos de autoevaluación más rigurosos. Los resultados también muestran que los agentes GUI existentes no replican completamente los matices fundamentales de cómo los humanos usan las computadoras.
Para las empresas, la posibilidad de utilizar texto simple para describir tareas automatizadas es atractiva, pero la tecnología aún no está lista para su adopción a gran escala. El comportamiento del modelo es errático, lo que puede tener consecuencias impredecibles en aplicaciones sensibles. Al mismo tiempo, realizar operaciones a través de una interfaz diseñada por humanos no es la forma más rápida de completar una tarea.
Antes de una implementación generalizada, las empresas también deben preocuparse por los riesgos de seguridad que plantea confiar modelos de lenguaje grandes (LLM) a ratones y teclados. Por ejemplo, las investigaciones han demostrado que los servidores proxy de red son vulnerables a ataques adversarios que los humanos pueden ignorar fácilmente. Aún así, herramientas como Claude pueden ayudar a los equipos de productos a explorar ideas e iterar soluciones, ahorrando tiempo y dinero antes de desarrollar nuevas funciones o servicios.
Destacar:
1. Claude destaca por su capacidad para automatizar tareas complejas a través de una interfaz gráfica de usuario.
2. Claude comete errores al realizar tareas sencillas, lo que refleja la insuficiencia de su mecanismo de autoevaluación.
3. En esta etapa, esta tecnología no es adecuada para aplicaciones a gran escala y las empresas deben tener cuidado con los posibles riesgos de seguridad.
Con todo, la función "Uso de la computadora" de Claude demuestra el gran potencial de la IA en el campo de la automatización, pero también expone áreas que aún necesitan mejoras en términos de estabilidad y seguridad. En el futuro, con el continuo desarrollo y mejora de la tecnología, los agentes de IA como Claude desempeñarán un papel importante en más campos.