El apoyo de Claude a manipular funciones informáticas como un humano muestra ventajas y limitaciones en la investigación

Autor：Eve Cole Fecha de actualización：2025-01-09 18:12:01

La función de "uso de computadora" de Claude de Anthropic, lanzada en octubre, ha llamado la atención por sus capacidades de agente de IA. Claude se ha convertido en el primer modelo de vanguardia que puede interactuar a través de la misma interfaz gráfica de usuario (GUI) que los humanos. El editor de Downcodes le brindará una comprensión profunda del avance revolucionario de esta tecnología, así como los desafíos que enfrenta y su dirección de desarrollo futuro.

Desde que Anthropic lanzó la función "Uso de computadora" de Claude en octubre, las capacidades del agente de IA han atraído una atención generalizada. Esta característica convierte a Claude en el primer modelo de vanguardia que interactúa a través de la misma interfaz gráfica de usuario (GUI) que un humano.

Claude proporciona a los usuarios una manera conveniente de automatizar operaciones sin la necesidad de una interfaz API al acceder a capturas de pantalla del escritorio y completar tareas mediante operaciones del teclado y el mouse.

En un estudio realizado por el Show Lab de la Universidad Nacional de Singapur, los investigadores probaron a Claude en una variedad de tareas, incluidas búsquedas en la web, finalización del flujo de trabajo, productividad de oficina y videojuegos. Estas tareas pusieron a prueba la capacidad de Claude en diferentes escenarios, como buscar y comprar artículos en la web o extraer información de un sitio web e insertarla en una hoja de cálculo. A través de estas pruebas, los investigadores evaluaron el desempeño de Claude en tres dimensiones: planificación, acción y evaluación.

El desempeño de Claude es impresionante cuando se trata de ejecutar tareas complejas. Es la capacidad de formular un plan claro, seguirlo paso a paso y evaluar su progreso en cada paso. Además, puede coordinar múltiples aplicaciones, como copiar páginas web de información en una hoja de cálculo. En algunos casos, Claude incluso puede revisar los resultados al final de la misión para asegurarse de que todo va según lo previsto.

Sin embargo, Claude también comete algunos errores sencillos que el usuario medio puede evitar fácilmente. Por ejemplo, en una tarea, no pudo completar la suscripción porque no era posible desplazarse hacia abajo en la página para encontrar el botón correspondiente.

También hubo casos en los que resultaba complicado al realizar tareas obvias, como seleccionar y reemplazar texto o cambiar viñetas por números. Además, a veces Claude no se da cuenta de sus errores o hace suposiciones incorrectas sobre por qué no logró sus objetivos.

Los investigadores señalaron que las deficiencias de Claude en los mecanismos de autoevaluación pueden ser la causa de estos errores, y que es posible que sea necesario mejorar el marco del agente GUI en el futuro para agregar módulos de autoevaluación más rigurosos. Los resultados también muestran que los agentes GUI existentes no replican completamente los matices fundamentales de cómo los humanos usan las computadoras.

Para las empresas, la posibilidad de utilizar texto simple para describir tareas automatizadas es atractiva, pero la tecnología aún no está lista para su adopción a gran escala. El comportamiento del modelo es errático, lo que puede tener consecuencias impredecibles en aplicaciones sensibles. Al mismo tiempo, realizar operaciones a través de una interfaz diseñada por humanos no es la forma más rápida de completar una tarea.

Antes de una implementación generalizada, las empresas también deben preocuparse por los riesgos de seguridad que plantea confiar modelos de lenguaje grandes (LLM) a ratones y teclados. Por ejemplo, las investigaciones han demostrado que los servidores proxy de red son vulnerables a ataques adversarios que los humanos pueden ignorar fácilmente. Aún así, herramientas como Claude pueden ayudar a los equipos de productos a explorar ideas e iterar soluciones, ahorrando tiempo y dinero antes de desarrollar nuevas funciones o servicios.

La función "Uso de la computadora" de Claude demuestra el enorme potencial de los avances en la tecnología de IA, pero también revela margen de mejora en términos de confiabilidad y seguridad. En el futuro, a medida que la tecnología continúe desarrollándose y mejorando, creo que las herramientas de inteligencia artificial como Claude servirán mejor a los humanos, mejorarán la eficiencia y brindarán más posibilidades.