En el campo de la inteligencia artificial, un avance revolucionario está remodelando la forma en que interactuamos con las computadoras. Kunlun Wanwei se ha unido a las mejores instituciones como el Instituto de Investigación de Inteligencia Artificial de Beijing Zhiyuan, la Universidad Tecnológica de Singapur Nanyang y la Universidad de Pekín para lanzar conjuntamente un marco de control de computadora de uso general llamado Cradle. Este innovador marco de IA rompe las limitaciones de los agentes tradicionales, lo que les permite manipular directamente los teclados y el mouse como los humanos, interactúa sin problemas con varios software de código abierto o cerrado sin confiar en ninguna API interna. Cradle es único en el sentido de que es el primer marco de IA que puede controlar simultáneamente múltiples juegos comerciales y operar varias aplicaciones de software. Nueva vitalidad.
Cradle es sorprendente en aplicaciones prácticas, que muestra sus capacidades superiores en muchos tipos diferentes de juegos. Desde completar una misión principal de 40 minutos en Red Dead 2 hasta cuidar meticulosamente las granjas y comprar en Stardew Valley; . No solo eso, también puede ser competente en software diario de oficina como Chrome, Outlook, Feishu, etc., e incluso puede realizar edición de fotos y edición de videos profesionales, convirtiéndose realmente en un asistente de inteligencia artificial integral.
El éxito de Cradle es gracias a su exquisita arquitectura del sistema, que consta de seis componentes centrales: recopilación de información, autorreflexión, inferencia de tareas, gestión de habilidades, planificación de acciones y módulos de memoria. Al encapsular hábilmente y abstraer la entrada y salida originales, Cradle permite la interacción natural con la computadora. Utiliza la imagen de video que se muestra en la pantalla como la fuente de entrada principal, extrae texto e información visual para la toma de decisiones, y emite señales que controlan el teclado y el mouse. Vale la pena mencionar que la toma de decisiones y el módulo de razonamiento de Cradle pueden interactuar espontáneamente con el software y completar las tareas, y operar a través de la reflexión sobre el pasado, resumiendo el presente y planificando el futuro, mostrando un modelo de pensamiento humano.
En las pruebas reales, el rendimiento de Cradle demuestra completamente su versatilidad. Puede completar tareas complejas en juegos con estilos y métodos operativos completamente diferentes, y también puede realizar diversas tareas con un software en facilidad, como descargar documentos académicos, enviar correos electrónicos, procesamiento de imágenes, edición de video, etc. Lo que es aún más notable es que Cradle incluso supera el método de referencia utilizando etiquetas de verdad en la desafiante prueba de Benchmark Osworld, demostrando su fuerte capacidad de aprendizaje y adaptabilidad.
El lanzamiento de Cradle marca un paso importante en el desarrollo de los agentes del CCG. No solo promueve el desarrollo de interfaces de entrada y salida unificadas, establece una base sólida para la interacción futura y la superación personal de los agentes en diferentes entornos, sino que también da un paso crítico para lograr el objetivo de la inteligencia artificial general (AGI). El nacimiento de este marco innovador probablemente revolucionará la forma en que interactuamos con las computadoras y abrimos una nueva era de colaboración humana-computadora.
Página de inicio del proyecto: https://baai-agents.github.io/cradle
Enlace del código: https://github.com/baai-agents/cradle