No campo da inteligência artificial, um avanço revolucionário está reformulando a maneira como interagimos com os computadores. Kunlun Wanwei se juntou às mãos com as principais instituições, como o Instituto de Pesquisa de Inteligência Artificial de Pequim Zhiyuan, a Universidade Tecnológica de Cingapura Nanyang e a Universidade de Pequim para lançar em conjunto uma estrutura de controle de computadores de uso geral chamada Cradle. Essa estrutura inovadora de IA rompe as limitações dos agentes tradicionais, permitindo que eles manipulem diretamente os teclados e o mouse como seres humanos, interajam perfeitamente com vários softwares de código aberto ou fechado sem depender de nenhuma API interna. O Cradle é único, pois é a primeira estrutura de IA que pode controlar simultaneamente vários jogos comerciais e operar vários aplicativos de software. Nova vitalidade.
O berço é incrível em aplicações práticas, mostrando suas capacidades superiores em muitos tipos diferentes de jogos. Desde a conclusão de uma missão principal de 40 minutos em Red Dead 2 até as fazendas meticulosamente cuidando e às compras em Stardew Valley; . Além disso, também pode ser proficiente em software diário de escritório como Chrome, Outlook, Feishu etc., e pode até executar edição profissional de fotos e edição de vídeo, tornando-se realmente um assistente de IA geral.
O sucesso do Cradle é graças à sua arquitetura requintada do sistema, que consiste em seis componentes principais: coleta de informações, auto-reflexão, inferência de tarefas, gerenciamento de habilidades, planejamento de ações e módulos de memória. Ao encapsular e abstrair inteligentemente a entrada e a saída originais, o berço permite a interação natural com o computador. Ele usa a imagem de vídeo exibida na tela como a principal fonte de entrada, extrai o texto e as informações visuais para tomada de decisão e produz sinais que controlam o teclado e o mouse. Vale a pena mencionar particularmente que o módulo de tomada de decisão e raciocínio do Cradle pode interagir espontaneamente com o software e concluir tarefas e operar através da reflexão sobre o passado, resumindo o presente e planejando o futuro, mostrando um modelo de pensamento humano.
Nos testes reais, o desempenho do Cradle prova totalmente sua versatilidade. Ele pode concluir tarefas complexas em jogos com estilos e métodos operacionais completamente diferentes e também pode executar várias tarefas com facilidade em software comum, como baixar artigos acadêmicos, enviar e -mails, processamento de imagens, edição de vídeo etc. O que é ainda mais notável é que o berço supera o método da linha de base usando as tags da verdade no teste desafiador de Osworld, demonstrando sua forte capacidade de aprendizado e adaptabilidade.
O lançamento do berço marca uma etapa importante no desenvolvimento de agentes do GCC. Ele não apenas promove o desenvolvimento de interfaces unificadas de entrada e saída, como uma base sólida para interação futura e auto-aperfeiçoamento de agentes em diferentes ambientes, mas também dá um passo crítico para alcançar o objetivo da inteligência artificial geral (AGI). O nascimento dessa estrutura inovadora provavelmente revolucionará a maneira como interagimos com os computadores e abrimos uma nova era de colaboração humana-computador.
Página inicial do projeto: https://baai-agents.github.io/cradle
Link de código: https://github.com/baai-agents/cradle