A equipe de pesquisa da Microsoft lançou uma nova tecnologia de inteligência artificial - Large Action Model (LAM), que pode operar programas do Windows de forma autônoma, marcando uma nova etapa da IA, passando do simples diálogo e sugestões para a execução real de tarefas. Ao contrário dos modelos de linguagem tradicionais, o LAM pode compreender uma variedade de entradas, como texto, voz e imagens, e convertê-las em planos de ação detalhados. Pode até ajustar estratégias com base em situações em tempo real para resolver alguns problemas que outros sistemas de IA não conseguem resolver. com. Esta tecnologia inovadora oferece possibilidades mais amplas para a IA em aplicações práticas e aponta o caminho para o desenvolvimento de futuros assistentes de inteligência artificial.
A equipe de pesquisa da Microsoft lançou recentemente uma tecnologia de inteligência artificial chamada “Large Action Model” (LAM), marcando uma nova etapa no desenvolvimento da IA. Ao contrário dos modelos de linguagem tradicionais, como o GPT-4o, o LAM pode operar programas do Windows de forma autônoma, o que significa que a IA pode não apenas falar ou fornecer sugestões, mas também executar tarefas.
A força do LAM é a sua capacidade de compreender uma variedade de entradas do usuário, incluindo texto, fala e imagens, e depois traduzir essas solicitações em planos detalhados passo a passo. A LAM não só desenvolve planos, mas também adapta as suas estratégias de acção com base em condições em tempo real. O processo de construção de um LAM é dividido principalmente em quatro etapas: primeiro, o modelo aprende a dividir a tarefa em etapas lógicas; depois, através de sistemas de IA mais avançados (como o GPT-4o), aprende como traduzir esses planos em; acções específicas; então, o LAM explorará de forma independente novas soluções e até resolverá problemas que outros sistemas de IA não conseguem resolver; finalmente, aperfeiçoará a formação através de um mecanismo de recompensa;
No experimento, a equipe de pesquisa construiu um modelo LAM baseado no Mistral-7B e o testou no ambiente de teste Word. Os resultados mostraram que o modelo completou a tarefa com sucesso em 71% das vezes, em comparação com 63% do GPT-4o sem informação visual.
Além disso, o LAM também tem um bom desempenho na velocidade de execução de tarefas, com cada tarefa demorando apenas 30 segundos, enquanto o GPT-4o leva 86 segundos. Embora a taxa de sucesso do GPT-4o aumente para 75,5% no processamento de informações visuais, no geral, o LAM tem vantagens significativas em velocidade e efeito.
Para construir os dados de treinamento, a equipe de pesquisa coletou inicialmente 29.000 exemplos de pares de tarefas e planos de documentos da Microsoft, artigos do wikiHow e pesquisas do Bing. Eles então usaram o GPT-4o para transformar tarefas simples em tarefas complexas, expandindo assim o conjunto de dados para 76.000 pares, um aumento de 150%. No final das contas, aproximadamente 2.000 sequências de ação bem-sucedidas foram incluídas no conjunto de treinamento final.
Embora o LAM tenha demonstrado o seu potencial no desenvolvimento de IA, a equipa de investigação ainda enfrenta alguns desafios, tais como o problema de possíveis erros nas ações de IA, questões relacionadas com a regulamentação e limitações técnicas na escala e adaptação em diferentes aplicações. No entanto, os investigadores acreditam que o LAM representa uma mudança importante no desenvolvimento da IA, indicando que os assistentes de inteligência artificial serão capazes de ajudar mais activamente os humanos na conclusão de tarefas práticas.
Destaques:
O LAM pode executar programas do Windows de forma autônoma, rompendo as limitações da IA tradicional que só pode falar.
⏱ No teste Word, a probabilidade do LAM de concluir a tarefa com sucesso atingiu 71%, superior aos 63% do GPT-4o, e a velocidade de execução é mais rápida.
A equipe de pesquisa usou uma estratégia de expansão de dados para aumentar o número de pares de planos de missão para 76.000 pares, melhorando ainda mais o efeito de treinamento do modelo.
O surgimento do LAM anuncia a transformação da inteligência artificial de fornecedora de informações para executora de ações reais, trazendo mudanças revolucionárias para a futura interação humano-computador e para o escritório automatizado. Embora ainda enfrente desafios, o LAM tem um grande potencial e vale a pena aguardar com expectativa a sua ampla aplicação e maior desenvolvimento em vários campos.