Grandes modelos de linguagem (LLMs) enfrentam desafios no raciocínio complexo, e surgiu uma estrutura inovadora de código aberto chamada OpenR. Desenvolvido em conjunto por pesquisadores de diversas universidades, incluindo a University College London, o OpenR melhora significativamente as capacidades de raciocínio dos LLMs, combinando computação em tempo de teste, aprendizagem por reforço e supervisão de processos. Ele não apenas replica as capacidades de raciocínio de modelos avançados, mas também alcança avanços nesta base, fornecendo novas ideias para resolver as deficiências dos LLMs em matemática, programação e problemas científicos. O editor de Downcodes lhe dará uma compreensão profunda do design exclusivo e do excelente desempenho da estrutura OpenR.
Uma estrutura inovadora de código aberto chamada OpenR foi lançada recentemente, com o objetivo de resolver as deficiências dos grandes modelos de linguagem (LLMs) em tarefas complexas de raciocínio. A estrutura, desenvolvida em conjunto por pesquisadores da University College London, da Universidade de Liverpool, da Shanghai Jiao Tong University, da Universidade de Ciência e Tecnologia de Hong Kong (Guangzhou) e da Westlake University, abre novos caminhos para melhorar as capacidades de raciocínio dos LLMs, combinando computação em tempo de teste, aprendizagem por reforço e supervisão de processos.
Embora os LLMs tenham feito progressos significativos na geração de linguagem, ainda enfrentam desafios no tratamento de tarefas complexas, como matemática, programação e problemas científicos. O surgimento do OpenR visa preencher essa lacuna e expandir as capacidades dos LLMs, desde a simples geração de texto até campos de raciocínio mais avançados.
O design do OpenR é parcialmente inspirado no modelo o1 da OpenAI, mas seu objetivo é mais ambicioso: não apenas replicar as capacidades de raciocínio de modelos de linguagem avançados, mas também alcançar avanços nesta base. Como a primeira solução de código aberto a fornecer suporte de raciocínio tão complexo, o OpenR concentra-se na aquisição de dados, modelos de recompensa de processos e métodos de raciocínio eficientes, com o objetivo de acelerar o desenvolvimento de modelos de linguagem em larga escala focados no raciocínio.
Nota sobre a fonte da imagem: A imagem é gerada por IA e é autorizada pelo provedor de serviços Midjourney
A estrutura central da estrutura gira em torno do aumento de dados, aprendizagem de políticas e orientação de raciocínio combinada com exploração de múltiplos caminhos. OpenR usa o Processo de Decisão Markov (MDP) para modelar tarefas de raciocínio, decompondo o complexo processo de raciocínio em uma série de etapas que podem ser avaliadas e otimizadas. Este método não apenas cultiva diretamente habilidades de raciocínio, mas também explora múltiplos caminhos de raciocínio em cada estágio, melhorando significativamente a robustez do processo de raciocínio.
Outra característica fundamental da estrutura é o modelo de recompensa do processo (PRM), que fornece feedback detalhado para etapas intermediárias de raciocínio, permitindo que o modelo ajuste as decisões com mais precisão, em vez de depender apenas de julgamentos do resultado final. Essa orientação refinada melhora significativamente a eficiência de aprendizagem do modelo.
Em testes reais, o OpenR demonstrou um desempenho impressionante. Tomando o conjunto de dados MATH como referência, a precisão da inferência do OpenR é cerca de 10% maior do que a dos métodos tradicionais. O estudo também descobriu que métodos de exploração de múltiplos caminhos, como Best-of-N e Beam Search, são significativamente melhores do que técnicas de votação por maioria simples, especialmente quando os recursos computacionais são limitados.
As tecnologias de aprendizagem por reforço do OpenR, especialmente aqueles métodos que utilizam PRM, funcionam bem em cenários de aprendizagem de políticas online e promovem a melhoria contínua das capacidades de raciocínio dos LLMs. Este resultado mostra que, através de estratégias de aprendizagem cuidadosamente concebidas, os LLMs têm o potencial de alcançar progressos inovadores em tarefas de raciocínio complexas.
Como uma plataforma de código aberto, o OpenR fornece aos pesquisadores e desenvolvedores recursos valiosos para trabalharem juntos para aprimorar as capacidades de raciocínio de modelos de linguagem. Ele não apenas fornece um caminho de atualização para os LLMs atuais, mas também abre caminho para sistemas de IA mais inteligentes e com maior capacidade de raciocínio no futuro.
Olhando para o futuro, a equipe OpenR planeja expandir ainda mais a funcionalidade da estrutura para cobrir uma gama mais ampla de tipos de tarefas de inferência e continuar a otimizar seu processo de inferência. Espera-se que este esforço dê uma contribuição importante para o objetivo de longo prazo de autoaperfeiçoamento do raciocínio dos agentes de IA.
Endereço do projeto: https://github.com/facebook/openr
Em suma, o surgimento da estrutura OpenR oferece novas possibilidades para avanços em grandes modelos de linguagem no campo do raciocínio complexo. A sua característica de código aberto também facilita a participação de mais investigadores e desenvolvedores para promover conjuntamente o progresso da tecnologia de inteligência artificial. Esperamos que o OpenR alcance resultados mais significativos no futuro e contribua para a construção de sistemas de IA mais inteligentes.