A pesquisa acadêmica baseia -se em busca de literatura eficiente, mas os mecanismos de pesquisa existentes são difíceis de atender às necessidades de consultas profissionais complexas. Por exemplo, a pesquisa de aprendizado de reforço não estacionária para algoritmos específicos (como métodos UCB) requer recursos de pesquisa e análise mais fortes. Os pesquisadores geralmente gastam muito tempo e esforço recuperando manualmente enormes bancos de dados acadêmicos. Este artigo apresenta a PASA, um autodesenvolvido pelo Bytedance Research Institute e pela Peking University, um agente de busca de papel acadêmico autônomo baseado no Modelo de Linguagem de Grandes Linguagem (LLM), com o objetivo de resolver esse problema.
No campo da pesquisa acadêmica, a pesquisa de literatura é uma tarefa complexa e importante para obter informações. Os pesquisadores precisam ser capazes de lidar com áreas complexas e conhecidas dos recursos de pesquisa para atender às meticulosas necessidades de pesquisa. No entanto, as plataformas de busca acadêmica existentes, como o Google Scholar, geralmente lutam para lidar com essas consultas complexas de pesquisa. Por exemplo, consultas profissionais para aprendizado de reforço não estacionário usando métodos UCB requerem recursos mais fortes de computação e analítico. Além disso, os pesquisadores geralmente precisam gastar muito tempo e esforço navegando manualmente em grandes bancos de dados acadêmicos ao realizar revisões de literatura.
Embora vários estudos tenham explorado a aplicação de grandes modelos de idiomas (LLMS) em busca de papel acadêmico e descoberta científica, as ferramentas tradicionais de pesquisa ainda têm dificuldade em atender às necessidades de pesquisa profissional complexas. Muitos estudos se concentram no desenvolvimento de agentes de LLM por meio de estruturas de otimização e tecnologias de engenharia rápidas. A grande brecha veio.
Recentemente, o Instituto de Pesquisa de Bytedance e os pesquisadores da Universidade de Pequim propuseram a PASA em conjunto, um inovador agente de busca em papel baseado em LLM. A PASA pode executar autonomamente estratégias de pesquisa complexas, incluindo chamadas de ferramentas, leituras de papel e seleção de referência, com o objetivo de gerar resultados abrangentes e precisos para consultas acadêmicas complexas. Para otimizar o desempenho da PASA, a equipe de pesquisa criou o AutoSCharquery, um conjunto de dados sintético contendo 35.000 consultas acadêmicas de granulação fina e estabeleceu o RealsCharquery como uma referência para avaliar o desempenho real do agente. O sistema utiliza técnicas de aprendizado de reforço para aprimorar os recursos de pesquisa, resolvendo as principais limitações nos métodos de pesquisa acadêmica existentes.
O sistema PASA consiste em dois agentes LLM: um rastreador e um seletor que trabalham juntos para realizar uma pesquisa abrangente em papel acadêmico. O rastreador analisa primeiro as consultas do usuário para gerar várias consultas de pesquisa granular para obter artigos relevantes e adicionar esses papéis a uma fila de papel dedicada. Os rastreadores processa cada papel na fila, identificam e exploram as principais citações que podem expandir o escopo da pesquisa e adicionar dinamicamente documentos relacionados descobertos à lista. O seletor avaliará se cada artigo atende aos requisitos de consulta original.
Os resultados experimentais mostram que o PASA-7b tem um desempenho superior em vários testes de referência. No conjunto de testes autosscholarquery, o PASA-7B aumentou 9,64% em recall em comparação com PASA-GPT-4O. Ao enfrentar os benchmarks baseados no Google, a taxa de recall da PASA-7B aumentou entre 33,80% e 42,64%. No cenário mais desafiador do RealScholarQuery, a PASA-7B mostra um aumento de 30,36% de recall e um aumento de precisão de 4,25%.
Em geral, o lançamento da PASA marca um importante avanço na tecnologia de busca de papel acadêmico e fornece uma solução eficaz para a recuperação de informações da pesquisa acadêmica. Ao combinar grandes modelos de linguagem e técnicas de aprendizado de reforço, a PASA reduz bastante o tempo e o esforço investidos por pesquisadores em revisões de literatura, além de fornecer uma ferramenta eficiente para lidar com um ambiente de literatura acadêmica cada vez maior e complexo.
Código: https://github.com/bytedance/pasa
Papel: https://arxiv.org/abs/2501.10120
Pontos:
** PASA é um agente inteligente de busca de papel acadêmico lançado em conjunto por pesquisadores da Bytedance and Peking University. **
** Este sistema consiste em dois agentes da LLM, rastreador e seletor, e pode executar independentemente estratégias de pesquisa complexas. **
** Os resultados experimentais mostram que o PASA-7b tem um desempenho melhor do que os métodos de pesquisa existentes em vários testes de referência, melhorando significativamente a eficiência e a precisão da pesquisa em papel. **
O surgimento da PASA trouxe mudanças revolucionárias à pesquisa acadêmica. No futuro, vale a pena esperar o desenvolvimento e a aplicação da PASA.