La investigación académica se basa en una búsqueda de literatura eficiente, pero los motores de búsqueda existentes son difíciles de satisfacer las necesidades de consultas profesionales complejas. Por ejemplo, la investigación de aprendizaje de refuerzo no estacionario para algoritmos específicos (como los métodos UCB) requiere capacidades de búsqueda y análisis más fuertes. Los investigadores a menudo pasan mucho tiempo y esfuerzo recuperando manualmente enormes bases de datos académicas. Este artículo presenta PASA, un auto-desarrollado por el Instituto de Investigación de Bytedance y la Universidad de Pekín, un agente de búsqueda de papel académico autónomo basado en un modelo de lenguaje grande (LLM), con el objetivo de resolver este problema.
En el campo de la investigación académica, la búsqueda de literatura es una tarea compleja e importante para obtener información. Los investigadores deben poder manejar áreas complejas y de experiencia de capacidades de búsqueda para satisfacer las necesidades de investigación meticulosas. Sin embargo, las plataformas de búsqueda académica existentes, como Google Scholar, a menudo luchan por hacer frente a estas complejas consultas de investigación. Por ejemplo, las consultas profesionales para el aprendizaje de refuerzo no estacionario utilizando métodos UCB requieren capacidades de computación y analítica más fuertes. Además, los investigadores a menudo necesitan pasar mucho tiempo y esfuerzo navegando manualmente en grandes bases de datos académicas al realizar revisiones de literatura.
Aunque varios estudios han explorado la aplicación de modelos de idiomas grandes (LLM) en la búsqueda académica en papel y el descubrimiento científico, las herramientas de búsqueda tradicionales aún tienen dificultades para satisfacer las necesidades de investigación profesional complejas. Muchos estudios se centran en el desarrollo de los agentes de LLM a través de marcos de optimización y tecnologías de ingeniería rápidas. Llegó una gran brecha.
Recientemente, Bytedance Research Institute e investigadores de la Universidad de Pekín propuso conjuntamente PASA, un innovador agente de búsqueda en papel con sede en LLM. PASA puede ejecutar de forma autónoma estrategias de búsqueda complejas, incluidas llamadas de herramientas, lecturas en papel y selección de referencia, con el objetivo de generar resultados integrales y precisos para consultas académicas complejas. Para optimizar el rendimiento de Pasa, el equipo de investigación creó AutoScholarQuery, un conjunto de datos sintético que contiene 35,000 consultas académicas de grano fino y estableció RealScholarQuery como un punto de referencia para evaluar el rendimiento real del agente. El sistema utiliza técnicas de aprendizaje de refuerzo para mejorar las capacidades de búsqueda, resolviendo las principales limitaciones en los métodos de búsqueda académica existentes.
El sistema PASA consta de dos agentes LLM: un rastreador y un selector que trabaja juntos para realizar una búsqueda de papel académico integral. El Crawler primero analiza las consultas del usuario para generar múltiples consultas de búsqueda granular para obtener documentos relevantes y agrega estos documentos a una cola de papel dedicada. Los rastreadores procesan cada documento en cola, identifican y exploran citas clave que pueden expandir el alcance de la investigación y agregar dinámicamente documentos relacionados recientemente descubiertos a la lista. El selector evaluará si cada documento cumple con los requisitos de consulta originales.
Los resultados experimentales muestran que PASA-7B funciona de manera superior en múltiples pruebas de referencia. En el conjunto de pruebas de autoscholarQuery, PASA-7B ha aumentado un 9,64% en el retiro en comparación con PASA-GPT-4O. Cuando se enfrentan a los puntos de referencia con sede en Google, la tasa de recuperación de PASA-7B aumentó entre 33.80% y 42.64%. En el escenario más desafiante de RealScholarQuery, PASA-7B muestra un aumento de retiro del 30,36% y un aumento de precisión del 4.25%.
En general, el lanzamiento de PASA marca un avance importante en la tecnología de búsqueda de papel académico y proporciona una solución efectiva para la recuperación de información de la investigación académica. Al combinar modelos de idiomas grandes y técnicas de aprendizaje de refuerzo, PASA reduce en gran medida el tiempo y el esfuerzo invertidos por los investigadores en revisiones de literatura, al tiempo que les proporciona una herramienta eficiente para tratar un entorno de literatura académica cada vez más grande y complejo.
Código: https://github.com/bytedance/pasa
Documento: https://arxiv.org/abs/2501.10120
Agujas:
** Pasa es un agente de búsqueda de papel académico inteligente lanzado conjuntamente por los investigadores de Bytedance y Peking University. **
** Este sistema consta de dos agentes LLM, rastreadores y selectores, y puede ejecutar independientemente estrategias de búsqueda complejas. **
** Los resultados experimentales muestran que PASA-7B funciona mejor que los métodos de búsqueda existentes en múltiples pruebas de referencia, mejorando significativamente la eficiencia y la precisión de la búsqueda en papel. **
La aparición de PASA ha traído cambios revolucionarios a la investigación académica. En el futuro, vale la pena esperar el desarrollo y la aplicación de PASA.