La recherche universitaire repose sur une recherche de littérature efficace, mais les moteurs de recherche existants sont difficiles à répondre aux besoins des requêtes professionnelles complexes. Par exemple, la recherche d'apprentissage par renforcement non stationnaire pour des algorithmes spécifiques (tels que les méthodes UCB) nécessite des capacités de recherche et d'analyse plus fortes. Les chercheurs passent souvent beaucoup de temps et d'efforts à récupérer manuellement les énormes bases de données académiques. Cet article présente PASA, un auto-développé par Bytedance Research Institute et Peking University, un agent de recherche académique autonome basé sur un modèle de grande langue (LLM), visant à résoudre ce problème.
Dans le domaine de la recherche universitaire, la recherche de littérature est une tâche complexe et importante pour obtenir des informations. Les chercheurs doivent être en mesure de gérer des domaines complexes et expertise des capacités de recherche pour répondre aux besoins de recherche méticuleux. Cependant, les plateformes de recherche académique existantes, telles que Google Scholar, ont souvent du mal à faire face à ces requêtes de recherche complexes. Par exemple, les requêtes professionnelles pour l'apprentissage par renforcement non stationnaire à l'aide de méthodes UCB nécessitent des capacités informatiques et analytiques plus fortes. De plus, les chercheurs ont souvent besoin de passer beaucoup de temps et d'efforts en parcourant manuellement d'énormes bases de données académiques lors de la réalisation de revues de littérature.
Bien que plusieurs études aient exploré l'application de modèles de grandes langues (LLM) dans la recherche sur l'article académique et la découverte scientifique, les outils de recherche traditionnels ont encore du mal à répondre aux besoins de recherche professionnelle complexes. De nombreuses études se concentrent sur le développement des agents LLM grâce à des cadres d'optimisation et à des technologies d'ingénierie rapides. Le grand écart est venu.
Récemment, le Bytedance Research Institute et des chercheurs de l'Université de Pékin ont proposé conjointement PASA, un agent de recherche sur papier innovant basé sur LLM. PASA peut exécuter de manière autonome des stratégies de recherche complexes, y compris les appels à l'outil, les lectures papier et la sélection de références, visant à générer des résultats complets et précis pour des requêtes académiques complexes. Pour optimiser les performances de PASA, l'équipe de recherche a créé AutoscholarQuery, un ensemble de données synthétiques contenant 35 000 requêtes académiques à grain fin, et a établi RealScholarQuery comme référence pour évaluer les performances réelles de l'agent. Le système utilise des techniques d'apprentissage du renforcement pour améliorer les capacités de recherche, en résolvant les principales limites des méthodes de recherche académique existantes.
Le système PASA se compose de deux agents LLM: un robot et un sélecteur qui travaillent ensemble pour effectuer une recherche complète sur papier académique. Le Crawler analyse d'abord les requêtes de l'utilisateur pour générer plusieurs requêtes de recherche granulaires pour obtenir des articles pertinents et ajoute ces articles à une file d'attente de papier dédiée. Les Crawlers traitent chaque document en file d'attente, identifient et explorent des citations clés qui peuvent étendre la portée de la recherche et ajouter dynamiquement des articles connexes nouvellement découverts à la liste. Le sélecteur évaluera ensuite si chaque article répond aux exigences de requête d'origine.
Les résultats expérimentaux montrent que PASA-7B fonctionne de manière supérieure dans plusieurs tests de référence. Sur l'ensemble de tests AutoscholarQuery, PASA-7B a augmenté de 9,64% en rappel par rapport à PASA-GPT-4O. Lorsqu'ils sont confrontés à des références basées sur Google, le taux de rappel de PASA-7B a augmenté entre 33,80% et 42,64%. Dans le scénario de RealScholarQuery plus difficile, PASA-7B montre une augmentation de rappel de 30,36% et une augmentation de la précision de 4,25%.
En général, le lancement de PASA marque une avancée importante dans la technologie de recherche sur papier académique et fournit une solution efficace pour la récupération de l'information de la recherche académique. En combinant de grands modèles de langue et des techniques d'apprentissage du renforcement, PASA réduit considérablement le temps et les efforts investis par des chercheurs dans des revues de littérature, tout en leur fournissant un outil efficace pour faire face à un environnement de littérature académique de plus en plus large et complexe.
Code: https://github.com/bytedance/pasa
Papier: https://arxiv.org/abs/2501.10120
Points:
** PASA est un agent de recherche de papier académique intelligent lancé conjointement par Bytedance et les chercheurs de l'Université de Pékin. **
** Ce système se compose de deux agents LLM, de chenilles et de sélecteur, et peut exécuter indépendamment des stratégies de recherche complexes. **
** Les résultats expérimentaux montrent que PASA-7B fonctionne mieux que les méthodes de recherche existantes dans plusieurs tests de référence, améliorant considérablement l'efficacité et la précision de la recherche sur papier. **
L'émergence de la PASA a apporté des changements révolutionnaires à la recherche universitaire. À l'avenir, le développement et l'application de la PASA valent la peine d'être attendus avec impatience.