학업 연구는 효율적인 문헌 검색에 의존하지만 기존 검색 엔진은 복잡한 전문 쿼리의 요구를 충족시키기가 어렵습니다. 예를 들어, 특정 알고리즘 (예 : UCB 방법)에 대한 비 정지 강화 학습 연구에는 검색 및 분석 기능이 더 강력합니다. 연구원들은 종종 거대한 학업 데이터베이스를 수동으로 검색하는 데 많은 시간과 노력을 소비합니다. 이 기사는 Bytedance Research Institute와 Peking University가 자체 개발 한 PASA를 소개합니다.
학술 연구 분야에서 문헌 검색은 정보를 얻는 복잡하고 중요한 작업입니다. 연구원들은 세심한 연구 요구를 충족시키기 위해 복잡한 전문성 검색 기능 영역을 처리 할 수 있어야합니다. 그러나 Google Scholar와 같은 기존의 학문 검색 플랫폼은 종종 이러한 복잡한 연구 쿼리에 대처하기 위해 고군분투합니다. 예를 들어, UCB 방법을 사용한 비 정지 강화 학습을위한 전문 쿼리에는 더 강력한 컴퓨팅 및 분석 기능이 필요합니다. 또한 연구자들은 종종 문헌 검토를 수행 할 때 수동으로 수동으로 많은 시간과 노력을 기울여야합니다.
여러 연구에서 학술 논문 검색 및 과학적 발견에서 LLMS (Large Language Model)의 적용을 탐구했지만 전통적인 검색 도구는 여전히 복잡한 전문 연구 요구를 충족시키는 데 어려움이 있습니다. 많은 연구는 최적화 프레임 워크 및 프롬프트 엔지니어링 기술을 통한 LLM 에이전트의 개발에 중점을두고 있지만 Agile RL 프레임 워크와 같은 방법은 자율적이고 정확한 학술 용지 검색 솔루션을 발견하지 못했습니다. 큰 격차가왔다.
최근 Peking University의 Bytedance Research Institute와 연구원들은 혁신적인 LLM 기반 종이 검색 에이전트 인 PASA를 공동으로 제안했습니다. PASA는 복잡한 학업 쿼리에 대한 포괄적이고 정확한 결과를 생성하는 것을 목표로 도구 통화, 종이 판독 및 참조 선택을 포함하여 복잡한 검색 전략을 자율적으로 실행할 수 있습니다. PASA의 성능을 최적화하기 위해 연구팀은 35,000 개의 세밀한 학업 쿼리를 포함하는 합성 데이터 세트 인 AutoscholarQuery를 만들고 에이전트의 실제 성능을 평가하기위한 벤치 마크로 RealScholarquery를 설립했습니다. 이 시스템은 강화 학습 기술을 활용하여 검색 기능을 향상시켜 기존 학업 검색 방법의 주요 한계를 해결합니다.
PASA 시스템은 두 개의 LLM 에이전트로 구성됩니다. 크롤러와 포괄적 인 학술 논문 검색을 수행하기 위해 함께 작동하는 선택기. Crawler는 먼저 사용자의 쿼리를 분석하여 관련 서류를 얻기 위해 여러 세분화 검색 쿼리를 생성 하고이 논문을 전용 종이 대기열에 추가합니다. 크롤러는 각 대기 용지를 처리하고, 연구의 범위를 확장 할 수있는 주요 인용을 식별하고 탐색하며, 새로 발견 된 관련 논문을 목록에 동적으로 추가합니다. 그런 다음 선택기는 각 논문이 원래 쿼리 요구 사항을 충족하는지 여부를 평가합니다.
실험 결과에 따르면 PASA-7B는 여러 벤치 마크 테스트에서 우수하게 수행됩니다. Autoscholarquery 테스트 세트에서 PASA-7B는 PASA-GPT-4O에 비해 리콜이 9.64% 증가했습니다. Google 기반 벤치 마크에 직면 할 때 PASA-7B의 리콜 률은 33.80%에서 42.64%로 증가했습니다. 더 어려운 RealScholarquery 시나리오에서 PASA-7B는 30.36%의 리콜 증가와 4.25%의 정확도가 증가합니다.
일반적으로 PASA의 출시는 학술 논문 검색 기술의 중요한 발전을 나타내며 학술 연구의 정보 검색을위한 효과적인 솔루션을 제공합니다. PASA는 큰 언어 모델과 강화 학습 기술을 결합함으로써 문헌 검토에 연구원들이 투자 한 시간과 노력을 크게 줄이며 점점 더 크고 복잡한 학술 문헌 환경을 처리 할 수있는 효율적인 도구를 제공합니다.
코드 : https://github.com/bytedance/pasa
종이 : https://arxiv.org/abs/2501.10120
전철기:
** PASA는 Bytedance 및 Peking University 연구원들이 공동으로 시작한 지능적인 학문 검색 요원입니다. **
**이 시스템은 두 개의 LLM 에이전트, 크롤러 및 선택기로 구성되며 독립적으로 복잡한 검색 전략을 실행할 수 있습니다. **
** 실험 결과에 따르면 PASA-7B는 여러 벤치 마크 테스트에서 기존 검색 방법보다 성능이 우수하여 종이 검색의 효율성과 정확성을 크게 향상시킵니다. **
PASA의 출현은 학업 연구에 혁신적인 변화를 가져 왔으며, 연구원들에게 많은 시간과 에너지를 절약하여보다 중요한 연구 작업에 집중할 수있었습니다. 앞으로 PASA의 추가 개발과 적용은 기대할 가치가 있습니다.