과학 연구자들은 여전히 문헌 검토와 논문 작성에 대해 걱정하고 있나요? AI2 팀이 가져온 OpenScholar가 여러분의 문제를 해결할 수 있을지도 모릅니다! 이 강력한 과학 연구 효율성 아티팩트는 4억 5천만 개의 공개 액세스 논문과 2억 3,700만 개의 기사 단락 임베딩을 포함하고 있으며, 고유한 자체 피드백 검색을 통해 추론 메커니즘을 강화하여 요구 사항을 충족할 때까지 답변을 지속적으로 개선할 수 있습니다. OpenScholar는 강력할 뿐만 아니라 보다 효율적인 모델을 훈련하는 데에도 사용할 수 있으며 SCHOLARQABENCH 테스트에서 인간 전문가를 능가하여 과학 연구 분야에서 엄청난 잠재력을 보여주었습니다.
문헌을 검토하기 위해 늦게까지 머물고 계십니까? 당황하지 마십시오! AI2의 과학 연구 전문가가 최신 걸작인 OpenScholar를 통해 여러분을 구해 드립니다. 공원을 걷는 것처럼!
OpenScholar의 가장 큰 비밀 무기는 4억 5천만 개의 오픈 액세스 논문과 2억 3천 7백만 개의 삽입된 기사 문단을 보유한 OpenScholar-Datastore(OSDS)라는 시스템입니다. 이러한 강력한 지식 기반을 통해 OpenScholar는 다양한 과학 연구 문제에 쉽게 대처할 수 있습니다.
과학적 연구 문제가 발생하면 OpenScholar는 먼저 강력한 도구(검색기 및 재정렬기)를 보내 문제와 관련된 기사 단락을 OSDS에서 신속하게 필터링합니다. 다음으로 언어 모델(LM)에는 참조에 대한 완전한 답변이 포함됩니다. 더욱 강력한 점은 OpenScholar가 귀하의 자연어 피드백을 기반으로 답변을 지속적으로 개선하고 귀하가 만족할 때까지 누락된 정보를 보완한다는 것입니다.
OpenScholar는 그 자체로 강력할 뿐만 아니라 더 작고 효율적인 모델을 훈련하는 데에도 도움이 될 수 있습니다. 연구원들은 OpenScholar의 프로세스를 사용하여 대량의 고품질 교육 데이터를 생성하고 이 데이터를 사용하여 OpenScholar-8B라는 80억 개의 매개변수 언어 모델과 기타 검색 모델을 교육했습니다.
OpenScholar의 전투 효율성을 종합적으로 테스트하기 위해 연구원들은 SCHOLARQABENCH라는 새로운 테스트 경기장도 특별히 만들었습니다. 폐쇄 분류, 객관식, 긴 형식 생성을 포함하여 컴퓨터 과학, 생물의학, 물리학, 신경과학 등 여러 분야를 포괄하는 다양한 과학 문헌 검토 작업이 이 분야에서 설정됩니다. 대회의 공정성과 정의를 보장하기 위해 SCHOLARQABENCH는 전문가 검토, 자동 지표 및 사용자 경험 테스트를 포함한 다각적인 평가 방법도 사용합니다.
여러 차례의 치열한 경쟁 끝에 OpenScholar가 마침내 두각을 나타냈습니다! 실험 결과는 다양한 작업에서 인간 전문가를 능가하는 성능을 보여주었습니다. 이 획기적인 결과는 확실히 과학 연구 분야에 혁명을 일으키고 과학자들에게 작별을 고하게 할 것입니다. 과학의 신비를 탐구하는 데 중점을 둔 문헌 검토 작업!
OpenScholar의 강력한 기능은 주로 고유한 자체 피드백 검색 강화 추론 메커니즘의 이점을 활용합니다. 간단히 말하면, 먼저 스스로에게 질문을 던지고, 자신의 답변을 바탕으로 지속적으로 답변을 개선하고, 최종적으로 가장 완벽한 답변을 제시합니다. 놀랍지 않나요?
구체적으로 OpenScholar의 셀프 피드백 추론 과정은 초기 답변 생성, 피드백 생성, 피드백 통합의 세 단계로 나누어집니다. 첫째, 언어 모델은 검색된 기사 구절을 기반으로 초기 답변을 생성합니다. 그런 다음 엄격한 심사관처럼 답변을 스스로 비판하고 단점을 식별하며 "답변에는 질문 및 답변 작업에 대한 실험 결과만 포함되어 있습니다. 다른 유형의 작업 결과를 보완해 주세요."와 같은 자연어 피드백을 생성합니다. . 마지막으로 언어 모델은 이 피드백을 기반으로 관련 문헌을 다시 검색하고 모든 정보를 통합하여 보다 완전한 답변을 생성합니다.
더 작지만 똑같이 강력한 모델을 훈련하기 위해 연구원들은 OpenScholar의 자체 피드백 추론 프로세스를 사용하여 대량의 고품질 훈련 데이터를 생성했습니다. 그들은 먼저 데이터베이스에서 가장 많이 인용된 논문을 선택한 다음 이러한 논문의 초록을 기반으로 몇 가지 정보 질의 질문을 생성하고 마지막으로 OpenScholar의 추론 프로세스를 사용하여 고품질 답변을 생성했습니다. 이러한 답변과 그 과정에서 생성되는 피드백 정보는 귀중한 훈련 데이터를 구성합니다. 연구원들은 이 데이터를 기존 일반 도메인 명령어 미세 조정 데이터 및 과학 도메인 명령어 미세 조정 데이터와 혼합하여 OpenScholar-8B라는 80억 개의 매개변수 언어 모델을 훈련했습니다.
OpenScholar 및 기타 유사한 모델의 성능을 보다 완벽하게 평가하기 위해 연구원들은 SCHOLARQABENCH라는 새로운 벤치마크도 만들었습니다. 이 벤치마크에는 컴퓨터 과학, 물리학, 생물의학, 신경과학 등 4개 분야의 전문가가 작성한 2,967개의 문헌 검토 질문이 포함되어 있습니다. 각 질문에는 전문가가 작성한 긴 답변이 있으며, 각 답변을 완료하는 데 평균적으로 전문가가 약 1시간이 걸립니다. SCHOLARQABENCH는 또한 모델에서 생성된 답변의 품질에 대한 보다 포괄적인 측정을 제공하기 위해 자동화된 측정항목과 수동 평가를 결합하는 다면적인 평가 접근 방식을 사용합니다.
실험 결과에 따르면 SCHOLARQABENCH의 OpenScholar 성능은 다른 모델을 훨씬 능가하고 일부 측면에서는 인간 전문가를 능가합니다. 예를 들어 컴퓨터 과학 분야에서 OpenScholar-8B의 정확도는 GPT-4o보다 5% 더 높습니다. PaperQA2는 GPT-4o보다 7% 더 높습니다. 또한 OpenScholar에서 생성된 답변의 인용 정확도는 인간 전문가의 정확도와 비슷하며, GPT-4o는 허공에서 조작된 정확도가 78-90%에 달합니다.
OpenScholar의 출현은 의심할 여지 없이 과학 연구 분야에 큰 도움이 됩니다. 이는 과학 연구자들이 많은 시간과 에너지를 절약하는 데 도움이 될 뿐만 아니라 문헌 검토의 품질과 효율성도 향상시킬 수 있습니다. 저는 가까운 미래에 OpenScholar가 과학 연구자들에게 없어서는 안 될 조력자가 될 것이라고 믿습니다!
논문 주소: https://arxiv.org/pdf/2411.14199
프로젝트 주소: https://github.com/AkariAsai/OpenScholar
전체적으로 OpenScholar는 강력한 데이터 보유량, 혁신적인 추론 메커니즘 및 탁월한 테스트 결과를 통해 과학 연구 작업에 혁명적인 변화를 가져왔습니다. 이는 과학적 연구 효율성을 효과적으로 향상시키고 연구자들이 보다 중요한 과학적 탐구에 집중할 수 있도록 도와줄 것입니다. 이는 과학 연구 분야에서 획기적인 발전입니다.