科学研究者は、文献のレビューと紙の執筆について心配していますか? AI2チームによってもたらされたopenscholarは、あなたの問題を解決するかもしれません!この強力な科学研究 - 効率的なアーティファクトには、論文と2億5,000万の記事を入手するための4億5,000万件のオープンがあります。あなたが需要を満足させるまであなたはあなたです。 Openscholarは強力なだけでなく、より効率的なモデルを訓練するためにも使用されます。
後期の肝臓の文献を維持し、科学的な研究をパニックにしませんか? !
OpenScholaの最大の秘密兵器は、Openscholar-Datastore(OSDS)と呼ばれるオープンペーパーであり、2億3,700万の記事が組み込まれています。このような強力な知識保護区により、OpenScholarはさまざまな科学的研究の問題に対処できます。
科学的研究の問題に遭遇した場合、OpenScholarは最初にその有能な一般的なレトリーバーとREの解雇を派遣し、OSDからの問題に関連する記事をすばやくスクリーニングします。次に、言語モデル(LM)には、参照に対する完全な回答が含まれています。さらに強力なのは、OpenScholaが自然言語のフィードバックに従って答えを改善し続け、満足するまで欠落している情報を補足することです。
OpenScholaは非常に強力であるだけでなく、より小さくより効率的なモデルをトレーニングするのにも役立ちます。研究者は、OpenScholaのプロセスを使用して大規模な高品質のトレーニングデータを生成し、これらのデータを使用して、OpenScholar-8Bおよびその他の検索モデルと呼ばれる80億パラメーター言語モデルをトレーニングしました。
OpenScholaの戦闘効果を包括的にテストするために、研究者はScholarQabenchと呼ばれる新しいテストリングも特別に作成しました。このリングには、コンピューターサイエンス、生物医学、物理学、神経科学などの複数の分野をカバーする、閉じた分類、複数のオプション、長い記事など、さまざまな科学文献レビュータスクがあります。ゲームの公平性と正義を確保するために、ScholarQabenchは、専門家のレビュー、自動インジケーター、ユーザーエクスペリエンステストなどの複数の評価方法も採用しています。
数回の激しい競争の後、OpenScholarはついに際立っていました。科学の謎を探ることに焦点を当てて、文学に苦しんでいる海を別れます!
OpenScholaの強力な特徴は、主に独自の自己フィードバック検索が強化された推論メカニズムによるものです。簡単に言えば、それは最初にそれ自体に質問を提起し、次にあなた自身の答えに従って答えを継続的に改善し、最後にあなたに最も完全な答えを提示します。素晴らしいですか?
具体的には、OpenScholaの自己フィードバック推論プロセスは、最初の回答生成、フィードバック生成、フィードバック統合の3つのステップに分けられます。 まず、言語モデルは、取得した記事の段落に基づいて初期の回答を生成します。次に、厳しい試験官のように、独自の答えを批判し、欠陥を見つけ、「結果」を生成します。 最後に、言語モデルはこれらのフィードバックに基づいて関連文書を再受信し、すべての情報を統合してより完全な答えを生成します。
より小さいが強力なパフォーマンスをトレーニングするために、研究者はまた、OpenScholaの自己フィードバック推論プロセスを使用して、大量の高品質のトレーニングデータを生成しました。 彼らは最初にデータベースから最も多くの参照を持つ論文を選択し、次にこれらの論文の要約に基づいていくつかの情報クエリの質問を生成し、最後にOpenScholaの推論プロセスを使用して高品質の回答を生成します。中央で生成されたこれらの回答とフィードバックは、貴重なトレーニングデータを構成します。 研究者は、これらのデータを既存の汎用フィールド命令における微調整データと科学的指示と混合し、OpenScholar-8Bと呼ばれる80億個のパラメーター言語モデルを訓練しました。
OpenScholaおよびその他の類似のモデルのパフォーマンスをより適切に評価するために、研究者はScholarQabenchと呼ばれる新しいベンチマークテストも作成しました。 このベンチマークテストには、専門家によって書かれた2,967のレビューが含まれており、コンピューターサイエンス、物理学、生物医学、神経科学の4つの分野をカバーしています。各質問には、専門家によって書かれた長期的な答えがあります。 ScholarQabenchは、自動インジケーターと手動評価と組み合わせた多面的な評価方法も採用しています。これは、モデルの品質をより包括的に測定して回答を生成できます。
実験結果は、ScholarQabenchでのOpenscholarのパフォーマンスが他のモデルをはるかに超えており、たとえば、いくつかの面で人間の専門家を超えていることを示しています。 GPT-4Oと比較してGPT-4Oよりも5%と比較して、GPT-4Oと比較してGPT-4Oよりも5%よりも高いです。GPT-4Oと比較して、GPT-4Oと比較して、GPT-4Oと比較して、GPT-4Oと比較して、 GPT-4Oより5%と比較して、GPT-4Oと比較してGPT-4Oより5%と比較して、GPT-4Oより5%と比較して、GPT-4Oよりも5%と比較して、GPT-4Oより5%と比較して、GPT-4Oより5%より5%と比較して、GPT-4Oより5%と比較して、GPT-4Oよりも5%と比較して、GPT-4oと比較して、PaperQa2は7%高くなります。 さらに、Openscholar生成の回答の応答の精度は、人間の専門家の反応に匹敵しますが、GPT-4Oは78-90%の高さです。
Openscholaの出現は、間違いなく科学研究の分野で大きな福音です!近い将来、OpenScholarは科学研究者にとって不可欠なアシスタントになると信じています!
論文アドレス:https://arxiv.org/pdf/2411.14199
プロジェクトアドレス:https://github.com/akariasai/openschola
全体として、OpenScholaは、その強力なデータリザーブ、革新的な推論メカニズム、優れたテスト結果を使用して、科学研究に革新的な変化をもたらしました。それは科学研究の効率を効果的に改善し、研究者がより重要な科学的探求に焦点を合わせるのを助けます。