このプロジェクトは、ChromaDBベクターデータベースであるLangchainを使用して、Falcon-7BやDolly-V2-3Bなどの大規模な言語モデル(LLMS)を搭載したドキュメント質問応答アプリを構築します。それはRiremlitに展開されています。
アプリへのリンク:https://document-question-answering-kedarghule.streamlit.app/
注:retrylitのメモリの問題により、アプリは時々動作しない可能性があり、エラーが発生する場合があります。これは、Streamlitによる1GBのメモリ制限によるものです。アプリの仕組みを示すビデオを次に示します:https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view? sharing
今日の情報過多の時代において、個人と組織は、膨大な量のテキストデータから関連情報を効率的に抽出するという課題に直面しています。従来の検索エンジンは、ユーザーが提起する特定の質問に正確でコンテキストを意識した回答を提供することに不足していることがよくあります。その結果、正確なドキュメント質問(DQA)システムを有効にするための高度な自然言語処理(NLP)技術の必要性が高まっています。
このプロジェクトの目標は、LangchainプラットフォームとChromadB Vectorデータベースを利用して、Falcon-7BやDolly-V2-3Bなどの大規模な言語モデル(LLMS)を搭載したドキュメント質問回答アプリを開発することです。 LLMSの機能を活用することにより、このアプリは、特定のドキュメントコーパス内の質問に対する正確で包括的な回答をユーザーに提供することを目的としています。
.txt
ファイルと.docx
ファイルのアップロードをサポートしています。アップロードすると、 .docx
ファイルは.txt
ファイルに変換されます。 LangChainを使用して、ドキュメントはTextLoaderを使用してロードされます。