Langchain provides an easy-to-use integration for processing and querying documents with Pinecone and OpenAI's embeddings. Com este repositório, você pode carregar um PDF, dividir seu conteúdo, gerar incorporação e criar um sistema de resposta a perguntas usando as ferramentas acima mencionadas.
embbeding_doc.py
: O script primário para carregar um PDF, dividir seu conteúdo, gerar incorporações usando o OpenAI e salvá -las com Pinecone.constants.py
: mantém as constantes usadas no repositório.app.py
: Um aplicativo de streamlit que permite consultar os documentos incorporados usando uma cadeia de respostas à pergunta. Configuração Configure :
Você deve criar um arquivo config.py
que define o seguinte:
OPENAI_API_KEY = 'YOUR_OPENAI_API_KEY'
PINECONE_API_KEY = 'YOUR_PINECONE_API_KEY'
PINECONE_API_ENVIRONMENT = 'YOUR_PINECONE_ENVIRONMENT'
Run embbeding_doc.py
:
Isso carregará o PDF fornecido, dividirá seu conteúdo, gerará incorporações e salvará -las para pilar.
$ python embbeding_doc.py
Start the Streamlit Application :
Use Streamlit to run the app.py
script.
$ streamlit run app.py
Depois que o aplicativo estiver em execução, você poderá inserir perguntas relacionadas ao conteúdo do PDF e fornecerá respostas relevantes usando as incorporações criadas e a cadeia de resposta a perguntas.