Langchain обеспечивает простую в использовании интеграцию для обработки и запроса документов с помощью Entrics Pinecone и Openai. С помощью этого репозитория вы можете загрузить PDF, разделить его содержимое, генерировать встраивания и создать систему с ответом на вопросы, используя вышеупомянутые инструменты.
embbeding_doc.py
: основной сценарий для загрузки PDF, разделяющий его содержание, генерируя встраивания с использованием OpenAI и сохраняет их с помощью PineCone.constants.py
: удерживает константы, используемые в репозитории.app.py
: приложение для стримки, которое позволяет вам запросить встроенные документы, используя цепочку с ответом на вопрос. Настройка конфигурации :
Вы должны создать файл config.py
, который определяет следующее:
OPENAI_API_KEY = 'YOUR_OPENAI_API_KEY'
PINECONE_API_KEY = 'YOUR_PINECONE_API_KEY'
PINECONE_API_ENVIRONMENT = 'YOUR_PINECONE_ENVIRONMENT'
Запустить мимо embbeding_doc.py
:
Это загрузит предоставленный PDF, разделяет его содержимое, генерирует встраивания и сохранит их в Pinecone.
$ python embbeding_doc.py
Запустите приложение Streamlit :
Используйте Streamlit, чтобы запустить скрипт app.py
$ streamlit run app.py
После того, как приложение будет запущено, вы можете ввести вопросы, связанные с содержанием PDF, и предоставит соответствующие ответы, используя созданные встроенные вставки и цепочку с ответом на вопрос.