Langchain fournit une intégration facile à utiliser pour le traitement et l'interrogation des documents avec PineCone et Openai's Embeddings. Avec ce référentiel, vous pouvez charger un PDF, diviser son contenu, générer des intégres et créer un système de réponses aux questions à l'aide des outils susmentionnés.
embbeding_doc.py
: le script principal pour charger un PDF, diviser son contenu, générer des incorporations à l'aide d'OpenAI et les enregistrer avec du poire.constants.py
: maintient les constantes utilisées dans le référentiel.app.py
: une application Streamlit qui vous permet d'interroger les documents intégrés à l'aide d'une chaîne de réponses de questions. Configuration de la configuration :
Vous devez créer un fichier config.py
qui définit les éléments suivants:
OPENAI_API_KEY = 'YOUR_OPENAI_API_KEY'
PINECONE_API_KEY = 'YOUR_PINECONE_API_KEY'
PINECONE_API_ENVIRONMENT = 'YOUR_PINECONE_ENVIRONMENT'
Exécutez embbeding_doc.py
:
Cela chargera le PDF fourni, divisera son contenu, générera des intégres et les enregistrera sur Pinecone.
$ python embbeding_doc.py
Démarrez l'application Streamlit :
Utilisez Streamlit pour exécuter le script app.py
$ streamlit run app.py
Une fois l'application en cours d'exécution, vous pouvez saisir des questions liées au contenu PDF, et elle fournira des réponses pertinentes en utilisant les intérêts créés et la chaîne de réponses aux questions.