Langchain bietet eine benutzerfreundliche Integration für die Verarbeitung und Abfrage von Dokumenten mit Tinecone und OpenAIs Einbettungen. Mit diesem Repository können Sie einen PDF laden, seinen Inhalt aufteilen, Einbettungen erzeugen und ein Fragen-Antworten mit den oben genannten Tools erstellen.
embbeding_doc.py
: Das primäre Skript zum Laden eines PDF, das Aufteilen seines Inhalts, das Erzeugen von Einbettungen mithilfe von OpenAI und das Speichern mit Tinecone.constants.py
: Hält die Konstanten im gesamten Repository.app.py
: Eine strombeleuchtete Anwendung, mit der Sie die eingebetteten Dokumente mithilfe einer Frage-Antwort-Kette abfragen können. Konfiguration einrichten :
Sie müssen eine config.py
-Datei erstellen, die Folgendes definiert:
OPENAI_API_KEY = 'YOUR_OPENAI_API_KEY'
PINECONE_API_KEY = 'YOUR_PINECONE_API_KEY'
PINECONE_API_ENVIRONMENT = 'YOUR_PINECONE_ENVIRONMENT'
Rennen embbeding_doc.py
:
Dadurch wird die bereitgestellte PDF geladen, seinen Inhalt aufgeteilt, Einschweißdings erzeugt und sie auf Tinecone speichern.
$ python embbeding_doc.py
Starten Sie die stromlitische Anwendung :
Verwenden Sie Streamlit, um das app.py
-Skript auszuführen.
$ streamlit run app.py
Sobald die Anwendung ausgeführt wird, können Sie Fragen im Zusammenhang mit dem PDF-Inhalt eingeben, und sie werden relevante Antworten mithilfe der erstellten Einbettungen und die Frage-Antwort-Kette geben.