Ce projet construit une question de document répondant à l'application alimentée par des modèles de grande langue (LLMS) comme Falcon-7b et Dolly-V2-3B à l'aide de Langchain, la base de données Vector ChromAdB. Il est déployé sur Streamlit.
Lien vers l'application: https://document-question-answering-kedarghule.streamlit.app/
Remarque: En raison des problèmes de mémoire avec Streamlit, l'application peut ne pas fonctionner parfois et donner une erreur. Cela est dû à la limite de mémoire de 1 Go par rationalisation. Voici une vidéo qui montre comment fonctionne l'application: https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view?usp=sharing
Dans l'ère actuelle de la surcharge d'informations, les individus et les organisations sont confrontés au défi d'extraire efficacement les informations pertinentes à partir de grandes quantités de données textuelles. Les moteurs de recherche traditionnels ne sont souvent pas en train de fournir des réponses précises et compatibles à des questions spécifiques posées par les utilisateurs. En conséquence, il existe un besoin croissant de techniques avancées de traitement du langage naturel (NLP) pour permettre des systèmes précis de réponse aux questions de documents (DQA).
L'objectif de ce projet est de développer une question de document répondant à l'application alimentée par des modèles de grande langue (LLMS), tels que Falcon-7b et Dolly-V2-3B, en utilisant la plate-forme Langchain et la base de données vectorielle ChromADB. En tirant parti des capacités des LLM, cette application vise à fournir aux utilisateurs des réponses précises et complètes à leurs questions dans un corpus de document donné.
.txt
et des fichiers .docx
. Une fois téléchargé, le fichier .docx
est converti en fichier .txt
. À l'aide de Langchain, le document est chargé à l'aide de Textloader.