يقوم هذا المشروع بإنشاء سؤال للإجابة على سؤال مستند مدعوم من نماذج لغة كبيرة (LLMS) مثل Falcon-7B و Dolly-V2-3b باستخدام Langchain ، قاعدة بيانات CronmadB Vector. يتم نشرها على التدليل.
رابط للتطبيق: https://document-question-answering-kedarghule.streamlit.app/
ملاحظة: نظرًا لمشكلات الذاكرة مع STIPLELIT ، قد لا يعمل التطبيق أحيانًا ويعطي خطأ. ويرجع ذلك إلى حد الذاكرة 1 جيجابايت بواسطة STREMLIT. فيما يلي مقطع فيديو يوضح كيف يعمل التطبيق: https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view؟usp=sharing
في عصر اليوم من الحمل الزائد للمعلومات ، يواجه الأفراد والمنظمات تحديًا لاستخراج المعلومات ذات الصلة بكفاءة من كميات هائلة من البيانات النصية. غالبًا ما تقصر محركات البحث التقليدية في توفير إجابات دقيقة ودراسة للسياق على أسئلة محددة طرحها المستخدمون. ونتيجة لذلك ، هناك حاجة متزايدة لتقنيات معالجة اللغة الطبيعية المتقدمة (NLP) لتمكين أنظمة الإجابة الدقيقة على أسئلة المستندات (DQA).
الهدف من هذا المشروع هو تطوير تطبيق استجواب مستند مدعوم من طرز لغة كبيرة (LLMS) ، مثل Falcon-7B و Dolly-V2-3b ، باستخدام منصة Langchain وقاعدة بيانات متجه ChromadB. من خلال الاستفادة من إمكانيات LLMS ، يهدف هذا التطبيق إلى تزويد المستخدمين بإجابات دقيقة وشاملة على أسئلتهم ضمن مجموعة مستندات معينة.
.txt
و .docx
. بمجرد التحميل ، يتم تحويل ملف .docx
إلى ملف .txt
. باستخدام Langchain ، يتم تحميل المستند باستخدام TextLoader.