Rhubarb هو إطار عمل Python خفيف الوزن يجعل من السهل إنشاء تطبيقات فهم المستندات باستخدام نماذج اللغات الكبيرة متعددة الوسائط (LLMs) ونماذج التضمين. تم إنشاء Rhubarb من الألف إلى الياء للعمل مع نماذج اللغة متعددة الوسائط Amazon Bedrock وAnthropic Claude V3، ونموذج التضمين متعدد الوسائط Amazon Titan.
قم بزيارة وثائق الراوند.
يمكن لراوند القيام بمهام متعددة لمعالجة المستندات مثل
✅ وثيقة أسئلة وأجوبة
✅ بث الدردشة مع المستندات (أسئلة وأجوبة)
✅تلخيص المستندات
ملخصات على مستوى الصفحة
ملخصات كاملة
ملخصات صفحات محددة
ملخصات الجري
✅ استخراج البيانات المنظمة
✅ التعرف على الكيان المسمى (NER)
مع 50 كيانًا مشتركًا مدمجًا
✅ التعرف على معلومات تحديد الهوية الشخصية (PII) من خلال الكيانات المضمنة
✅ فهم الشكل والصورة من المستندات
شرح المخططات والرسوم البيانية والأشكال
تنفيذ الاستدلال الجدولي (كما هو موضح في الأشكال)
✅ تصنيف المستندات مع أخذ العينات المتجهة باستخدام نماذج التضمين متعددة الوسائط
✅ يسجل استخدام الرمز المميز للمساعدة في تتبع التكاليف
يأتي Rhubarb مزودًا بمطالبات نظام مدمجة تجعل من السهل استخدامه لعدد من حالات الاستخدام المختلفة لفهم المستندات. يمكنك تخصيص نبات الراوند عن طريق تمرير مطالبات النظام الخاصة بك. وهو يدعم إنشاء المخرجات المستندة إلى مخطط JSON الدقيق مما يجعل من السهل الاندماج في التطبيقات النهائية.
يدعم ملفات PDF وTIFF وPNG وJPG (يتوفر دعم لملفات Word وExcel وPowerPoint وCSV وWepp وeml قريبًا)
ينفذ تحويل المستند إلى صورة داخليًا للعمل مع النماذج متعددة الوسائط
يعمل على الملفات المحلية أو الملفات المخزنة في S3
يدعم تحديد أرقام الصفحات للمستندات متعددة الصفحات
يدعم الدردشة المستندة إلى سجل الدردشة للمستندات
يدعم وضع الدفق وغير الدفق
ابدأ بتثبيت Rhubarb باستخدام pip
.
pip install pyrhubarb
قم بإنشاء جلسة boto3
.
استيراد boto3session = boto3.Session()
الملف المحلي
من استيراد الراوند DocAnalysda = DocAnalogy(file_path = "./path/to/doc/doc.pdf"، boto3_session=session)resp = da.run(message="ما اسم الموظف؟")resp
مع الملف في Amazon S3
من استيراد الراوند DocAnalysda = DocAnalogy(file_path = "s3://path/to/doc/doc.pdf"، boto3_session=session)resp = da.run(message="ما اسم الموظف؟")resp
لمزيد من أمثلة الاستخدام، راجع كتب الطبخ.
انظر المساهمة لمزيد من المعلومات.
تم ترخيص هذا المشروع بموجب ترخيص Apache-2.0.