Rhubarb เป็นเฟรมเวิร์ก Python น้ำหนักเบาที่ทำให้ง่ายต่อการสร้างแอปพลิเคชันทำความเข้าใจเอกสารโดยใช้ Multi-modal Large Language Models (LLM) และโมเดล Embedding Rhubarb ถูกสร้างขึ้นตั้งแต่ต้นจนจบเพื่อทำงานร่วมกับโมเดลภาษาหลายภาษาของ Amazon Bedrock และ Anthropic Claude V3 และโมเดลการฝังหลายโมดัลของ Amazon Titan
เยี่ยมชมเอกสารของรูบาร์บ
รูบาร์บสามารถทำงานประมวลผลเอกสารได้หลายอย่างเช่น
✅เอกสารถามตอบ
✅ แชทสตรีมมิ่งพร้อมเอกสาร (ถาม-ตอบ)
✅สรุปเอกสาร
สรุประดับหน้า
สรุปฉบับเต็ม
สรุปเฉพาะหน้า
สรุปการสตรีม
✅ การสกัดข้อมูลที่มีโครงสร้าง
✅ การรับรู้เอนทิตีที่มีชื่อ (NER)
ด้วยเอนทิตีทั่วไปในตัว 50 รายการ
✅ การรับรู้ PII ด้วยเอนทิตีในตัว
✅ความเข้าใจภาพและภาพจากเอกสาร
อธิบายแผนภูมิ กราฟ และตัวเลข
ดำเนินการให้เหตุผลตาราง (ดังรูป)
✅ การจัดประเภทเอกสารด้วยการสุ่มตัวอย่างเวกเตอร์โดยใช้โมเดลการฝังหลายรูปแบบ
✅ บันทึกการใช้โทเค็นเพื่อช่วยติดตามค่าใช้จ่าย
Rhubarb มาพร้อมกับระบบแจ้งในตัวที่ทำให้ง่ายต่อการใช้งานสำหรับกรณีการใช้งานทำความเข้าใจเอกสารต่างๆ คุณสามารถปรับแต่งรูบาร์บได้โดยส่งข้อความแจ้งของระบบของคุณเอง รองรับการสร้างเอาต์พุตตามสคีมา JSON ที่แน่นอน ซึ่งทำให้ง่ายต่อการรวมเข้ากับแอปพลิเคชันดาวน์สตรีม
รองรับไฟล์ PDF, TIFF, PNG, JPG (รองรับไฟล์ Word, Excel, PowerPoint, CSV, Webp, eml ในเร็วๆ นี้)
ดำเนินการแปลงเอกสารเป็นรูปภาพภายในเพื่อทำงานกับโมเดลหลายรูปแบบ
ใช้งานได้กับไฟล์ในเครื่องหรือไฟล์ที่จัดเก็บไว้ใน S3
รองรับการระบุหมายเลขหน้าสำหรับเอกสารหลายหน้า
รองรับการแชทตามประวัติการแชทสำหรับเอกสาร
รองรับโหมดสตรีมมิ่งและไม่ใช่สตรีมมิ่ง
เริ่มต้นด้วยการติดตั้ง Rhubarb โดยใช้ pip
pip install pyrhubarb
สร้างเซสชัน boto3
นำเข้า boto3session = boto3.Session()
ไฟล์ในเครื่อง
จากการนำเข้ารูบาร์บ DocAnalysisda = DocAnalysis(file_path="./path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="พนักงานชื่ออะไร?")resp
ด้วยไฟล์ใน Amazon S3
จากการนำเข้ารูบาร์บ DocAnalysisda = DocAnalysis(file_path="s3://path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="พนักงานชื่ออะไร?")resp
สำหรับตัวอย่างการใช้งานเพิ่มเติม โปรดดูตำราอาหาร
ดูการมีส่วนร่วมสำหรับข้อมูลเพิ่มเติม
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต Apache-2.0