Rhubarb adalah kerangka kerja Python ringan yang memudahkan pembuatan aplikasi pemahaman dokumen menggunakan Multi-modal Large Language Models (LLMs) dan model Embedding. Rhubarb dibuat dari awal untuk bekerja dengan Model Bahasa Multi-modal Amazon Bedrock dan Anthropic Claude V3, serta model Penyematan Multi-modal Amazon Titan.
Kunjungi dokumentasi Rhubarb.
Rhubarb dapat melakukan banyak tugas pemrosesan dokumen seperti
✅ Dokumentasikan Tanya Jawab
✅ Obrolan streaming dengan dokumen (Tanya Jawab)
✅ Peringkasan Dokumen
Ringkasan tingkat halaman
Ringkasan lengkap
Ringkasan halaman tertentu
Ringkasan Streaming
✅ Ekstraksi data terstruktur
✅ Pengenalan entitas bernama (NER)
Dengan 50 entitas umum bawaan
✅ Pengenalan PII dengan entitas bawaan
✅ Pemahaman gambar dan gambar dari dokumen
Menjelaskan bagan, grafik, dan gambar
Lakukan penalaran tabel (sebagai gambar)
✅ Klasifikasi Dokumen dengan pengambilan sampel vektor menggunakan model penyematan multimodal
✅ Mencatat penggunaan token untuk membantu melacak biaya
Rhubarb hadir dengan petunjuk sistem bawaan yang memudahkan penggunaannya untuk sejumlah kasus penggunaan pemahaman dokumen yang berbeda. Anda dapat menyesuaikan Rhubarb dengan meneruskan perintah sistem Anda sendiri. Ini mendukung pembuatan keluaran berbasis skema JSON yang membuatnya mudah untuk diintegrasikan ke dalam aplikasi hilir.
Mendukung file PDF, TIFF, PNG, JPG (dukungan untuk file Word, Excel, PowerPoint, CSV, Webp, eml segera hadir)
Melakukan konversi dokumen ke gambar secara internal untuk bekerja dengan model multi-modal
Bekerja pada file lokal atau file yang disimpan di S3
Mendukung penentuan nomor halaman untuk dokumen multi-halaman
Mendukung obrolan berbasis riwayat obrolan untuk dokumen
Mendukung mode streaming dan non-streaming
Mulailah dengan menginstal Rhubarb menggunakan pip
.
pip install pyrhubarb
Buat sesi boto3
.
impor boto3session = boto3.Sesi()
Berkas lokal
dari rhubarb impor DocAnalysisda = DocAnalysis(file_path="./path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Siapa nama karyawannya?")resp
Dengan file di Amazon S3
dari rhubarb impor DocAnalysisda = DocAnalysis(file_path="s3://path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Siapa nama karyawannya?")resp
Untuk contoh penggunaan lebih lanjut, lihat buku masak.
Lihat KONTRIBUSI untuk informasi lebih lanjut.
Proyek ini dilisensikan di bawah Lisensi Apache-2.0.