Rhubarb ist ein leichtes Python-Framework, das die Erstellung von Dokumentenverständnisanwendungen mithilfe multimodaler Large Language Models (LLMs) und Einbettungsmodellen vereinfacht. Rhubarb wurde von Grund auf für die Zusammenarbeit mit den multimodalen Sprachmodellen Amazon Bedrock und Anthropic Claude V3 sowie dem multimodalen Einbettungsmodell Amazon Titan entwickelt.
Besuchen Sie die Rhabarber-Dokumentation.
Rhabarber kann mehrere Dokumentenverarbeitungsaufgaben erledigen, z
✅ Fragen und Antworten dokumentieren
✅ Streaming-Chat mit Dokumenten (Q&A)
✅ Dokumentzusammenfassung
Zusammenfassungen auf Seitenebene
Vollständige Zusammenfassungen
Zusammenfassungen bestimmter Seiten
Streaming-Zusammenfassungen
✅ Strukturierte Datenextraktion
✅ Named Entity Recognition (NER)
Mit 50 integrierten gemeinsamen Einheiten
✅ PII-Erkennung mit integrierten Entitäten
✅ Figuren- und Bildverständnis aus Dokumenten
Erklären Sie Diagramme, Grafiken und Abbildungen
Tabellenschlussfolgerungen durchführen (als Zahlen)
✅ Dokumentenklassifizierung mit Vektorstichprobe unter Verwendung multimodaler Einbettungsmodelle
✅ Protokolliert die Token-Nutzung, um die Kosten im Auge zu behalten
Rhubarb verfügt über integrierte Systemeingabeaufforderungen, die es einfach machen, es für eine Reihe verschiedener Anwendungsfälle zum Verstehen von Dokumenten zu verwenden. Sie können Rhabarber anpassen, indem Sie Ihre eigenen Systemeingabeaufforderungen eingeben. Es unterstützt die exakte JSON-Schema-basierte Ausgabegenerierung, was die Integration in nachgelagerte Anwendungen erleichtert.
Unterstützt PDF-, TIFF-, PNG- und JPG-Dateien (Unterstützung für Word-, Excel-, PowerPoint-, CSV-, Webp- und EML-Dateien folgt in Kürze)
Führt die Konvertierung von Dokumenten in Bilder intern durch, um mit den multimodalen Modellen zu arbeiten
Funktioniert mit lokalen Dateien oder in S3 gespeicherten Dateien
Unterstützt die Angabe von Seitenzahlen für mehrseitige Dokumente
Unterstützt Chatverlauf-basierten Chat für Dokumente
Unterstützt Streaming- und Nicht-Streaming-Modus
Beginnen Sie mit der Installation von Rhubarb mit pip
.
pip install pyrhubarb
Erstellen Sie eine boto3
Sitzung.
import boto3session = boto3.Session()
Lokale Datei
aus Rhabarber importieren DocAnalysisda = DocAnalysis(file_path="./path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Wie heißt der Mitarbeiter?")resp
Mit Datei in Amazon S3
aus Rhabarber importieren DocAnalysisda = DocAnalysis(file_path="s3://path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Wie heißt der Mitarbeiter?")resp
Weitere Anwendungsbeispiele finden Sie in den Kochbüchern.
Weitere Informationen finden Sie unter BEITRAGEN.
Dieses Projekt ist unter der Apache-2.0-Lizenz lizenziert.