Rhubarb — это легкая среда Python, которая позволяет легко создавать приложения для понимания документов с использованием мультимодальных моделей большого языка (LLM) и моделей внедрения. Rhubarb создан с нуля для работы с мультимодальными языковыми моделями Amazon Bedrock и Anthropic Claude V3, а также с моделью мультимодального внедрения Amazon Titan.
Посетите документацию ревеня.
Ревень может выполнять несколько задач по обработке документов, таких как
✅ Вопросы и ответы по документам
✅ Потоковое чат с документами (вопросы и ответы)
✅ Обобщение документов
Сводка на уровне страницы
Полное резюме
Краткое описание отдельных страниц
Потоковые сводки
✅ Извлечение структурированных данных
✅ Распознавание названного объекта (NER)
С 50 встроенными общими объектами
✅ Распознавание PII с помощью встроенных объектов
✅ Понимание рисунка и изображения из документов
Объяснение диаграмм, графиков и рисунков
Выполните рассуждение по таблице (в виде рисунков)
✅ Классификация документов с векторной выборкой с использованием мультимодальных моделей внедрения
✅ Регистрирует использование токенов, чтобы отслеживать затраты.
Rhubarb поставляется со встроенными системными подсказками, которые упрощают его использование в различных случаях понимания документов. Вы можете настроить Rhubarb, передав свои собственные системные подсказки. Он поддерживает генерацию выходных данных на основе точной схемы JSON, что упрощает интеграцию в последующие приложения.
Поддерживает файлы PDF, TIFF, PNG, JPG (скоро появится поддержка файлов Word, Excel, PowerPoint, CSV, Webp, eml)
Выполняет внутреннее преобразование документа в изображение для работы с мультимодальными моделями.
Работает с локальными файлами или файлами, хранящимися в S3.
Поддерживает указание номеров страниц для многостраничных документов.
Поддерживает чат на основе истории чата для документов.
Поддерживает потоковый и непотоковый режим.
Начните с установки Rhubarb с помощью pip
.
pip install pyrhubarb
Создайте сеанс boto3
.
импортировать boto3session = boto3.Session()
Локальный файл
из ревеня import DocAnaанализda = DocAnaанализ(file_path="./path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Как зовут сотрудника?")resp
С файлом в Amazon S3
из ревеня import DocAnaанализda = DocAnaанализ(file_path="s3://path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="Как зовут сотрудника?")resp
Дополнительные примеры использования см. в кулинарных книгах.
См. ВКЛАД для получения дополнительной информации.
Этот проект распространяется по лицензии Apache-2.0.