Rhubarb é uma estrutura Python leve que facilita a construção de aplicativos de compreensão de documentos usando modelos multimodais de linguagem grande (LLMs) e modelos de incorporação. O Rhubarb foi criado do zero para funcionar com os modelos de linguagem multimodal Amazon Bedrock e Anthropic Claude V3 e o modelo de incorporação multimodal Amazon Titan.
Visite a documentação do Ruibarbo.
O ruibarbo pode realizar várias tarefas de processamento de documentos, como
✅ Perguntas e respostas sobre documentos
✅ Streaming de bate-papo com documentos (perguntas e respostas)
✅ Resumo de documentos
Resumos em nível de página
Resumos completos
Resumos de páginas específicas
Resumos de streaming
✅ Extração de dados estruturados
✅ Reconhecimento de entidade nomeada (NER)
Com 50 entidades comuns integradas
✅ Reconhecimento de PII com entidades integradas
✅ Compreensão de figuras e imagens de documentos
Explique tabelas, gráficos e figuras
Execute o raciocínio de tabela (como figuras)
✅ Classificação de documentos com amostragem vetorial usando modelos de incorporação multimodal
✅ Registra o uso de tokens para ajudar a controlar os custos
O Rhubarb vem com prompts de sistema integrados que facilitam seu uso em vários casos de uso diferentes de compreensão de documentos. Você pode personalizar o Rhubarb passando os prompts do seu próprio sistema. Ele suporta geração de saída exata baseada em esquema JSON, o que facilita a integração em aplicativos downstream.
Suporta arquivos PDF, TIFF, PNG, JPG (suporte para arquivos Word, Excel, PowerPoint, CSV, Webp, eml em breve)
Executa conversão de documento em imagem internamente para trabalhar com modelos multimodais
Funciona em arquivos locais ou armazenados no S3
Suporta a especificação de números de página para documentos de várias páginas
Suporta bate-papo baseado em histórico de bate-papo para documentos
Suporta modo de streaming e não streaming
Comece instalando o Rhubarb usando pip
.
pip install pyrhubarb
Crie uma sessão boto3
.
importar boto3session = boto3.Session()
Arquivo local
de importação de ruibarbo DocAnalysisda = DocAnalysis(file_path="./path/to/doc/doc.pdf", boto3_session=sessão)resp = da.run(message="Qual o nome do funcionário?")resp
Com arquivo no Amazon S3
de importação de ruibarbo DocAnalysisda = DocAnalysis(file_path="s3://path/to/doc/doc.pdf", boto3_session=sessão)resp = da.run(message="Qual o nome do funcionário?")resp
Para mais exemplos de uso, consulte livros de receitas.
Consulte CONTRIBUINDO para obter mais informações.
Este projeto está licenciado sob a licença Apache-2.0.