Sycamore é um mecanismo de processamento de documentos de código aberto baseado em IA para aplicativos baseados em ETL, RAG, LLM e análises de dados não estruturados. O Sycamore pode particionar e enriquecer uma ampla variedade de tipos de documentos, incluindo relatórios, apresentações, transcrições, manuais e muito mais. Ele pode analisar e agrupar documentos complexos, como PDFs e imagens, com tabelas, figuras, gráficos e outros infográficos incorporados. Confira um exemplo de caderno.
Para processar documentos, o Sycamore utiliza o Aryn DocParse (anteriormente conhecido como Aryn Partitioning Service), uma API sem servidor alimentada por GPU para segmentar e rotular documentos, fazer OCR, extrair tabelas e imagens e muito mais. Ele aproveita o modelo DETR AI de aprendizagem profunda de código aberto e de última geração da Aryn, treinado em mais de 80 mil documentos corporativos, e pode levar a um agrupamento de dados 6x mais preciso e uma recuperação 2x melhorada em pesquisa híbrida ou RAG quando comparado a sistemas alternativos. Você pode se inscrever gratuitamente aqui ou optar por executar o Aryn Partitioner localmente.
Aryn DocParse pega documentos e retorna a saída particionada em JSON, e você pode usar o Sycamore para extração de dados adicionais, enriquecimento, transformações, limpeza e carregamento em bancos de dados downstream. Você pode escolher os LLMs a serem usados com essas transformações.
O Sycamore carrega de forma confiável seus bancos de dados vetoriais e mecanismos de pesquisa híbridos, incluindo OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant e Weaviate, com dados de maior qualidade.
A estrutura Sycamore é construída em torno de uma abstração escalonável e robusta para processamento de documentos chamada DocSet e inclui transformações poderosas de alto nível em Python para processamento, enriquecimento e limpeza de dados. DocSets também encapsulam técnicas escalonáveis de processamento de dados, removendo o trabalho pesado indiferenciado de blocos de carregamento confiável. A abordagem de programação funcional do DocSets permite que você personalize e experimente rapidamente seu agrupamento para obter resultados RAG de melhor qualidade.
Introdução ao Aryn DocParse (anteriormente conhecido como Aryn Partitioning Service)
Sycamore atualmente roda em Linux e Mac OS. Para instalar, execute:
pip install sycamore-ai
Sycamore fornece conectores para bancos de dados vetoriais por meio de extras Python. Para instalar um conector, inclua-o como extra na instalação do pip. Por exemplo,
pip install sycamore-ai[duckdb]
Os conectores suportados incluem duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
e weaviate
.
Para usar o Aryn DocParse, cadastre-se gratuitamente aqui e use a chave API.
Confira nosso Guia de Contribuição para obter mais informações sobre como contribuir com o Sycamore e configurar seu ambiente para desenvolvimento.
↑ Voltar ao início ↑