Sycamore es un motor de procesamiento de documentos de código abierto impulsado por IA para aplicaciones basadas en ETL, RAG, LLM y análisis de datos no estructurados. Sycamore puede dividir y enriquecer una amplia gama de tipos de documentos, incluidos informes, presentaciones, transcripciones, manuales y más. Puede analizar y fragmentar documentos complejos, como archivos PDF e imágenes, con tablas, figuras, gráficos y otras infografías incrustadas. Consulte un cuaderno de ejemplo.
Para procesar documentos, Sycamore aprovecha Aryn DocParse (anteriormente conocido como Aryn Partitioning Service), una API sin servidor impulsada por GPU para segmentar y etiquetar documentos, realizar OCR, extraer tablas e imágenes, y más. Aprovecha el modelo DETR AI de aprendizaje profundo de código abierto y de última generación de Aryn, entrenado en más de 80.000 documentos empresariales, y puede generar una fragmentación de datos 6 veces más precisa y una recuperación 2 veces mejor en búsqueda híbrida o RAG en comparación con sistemas alternativos. Puede registrarse de forma gratuita aquí o elegir ejecutar Aryn Partitioner localmente.
Aryn DocParse toma documentos y devuelve la salida particionada en JSON, y usted puede usar Sycamore para extracción, enriquecimiento, transformación, limpieza y carga de datos adicionales en bases de datos posteriores. Puede elegir los LLM que utilizará con estas transformaciones.
Sycamore carga de manera confiable sus bases de datos vectoriales y motores de búsqueda híbridos, incluidos OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant y Weaviate, con datos de mayor calidad.
El marco Sycamore se basa en una abstracción escalable y robusta para el procesamiento de documentos llamada DocSet e incluye poderosas transformaciones de alto nivel en Python para el procesamiento, enriquecimiento y limpieza de datos. Los DocSets también encapsulan técnicas de procesamiento de datos escalables, eliminando el trabajo pesado indiferenciado de los fragmentos de carga confiables. El enfoque de programación funcional de DocSets le permite personalizar y experimentar rápidamente con su fragmentación para obtener resultados RAG de mejor calidad.
Introducción a Aryn DocParse (anteriormente conocido como Aryn Partitioning Service)
Sycamore actualmente se ejecuta en Linux y Mac OS. Para instalar, ejecute:
pip install sycamore-ai
Sycamore proporciona conectores a bases de datos vectoriales a través de extras de Python. Para instalar un conector, inclúyalo como extra con la instalación de su pip. Por ejemplo,
pip install sycamore-ai[duckdb]
Los conectores admitidos incluyen duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
y weaviate
.
Para utilizar Aryn DocParse, regístrese gratis aquí y utilice la clave API.
Consulte nuestra Guía de contribución para obtener más información sobre cómo contribuir a Sycamore y configurar su entorno para el desarrollo.
↑ Volver arriba ↑