Sycamore est un moteur de traitement de documents open source alimenté par l'IA pour les applications ETL, RAG, LLM et l'analyse des données non structurées. Sycamore peut partitionner et enrichir un large éventail de types de documents, notamment des rapports, des présentations, des transcriptions, des manuels, etc. Il peut analyser et regrouper des documents complexes tels que des PDF et des images avec des tableaux, figures, graphiques et autres infographies intégrés. Découvrez un exemple de bloc-notes.
Pour le traitement des documents, Sycamore exploite Aryn DocParse (anciennement connu sous le nom d'Aryn Partitioning Service), une API sans serveur alimentée par GPU pour segmenter et étiqueter les documents, effectuer l'OCR, extraire des tableaux et des images, et bien plus encore. Il exploite le modèle d'IA DETR d'apprentissage profond open source et de pointe d'Aryn, formé sur plus de 80 000 documents d'entreprise, et peut conduire à un regroupement de données 6 fois plus précis et à un rappel 2 fois amélioré sur la recherche hybride ou RAG par rapport aux systèmes alternatifs. Vous pouvez vous inscrire gratuitement ici ou choisir d'exécuter Aryn Partitioner localement.
Aryn DocParse prend des documents et renvoie la sortie partitionnée au format JSON, et vous pouvez utiliser Sycamore pour une extraction, un enrichissement, des transformations, un nettoyage et un chargement de données supplémentaires dans des bases de données en aval. Vous pouvez choisir les LLM à utiliser avec ces transformations.
Sycamore charge de manière fiable vos bases de données vectorielles et moteurs de recherche hybrides, notamment OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant et Weaviate, avec des données de meilleure qualité.
Le framework Sycamore est construit autour d'une abstraction évolutive et robuste pour le traitement des documents appelée DocSet, et comprend de puissantes transformations de haut niveau en Python pour le traitement, l'enrichissement et le nettoyage des données. Les DocSets encapsulent également des techniques de traitement de données évolutives, supprimant le lourd fardeau indifférencié du chargement fiable de morceaux. L'approche de programmation fonctionnelle de DocSets vous permet de personnaliser et d'expérimenter rapidement votre segmentation pour obtenir des résultats RAG de meilleure qualité.
Introduction à Aryn DocParse (anciennement connu sous le nom d'Aryn Partitioning Service)
Sycamore fonctionne actuellement sous Linux et Mac OS. Pour installer, exécutez :
pip install sycamore-ai
Sycamore fournit des connecteurs aux bases de données vectorielles via des extras Python. Pour installer un connecteur, incluez-le en supplément avec votre installation pip. Par exemple,
pip install sycamore-ai[duckdb]
Les connecteurs pris en charge incluent duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
et weaviate
.
Pour utiliser Aryn DocParse, inscrivez-vous gratuitement ici et utilisez la clé API.
Consultez notre Guide de contribution pour plus d'informations sur la façon de contribuer à Sycamore et de configurer votre environnement de développement.
↑ Retour en haut ↑