Sycamore adalah mesin pemrosesan dokumen sumber terbuka yang didukung AI untuk aplikasi berbasis ETL, RAG, LLM, dan analitik pada data tidak terstruktur. Sycamore dapat mempartisi dan memperkaya berbagai jenis dokumen termasuk laporan, presentasi, transkrip, manual, dan banyak lagi. Itu dapat menganalisis dan memotong dokumen kompleks seperti PDF dan gambar dengan tabel, gambar, grafik, dan infografis lainnya yang tertanam. Lihat contoh buku catatan.
Untuk memproses dokumen, Sycamore memanfaatkan Aryn DocParse (sebelumnya dikenal sebagai Aryn Partitioning Service), API tanpa server yang didukung GPU untuk melakukan segmentasi dan pelabelan dokumen, melakukan OCR, mengekstraksi tabel dan gambar, dan banyak lagi. Sistem ini memanfaatkan model deep learning DETR AI Aryn yang canggih dan open source yang dilatih pada lebih dari 80 ribu dokumen perusahaan, dan dapat menghasilkan pengelompokan data 6x lebih akurat dan peningkatan ingatan 2x pada penelusuran hibrid atau RAG jika dibandingkan dengan sistem alternatif. Anda dapat mendaftar secara gratis di sini, atau memilih untuk menjalankan Aryn Partitioner secara lokal.
Aryn DocParse mengambil dokumen dan mengembalikan output yang dipartisi dalam JSON, dan Anda dapat menggunakan Sycamore untuk ekstraksi data tambahan, pengayaan, transformasi, pembersihan, dan pemuatan ke database hilir. Anda dapat memilih LLM untuk digunakan dengan transformasi ini.
Sycamore dengan andal memuat database vektor dan mesin pencari hibrid Anda, termasuk OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant, dan Weaviate, dengan data berkualitas lebih tinggi.
Kerangka kerja Sycamore dibangun berdasarkan abstraksi yang dapat diskalakan dan kuat untuk pemrosesan dokumen yang disebut DocSet, dan mencakup transformasi tingkat tinggi yang kuat dengan Python untuk pemrosesan, pengayaan, dan pembersihan data. DocSets juga merangkum teknik pemrosesan data yang dapat diskalakan yang menghilangkan beban berat yang tidak terdiferensiasi dari potongan pemuatan yang andal. Pendekatan pemrograman fungsional DocSets memungkinkan Anda menyesuaikan dan bereksperimen dengan chunking dengan cepat untuk mendapatkan hasil RAG dengan kualitas lebih baik.
Pengantar Aryn DocParse (sebelumnya dikenal sebagai Layanan Partisi Aryn)
Sycamore saat ini berjalan di Linux dan Mac OS. Untuk menginstal, jalankan:
pip install sycamore-ai
Sycamore menyediakan konektor ke database vektor melalui tambahan Python. Untuk memasang konektor, sertakan sebagai tambahan dengan pemasangan pip Anda. Misalnya,
pip install sycamore-ai[duckdb]
Konektor yang didukung meliputi duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
, dan weaviate
.
Untuk menggunakan Aryn DocParse, daftar gratis di sini dan gunakan kunci API.
Lihat Panduan Berkontribusi kami untuk informasi lebih lanjut tentang cara berkontribusi pada Sycamore dan menyiapkan lingkungan Anda untuk pengembangan.
↑ Kembali ke Atas ↑