Sycamore는 ETL, RAG, LLM 기반 애플리케이션 및 비정형 데이터 분석을 위한 오픈 소스 AI 기반 문서 처리 엔진입니다. Sycamore는 보고서, 프리젠테이션, 성적표, 매뉴얼 등을 포함한 광범위한 문서 유형을 분할하고 강화할 수 있습니다. 표, 그림, 그래프 및 기타 인포그래픽이 포함된 PDF 및 이미지와 같은 복잡한 문서를 분석하고 청크할 수 있습니다. 예제 노트북을 확인해 보세요.
문서 처리를 위해 Sycamore는 문서 분할 및 레이블 지정, OCR 수행, 테이블 및 이미지 추출 등을 위한 서버리스 GPU 기반 API인 Aryn DocParse(이전의 Aryn Partitioning Service)를 활용합니다. 이는 80,000개가 넘는 기업 문서에 대해 훈련된 Aryn의 최첨단 오픈 소스 딥 러닝 DETR AI 모델을 활용하며, 대체 시스템과 비교할 때 하이브리드 검색 또는 RAG에서 6배 더 정확한 데이터 청킹과 2배 향상된 리콜을 제공할 수 있습니다. 여기에서 무료로 등록하거나 Aryn Partitioner를 로컬에서 실행하도록 선택할 수 있습니다.
Aryn DocParse는 문서를 가져와 분할된 출력을 JSON으로 반환하며, 추가 데이터 추출, 강화, 변환, 정리 및 다운스트림 데이터베이스로 로드를 위해 Sycamore를 사용할 수 있습니다. 이러한 변환에 사용할 LLM을 선택할 수 있습니다.
Sycamore는 OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant 및 Weaviate를 포함한 벡터 데이터베이스와 하이브리드 검색 엔진을 더 높은 품질의 데이터와 함께 안정적으로 로드합니다.
Sycamore 프레임워크는 DocSet이라는 문서 처리를 위한 확장 가능하고 강력한 추상화를 기반으로 구축되었으며 데이터 처리, 강화 및 정리를 위한 Python의 강력한 고급 변환 기능을 포함합니다. DocSets는 또한 청크를 안정적으로 로드하는 데 따른 획일적이고 무거운 작업을 제거하는 확장 가능한 데이터 처리 기술을 캡슐화합니다. DocSets의 기능적 프로그래밍 접근 방식을 사용하면 더 나은 품질의 RAG 결과를 얻기 위해 청킹을 빠르게 사용자 정의하고 실험할 수 있습니다.
Aryn DocParse(이전의 Aryn Partitioning Service) 소개
Sycamore는 현재 Linux 및 Mac OS에서 실행됩니다. 를 설치하려면 다음을 실행하세요.
pip install sycamore-ai
Sycamore는 Python extras를 통해 벡터 데이터베이스에 대한 커넥터를 제공합니다. 커넥터를 설치하려면 pip 설치 시 추가 항목으로 포함하세요. 예를 들어,
pip install sycamore-ai[duckdb]
지원되는 커넥터에는 duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
및 weaviate
가 있습니다.
Aryn DocParse를 사용하려면 여기에서 무료로 가입하고 API 키를 사용하세요.
Sycamore에 기여하고 개발 환경을 설정하는 방법에 대한 자세한 내용은 기여 가이드를 확인하세요.
↑ 맨 위로 돌아가기 ↑