Sycamore คือระบบประมวลผลเอกสารแบบโอเพ่นซอร์สที่ขับเคลื่อนด้วย AI สำหรับแอปพลิเคชันที่ใช้ ETL, RAG, LLM และการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้าง Sycamore สามารถแบ่งพาร์ติชันและเพิ่มคุณค่าให้กับเอกสารประเภทต่างๆ มากมาย รวมถึงรายงาน การนำเสนอ ใบรับรองผลการเรียน คู่มือ และอื่นๆ อีกมากมาย สามารถวิเคราะห์และจัดกลุ่มเอกสารที่ซับซ้อน เช่น PDF และรูปภาพ พร้อมตาราง ตัวเลข กราฟ และอินโฟกราฟิกอื่นๆ ที่ฝังไว้ ดูตัวอย่างสมุดบันทึก
สำหรับการประมวลผลเอกสาร Sycamore ใช้ประโยชน์จาก Aryn DocParse (เดิมชื่อ Aryn Partitioning Service) ซึ่งเป็น API แบบไร้เซิร์ฟเวอร์ที่ขับเคลื่อนด้วย GPU สำหรับการแบ่งส่วนและติดป้ายกำกับเอกสาร การทำ OCR การแยกตารางและรูปภาพ และอื่นๆ โดยใช้ประโยชน์จากโมเดล DETR AI การเรียนรู้เชิงลึกแบบโอเพ่นซอร์สที่ล้ำสมัยของ Aryn ซึ่งได้รับการฝึกฝนบนเอกสารองค์กรขนาด 80,000+ รายการ และทำให้การรวบรวมข้อมูลมีความแม่นยำมากขึ้น 6 เท่า และการเรียกคืนการค้นหาแบบไฮบริดหรือ RAG ที่ดีขึ้น 2 เท่า เมื่อเปรียบเทียบกับระบบอื่น คุณสามารถลงทะเบียนได้ฟรีที่นี่ หรือเลือกที่จะเรียกใช้ Aryn Partitioner ในเครื่อง
Aryn DocParse รับเอกสารและส่งคืนเอาต์พุตที่แบ่งพาร์ติชันใน JSON และคุณสามารถใช้ Sycamore สำหรับการดึงข้อมูลเพิ่มเติม การเพิ่มคุณค่า การแปลง การล้าง และการโหลดลงในฐานข้อมูลดาวน์สตรีม คุณสามารถเลือก LLM ที่จะใช้กับการแปลงเหล่านี้ได้
Sycamore โหลดฐานข้อมูลเวกเตอร์และเครื่องมือค้นหาแบบไฮบริดของคุณได้อย่างน่าเชื่อถือ รวมถึง OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant และ Weaviate ด้วยข้อมูลคุณภาพสูงกว่า
เฟรมเวิร์ก Sycamore สร้างขึ้นโดยใช้นามธรรมที่แข็งแกร่งและปรับขนาดได้สำหรับการประมวลผลเอกสารที่เรียกว่า DocSet และรวมถึงการแปลงระดับสูงที่ทรงพลังใน Python สำหรับการประมวลผลข้อมูล การเพิ่มคุณค่า และการล้างข้อมูล DocSets ยังสรุปเทคนิคการประมวลผลข้อมูลที่ปรับขนาดได้ โดยขจัดการยกของหนักที่ไม่แตกต่างกันของการโหลดชิ้นส่วนที่เชื่อถือได้ วิธีการเขียนโปรแกรมเชิงฟังก์ชันของ DocSets ช่วยให้คุณปรับแต่งและทดลองการแยกส่วนได้อย่างรวดเร็วเพื่อให้ได้ผลลัพธ์ RAG ที่มีคุณภาพดีขึ้น
ข้อมูลเบื้องต้นเกี่ยวกับ Aryn DocParse (เดิมชื่อ Aryn Partitioning Service)
ปัจจุบัน Sycamore ทำงานบน Linux และ Mac OS หากต้องการติดตั้ง ให้รัน:
pip install sycamore-ai
Sycamore จัดเตรียมตัวเชื่อมต่อไปยังฐานข้อมูลเวกเตอร์ผ่าน Python extras หากต้องการติดตั้งตัวเชื่อมต่อ ให้รวมตัวเชื่อมต่อไว้เป็นส่วนเสริมในการติดตั้ง pip ของคุณ ตัวอย่างเช่น,
pip install sycamore-ai[duckdb]
ตัวเชื่อมต่อที่รองรับ ได้แก่ duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
และ weaviate
หากต้องการใช้ Aryn DocParse ลงทะเบียนฟรีที่นี่ และใช้คีย์ API
ดูคู่มือการสนับสนุนของเราสำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการมีส่วนร่วมกับ Sycamore และตั้งค่าสภาพแวดล้อมของคุณสำหรับการพัฒนา
↑ กลับไปด้านบน ↑