Sycamore هو محرك معالجة مستندات مفتوح المصدر ومدعوم بالذكاء الاصطناعي للتطبيقات المستندة إلى ETL وRAG وLLM وتحليلات البيانات غير المنظمة. يمكن لـ Sycamore تقسيم وإثراء مجموعة واسعة من أنواع المستندات بما في ذلك التقارير والعروض التقديمية والنصوص والأدلة والمزيد. يمكنه تحليل وتجميع المستندات المعقدة مثل ملفات PDF والصور مع الجداول والأشكال والرسوم البيانية وغيرها من الرسوم البيانية المضمنة. تحقق من مثال دفتر الملاحظات.
لمعالجة المستندات، تستفيد Sycamore من Aryn DocParse (المعروفة سابقًا باسم Aryn Partitioning Service)، وهي واجهة برمجة تطبيقات بدون خادم ومدعومة بوحدة معالجة الرسومات لتقسيم المستندات ووضع العلامات عليها، وإجراء التعرف الضوئي على الحروف، واستخراج الجداول والصور، والمزيد. إنه يستفيد من نموذج DETR AI للتعلم العميق مفتوح المصدر والمتطور من Aryn والذي تم تدريبه على أكثر من 80 ألف مستند مؤسسي، ويمكن أن يؤدي إلى تجميع بيانات أكثر دقة بمقدار 6x واستدعاء محسّن بمقدار 2x للبحث المختلط أو RAG عند مقارنته بالأنظمة البديلة. يمكنك التسجيل مجانًا هنا، أو اختيار تشغيل Aryn Partitioner محليًا.
يأخذ Aryn DocParse المستندات ويعيد المخرجات المقسمة بتنسيق JSON، ويمكنك استخدام Sycamore لاستخراج البيانات الإضافية وإثرائها وتحويلها وتنظيفها وتحميلها إلى قواعد البيانات النهائية. يمكنك اختيار LLMs لاستخدامها مع هذه التحويلات.
يقوم Sycamore بتحميل قواعد بيانات المتجهات ومحركات البحث المختلطة بشكل موثوق، بما في ذلك OpenSearch وElasticSearch وPinecone وDuckDB وQdrant وWeaviate، ببيانات عالية الجودة.
تم بناء إطار عمل Sycamore حول تجريد قوي وقابل للتطوير لمعالجة المستندات يسمى DocSet، ويتضمن تحويلات قوية عالية المستوى في Python لمعالجة البيانات وإثرائها وتنظيفها. تقوم DocSets أيضًا بتغليف تقنيات معالجة البيانات القابلة للتطوير وإزالة الأحمال الثقيلة غير المتمايزة لأجزاء التحميل الموثوقة. يتيح لك أسلوب البرمجة الوظيفية الخاص بـ DocSets إمكانية التخصيص السريع وتجريب عملية التقطيع الخاصة بك للحصول على نتائج RAG ذات جودة أفضل.
مقدمة إلى Aryn DocParse (المعروفة سابقًا باسم خدمة تقسيم Aryn)
يعمل Sycamore حاليًا على نظامي التشغيل Linux وMac OS. للتثبيت، قم بتشغيل:
pip install sycamore-ai
يوفر Sycamore موصلات لقواعد البيانات المتجهة عبر إضافات Python. لتثبيت موصل، قم بتضمينه كموصل إضافي مع تثبيت النقطة. على سبيل المثال،
pip install sycamore-ai[duckdb]
تتضمن الموصلات المدعومة duckdb
و elasticsearch
و opensearch
و pinecone
و qdrant
و weaviate
.
لاستخدام Aryn DocParse، قم بالتسجيل مجانًا هنا واستخدم مفتاح API.
راجع دليل المساهمة الخاص بنا للحصول على مزيد من المعلومات حول كيفية المساهمة في Sycamore وإعداد بيئتك للتطوير.
↑ العودة إلى الأعلى ↑