Sycamore — это механизм обработки документов на базе искусственного интеллекта с открытым исходным кодом для приложений ETL, RAG, LLM и анализа неструктурированных данных. Sycamore может разделять и дополнять широкий спектр типов документов, включая отчеты, презентации, стенограммы, руководства и многое другое. Он может анализировать и разбивать на части сложные документы, такие как PDF-файлы и изображения, со встроенными таблицами, рисунками, графиками и другой инфографикой. Посмотрите пример блокнота.
Для обработки документов Sycamore использует Aryn DocParse (ранее известный как Aryn Partitioning Service), бессерверный API на базе графического процессора для сегментации и маркировки документов, оптического распознавания символов, извлечения таблиц и изображений и многого другого. Он использует современную модель искусственного интеллекта DETR с открытым исходным кодом от Aryn, обученную на более чем 80 тысячах корпоративных документов, и может привести к более точному фрагментированию данных в 6 раз и улучшенному отзыву в 2 раза при гибридном поиске или RAG по сравнению с альтернативными системами. Вы можете зарегистрироваться бесплатно здесь или выбрать запуск Aryn Partitioner локально.
Aryn DocParse принимает документы и возвращает секционированный вывод в формате JSON, и вы можете использовать Sycamore для дополнительного извлечения, обогащения, преобразования, очистки и загрузки данных в последующие базы данных. Вы можете выбрать LLM для использования с этими преобразованиями.
Sycamore надежно загружает ваши векторные базы данных и гибридные поисковые системы, в том числе OpenSearch, ElasticSearch, Pinecone, DuckDB, Qdrant и Weaviate, данными более высокого качества.
Платформа Sycamore построена на масштабируемой и надежной абстракции для обработки документов, называемой DocSet, и включает в себя мощные высокоуровневые преобразования Python для обработки, обогащения и очистки данных. DocSets также инкапсулируют масштабируемые методы обработки данных, устраняя недифференцированную тяжелую работу по надежной загрузке фрагментов. Функциональный подход к программированию DocSets позволяет вам быстро настраивать и экспериментировать с фрагментированием для получения более качественных результатов RAG.
Введение в Aryn DocParse (ранее известный как Aryn Partitioning Service)
В настоящее время Sycamore работает на Linux и Mac OS. Чтобы установить, запустите:
pip install sycamore-ai
Sycamore предоставляет соединители с векторными базами данных через дополнительные возможности Python. Чтобы установить соединитель, включите его в качестве дополнительного компонента при установке pip. Например,
pip install sycamore-ai[duckdb]
Поддерживаемые соединители включают duckdb
, elasticsearch
, opensearch
, pinecone
, qdrant
и weaviate
.
Чтобы использовать Aryn DocParse, бесплатно зарегистрируйтесь здесь и используйте ключ API.
Ознакомьтесь с нашим Руководством для участников, чтобы получить дополнительную информацию о том, как внести свой вклад в Sycamore и настроить свою среду для разработки.
↑ Наверх ↑