Второй пилотный проект искусственного интеллекта с открытым исходным кодом для простого построения конвейера данных
Ключевые особенности
- Интерфейс в стиле ноутбука с возможностями чата в веб-интерфейсе . Работайте над конвейерами данных в знакомом интерфейсе блокнота Jupyter, а второй пилот с искусственным интеллектом помогает и направляет вас, создавая, выполняя и отлаживая код обработки данных на протяжении всего процесса.
- Никакой привязки к поставщику : создавайте свои конвейеры данных с любым стеком данных по вашему выбору и выбирайте LLM, который вы предпочитаете для своего второго пилота, с полной гибкостью.
- Полностью настраиваемый : разбейте свой конвейер на несколько компонентов, таких как перемещение данных, преобразование и т. д., и адаптируйте каждый компонент к вашим конкретным потребностям. Затем сращивание плавно объединяет эти компоненты в полноценный функциональный конвейер данных.
- Безопасно и управляемо : размещение хоста в вашей собственной инфраструктуре с полным контролем над вашими данными и LLM. Ваши данные и секретные ключи никогда не передаются поставщикам LLM.
Быстрый старт
Самый простой способ запустить Splicing — в Docker:
Установите Докер.
Выполните следующую команду, чтобы запустить сращивание:
docker run -v $( pwd ) /.splicing:/app/.splicing
-p 3000:3000
-p 8000:8000
-it --rm splicingai/splicing:latest
По умолчанию все данные приложения хранятся в папке ./.splicing
в текущем каталоге, в котором вы запускаете указанную выше команду. Если вы хотите сохранить данные, обязательно создайте резервную копию этой папки.
- Перейдите по адресу http://localhost:3000/, чтобы получить доступ к веб-интерфейсу.
Вы также можете установить Splicing без Docker для разработки, следуя инструкциям в руководстве «ВКЛАД».
Дорожная карта
- Развертывание конвейера данных . Поддержка развертывания конвейеров данных в производственных средах с возможностью развертывания по принципу «нажми-на-назад».
- Больше компонентов конвейера данных : поддержка более важных компонентов конвейеров данных, таких как проверки качества данных и происхождение данных.
- Дополнительные интеграции :
- Поддержка широкого спектра интеграций данных в конвейерах данных (например, различных источников данных и хранилищ).
- Поддерживайте больше LLM в качестве вторых пилотов (например, Клода и местных моделей).
- Оптимизируйте структуру исходного кода, чтобы сообществу было проще добавлять интеграции.
- Умный второй пилот . Расширьте второй пилотный проект, добавив дополнительные возможности, такие как автоматическое создание семантических моделей и диаграмм ER для данных в хранилищах, что упрощает построение конвейеров данных.
Ресурсы
- Документация
- Демо
- Сообщество
Технические стеки
- Фронтенд: Next.js, Tailwind CSS и Shadcn.
- Бэкэнд: FastAPI и Redis.
- Агентская платформа: LangGraph
Содействие
Пожалуйста, посетите CONTRIBUTING.md для более подробной информации.
Часто задаваемые вопросы
Каковы основные варианты использования сплайсинга?
Сращивание помогает в построении конвейеров данных, включая такие задачи, как прием, преобразование и оркестровка данных, чтобы подготовить данные для последующих процессов, таких как анализ данных и машинное обучение.
Для кого предназначен сплайсинг?
Сплайсинг предназначен для инженеров данных, специалистов по данным и всех, кому необходимо создавать конвейеры данных. Даже если у вас ограниченный опыт работы с данными, AI Copilot от Splicing будет вести вас шаг за шагом, и вы сможете в любое время обратиться за помощью, используя естественный язык.
Чем сплайсинг отличается от других инструментов генерации кода и вторых пилотов искусственного интеллекта?
Сращивание специально разработано для инженерии данных — области со множеством сложных решений, в которой генеративный ИИ еще не полностью адаптирован для повышения производительности. В отличие от универсальных инструментов, Splicing фокусируется на оптимизации языковых моделей для фиксированных шагов, типичных для конвейеров данных. Он также глубоко интегрирован с источниками данных и инструментами, что позволяет второму пилоту понимать контекст вашего проекта — ваши конфигурации, данные и многое другое — что приводит к более точной и полезной генерации кода по сравнению с вторым пилотом общего назначения.
Насколько безопасно сращивание? Будут ли мои данные переданы?
Сплайсинг имеет открытый исходный код и может размещаться в вашей собственной инфраструктуре. Ваши данные и секретные ключи никогда не передаются нам или каким-либо поставщикам LLM. Кроме того, Splicing Copilot не выполняет автоматически сгенерированный код — вы сами контролируете, когда и как он запускается.
Могу ли я запускать конвейеры данных, созданные с помощью Splicing, в другом месте?
Да! При сращивании код генерируется с использованием предпочитаемых вами интеграций данных и инструментов. Вы можете экспортировать код одним щелчком мыши и запустить или развернуть его где угодно. Привязки к поставщику нет.