간편한 데이터 파이프라인 구축을 위한 오픈 소스 AI Copilot
주요 특징
- 웹 UI의 채팅 기능을 갖춘 노트북 스타일 인터페이스 : 친숙한 Jupyter 노트북 인터페이스에서 데이터 파이프라인 작업을 수행하는 동시에 AI 부조종사가 프로세스 전반에 걸쳐 데이터 엔지니어링 코드를 생성, 실행 및 디버깅하여 지원하고 안내합니다.
- 공급업체 종속 없음 : 원하는 데이터 스택으로 데이터 파이프라인을 구축하고 완전한 유연성을 바탕으로 부조종사에 대해 선호하는 LLM을 선택하세요.
- 완전한 사용자 정의 가능 : 파이프라인을 데이터 이동, 변환 등과 같은 여러 구성 요소로 나누고 각 구성 요소를 특정 요구 사항에 맞게 조정합니다. 그런 다음 Splicing은 이러한 구성 요소를 완벽하고 기능적인 데이터 파이프라인으로 원활하게 조립합니다.
- 보안 및 관리 용이성 : 데이터 및 LLM을 완벽하게 제어하여 자체 인프라에서 호스트 접합을 수행합니다. 귀하의 데이터와 비밀 키는 절대로 LLM 제공업체와 공유되지 않습니다.
빠른 시작
Splicing을 실행하는 가장 쉬운 방법은 Docker를 사용하는 것입니다.
도커를 설치합니다.
Splicing을 실행하려면 다음 명령을 실행하세요.
docker run -v $( pwd ) /.splicing:/app/.splicing
-p 3000:3000
-p 8000:8000
-it --rm splicingai/splicing:latest
기본적으로 모든 애플리케이션 데이터는 위 명령을 실행하는 현재 디렉터리 내의 ./.splicing
폴더에 저장됩니다. 데이터를 유지하려면 이 폴더를 백업해야 합니다.
- 웹 UI에 액세스하려면 http://localhost:3000/으로 이동하세요.
CONTRIBUTING 가이드의 지침에 따라 개발을 위해 Docker 없이 Splicing을 설치할 수도 있습니다.
로드맵
- 데이터 파이프라인 배포 : 푸시-배포 경험을 통해 프로덕션 환경에 데이터 파이프라인 배포를 지원합니다.
- 더 많은 데이터 파이프라인 구성 요소 : 데이터 품질 검사 및 데이터 계보와 같은 데이터 파이프라인의 더 많은 필수 구성 요소를 지원합니다.
- 추가 통합 :
- 데이터 파이프라인(예: 다양한 데이터 소스 및 웨어하우스)에서 광범위한 데이터 통합을 지원합니다.
- 부조종사로 더 많은 LLM을 지원합니다(예: Claude 및 현지 모델).
- 소스 코드 구조를 간소화하여 커뮤니티에서 통합을 더 쉽게 추가할 수 있습니다.
- 더 스마트한 부조종사 : 웨어하우스의 데이터에 대한 의미 체계 모델 및 ER 다이어그램을 자동으로 생성하는 등 더 많은 기능을 통해 부조종사를 강화하여 데이터 파이프라인을 더욱 쉽게 구축할 수 있습니다.
자원
기술 스택
- 프런트엔드: Next.js, Tailwind CSS 및 Shadcn
- 백엔드: FastAPI 및 Redis
- 에이전트 프레임워크: LangGraph
기여
자세한 내용은 CONTRIBUTING.md를 참조하세요.
자주 묻는 질문
Splicing의 주요 사용 사례는 무엇입니까?
스플라이싱은 데이터 분석 및 기계 학습과 같은 다운스트림 프로세스를 위해 데이터를 준비하기 위해 데이터 수집, 변환, 조정과 같은 작업을 포함하여 데이터 파이프라인을 구축하는 데 도움을 줍니다.
스플라이싱은 누구를 위한 것인가?
Splicing은 데이터 엔지니어, 데이터 과학자 및 데이터 파이프라인을 구축해야 하는 모든 사람을 위해 설계되었습니다. 데이터 엔지니어링 경험이 부족하더라도 스플라이싱의 AI Copilot이 단계별로 안내해 주며, 언제든지 자연어를 사용해 도움을 요청할 수 있습니다.
Splicing은 다른 코드 생성 도구 및 AI 부조종사와 어떻게 다릅니까?
Splicing은 생산성을 위해 생성 AI를 완전히 채택하지 않은 복잡한 선택이 많은 분야인 데이터 엔지니어링을 위해 특별히 설계되었습니다. 일반 도구와 달리 Splicing은 데이터 파이프라인에서 일반적인 고정 단계에 대한 언어 모델 최적화에 중점을 둡니다. 또한 데이터 소스 및 도구와 긴밀하게 통합되어 부조종사가 프로젝트의 컨텍스트(구성, 데이터 등)를 이해할 수 있으므로 범용 부조종사에 비해 더 정확하고 유용한 코드를 생성할 수 있습니다.
스플라이싱은 얼마나 안전합니까? 내 데이터가 공유되나요?
Splicing은 오픈 소스이며 자체 인프라에서 호스팅될 수 있습니다. 귀하의 데이터와 비밀 키는 설계상 당사나 다른 LLM 제공업체와 절대 공유되지 않습니다. 또한 Splicing Copilot은 생성된 코드를 자동으로 실행하지 않습니다. 실행 시기와 방법을 사용자가 제어할 수 있습니다.
Splicing으로 구축된 데이터 파이프라인을 다른 곳에서 실행할 수 있나요?
예! Splicing은 선호하는 데이터 통합 및 도구를 사용하여 코드를 생성합니다. 한 번의 클릭으로 코드를 내보내고 원하는 곳 어디에서나 실행하거나 배포할 수 있습니다. 공급업체 종속이 없습니다.