オープンソース AI Copilot によるデータ パイプラインの構築が容易
主な特長
- Web UI のチャット機能を備えたノートブック スタイルのインターフェイス: 使い慣れた Jupyter ノートブック インターフェイスでデータ パイプラインに取り組み、AI コパイロットがプロセス全体を通じてデータ エンジニアリング コードを生成、実行、デバッグすることでユーザーを支援し、ガイドします。
- ベンダー ロックインなし: 任意のデータ スタックを使用してデータ パイプラインを構築し、コパイロットに最適な LLM を柔軟に選択します。
- 完全にカスタマイズ可能: パイプラインをデータの移動、変換などの複数のコンポーネントに分割し、各コンポーネントを特定のニーズに合わせて調整します。次に、スプライシングにより、これらのコンポーネントが完全な機能的なデータ パイプラインにシームレスに組み立てられます。
- 安全で管理しやすい: データと LLM を完全に制御できる、独自のインフラストラクチャ上でのホスト スプライシング。あなたのデータと秘密鍵は、いかなる場合でも LLM プロバイダーと共有されることはありません。
クイックスタート
スプライシングを実行する最も簡単な方法は、Docker を使用することです。
Dockerをインストールします。
次のコマンドを実行してスプライシングを実行します。
docker run -v $( pwd ) /.splicing:/app/.splicing
-p 3000:3000
-p 8000:8000
-it --rm splicingai/splicing:latest
デフォルトでは、すべてのアプリケーション データは、上記のコマンドを実行した現在のディレクトリ内の./.splicing
フォルダーに保存されます。データを永続化したい場合は、必ずこのフォルダーをバックアップしてください。
- http://localhost:3000/ に移動して Web UI にアクセスします。
CONTRIBUTING ガイドの手順に従って、開発用に Docker を使用せずに Splicing をインストールすることもできます。
ロードマップ
- データ パイプラインのデプロイ: プッシュ デプロイ エクスペリエンスにより、実稼働環境へのデータ パイプラインのデプロイをサポートします。
- データ パイプライン コンポーネントの追加: データ品質チェックやデータ リネージなど、データ パイプラインのより重要なコンポーネントのサポート。
- さらなる統合:
- データ パイプライン (さまざまなデータ ソースやウェアハウスなど) での幅広いデータ統合のサポート。
- より多くの LLM を副操縦士としてサポートします (クロード モデルやローカル モデルなど)。
- ソース コード構造を合理化し、コミュニティが統合を追加しやすくします。
- よりスマートなコパイロット: ウェアハウス内のデータのセマンティック モデルや ER 図を自動生成するなど、より多くの機能でコパイロットを強化し、データ パイプラインの構築を容易にします。
リソース
技術スタック
- フロントエンド: Next.js、Tailwind CSS、Shadcn
- バックエンド: FastAPI と Redis
- エージェントフレームワーク: LangGraph
貢献する
詳細については、CONTRIBUTING.md を参照してください。
よくある質問
スプライシングの主な使用例は何ですか?
スプライシングは、データの取り込み、変換、オーケストレーションなどのタスクを含むデータ パイプラインの構築を支援し、データ分析や機械学習などの下流プロセスに向けてデータを準備します。
スプライシングは誰のためのものですか?
Splicing は、データ エンジニア、データ サイエンティスト、およびデータ パイプラインを構築する必要がある人向けに設計されています。データ エンジニアリングの経験が限られている場合でも、Splicing の AI Copilot が段階的にガイドし、自然言語を使用していつでも助けを求めることができます。
スプライシングは他のコード生成ツールや AI コパイロットとどう違うのですか?
スプライシングは、生産性向上のために生成 AI が完全に導入されていない、多くの複雑な選択肢がある分野であるデータ エンジニアリング向けに特別に設計されています。汎用ツールとは異なり、Splicing は、データ パイプラインで一般的な固定ステップの言語モデルを最適化することに焦点を当てています。また、データ ソースやツールと深く統合されているため、コパイロットがプロジェクトのコンテキスト (構成、データなど) を理解できるため、汎用コパイロットと比較してより正確で有用なコード生成が可能になります。
スプライシングの安全性はどの程度ですか?私のデータは共有されますか?
スプライシングはオープンソースであり、独自のインフラストラクチャでホストできます。設計上、お客様のデータと秘密鍵は当社または LLM プロバイダーと共有されることはありません。さらに、スプライシング コパイロットは生成されたコードを自動的に実行しません。いつ、どのように実行するかを制御します。
スプライシングを使用して構築されたデータ パイプラインを他の場所で実行できますか?
はい!スプライシングでは、好みのデータ統合とツールを使用してコードを生成します。ワンクリックでコードをエクスポートし、好きな場所で実行またはデプロイできます。ベンダーロックインはありません。