openkaitoダウンロード - openkaitoソースコードのダウンロード

openkaito

その他のソースコード

1.0.0

ダウンロード

OpenKaito - 分散型 Kaito AI

Discord • ネットワーク • 研究

インストール

バリデーターのインストール

クイックスタートガイドの「バリデーターのセットアップ」を参照してください。

マイナーのインストール

クイックスタートガイドのマイナーのセットアップを参照してください。

さまざまなデータソースの分散インデックス作成に焦点を当てたプロジェクトのレガシーバージョンがあります。詳細については、ここを参照してください。

抽象的な

Bittensor Subnet 5 の主な焦点は、世界で最高のパフォーマンスと最も一般化可能なテキスト埋め込みモデルの開発です。

広範なラージ言語モデル (LLM) で拡張されたコーパスを評価に活用することで、マイナーは現在の最先端 (SOTA) パフォーマンスを上回るテキスト埋め込みモデルを開発およびデプロイすることができます。

目的と貢献

サブネット 5 の主な目的は、最良かつ最も一般化可能なテキスト埋め込みモデルをトレーニングして提供することです。このようなテキスト埋め込みモデルは、意味検索、自然言語理解などの多くの下流アプリケーションを強化できます。

マイナーは、テキストデータの広範なコーパスを使用してモデルをトレーニングし、低遅延かつ高スループットの方法でモデルを提供する責任を負います。これらのモデルは、さまざまなテキスト入力に対する高品質の埋め込みを生成するために利用されます。

バリデーターは、複数のベンチマークを使用してモデルの厳密な評価を実施します。継続的な改善と競争力を確保するために、既存の SOTA テキスト埋め込みモデルとパフォーマンスの比較が行われます。

サブネットユーザーは、最も汎用的で SOTA パフォーマンスを超える最先端のテキスト埋め込みモデルにアクセスできるようになります。これらのモデルは、Bittensor Subnet 5 の検証 API を通じて一般に公開され、広範な採用とさまざまなアプリケーションへの統合が促進されます。

インセンティブの仕組み

マイナーはテキストのバッチを受け取り、それらを埋め込みます。

テキスト埋め込みの場合、バリデーターは対比学習損失を通じて評価するためのペアごとの関連性情報を持っています。

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

どこ $f(x,c) = exp{(x cdot c)}$の推定値です $frac{p(x | c)}{p(x)}$ 、そして $c$はターゲットの埋め込みであり、 $x$は陽性サンプルであり、 $x'$はネガティブサンプルです。

これは、ポジティブペア間の相互情報を最大化するためです。 $x$そして $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{p(mathbf{x})} $

負のペア間の相互情報を最小限に抑えます $x'$そして $c$ : $I(mathbf{x'}; mathbf{c})$ 。

徐々に、より高速な埋め込みとより低いレイテンシーを促進するために、処理時間を考慮に入れることができる可能性があります。

コンピューティング要件

低遅延かつ高スループットの方法でテキスト埋め込みモデルを提供できる限り、マイナーの機器に厳しい要件はありません。

これを実現するには、マイナーは通常、次のインフラストラクチャを必要とします。

モデルのトレーニング:

大規模なデータセットでモデルを高速トレーニングするための GPU を搭載したマシン

モデル提供:

専用モデル推論サーバー

サブネットユーザーインターフェース

最終的に、サブネット 5 はサブネットバリデーター API を介してテキスト埋め込みモデルを提供することになります。

Subnet 5 Embedding API を使用した開発エクスペリエンスは、OpenAI テキスト埋め込み API https://platform.openai.com/docs/guides/embeddings/embedding-models と似ています。

開発ロードマップ

V1:

テキスト埋め込みモデルの評価とインセンティブのメカニズム
モデルのパフォーマンス成長曲線を示すサブネットダッシュボードと、ベースラインとしての OpenAI text-embedding-3-small モデルおよび text-embedding-3-large モデルとの比較
マイナーがトレーニングしたモデルをサブネットユーザーに提供するためのサブネット API。

V2 以降:

データセットの拡張
評価インセンティブモデルをドキュメントの再ランキングなどのタスクに拡張する
評価にドキュメントのペアワイズ距離を組み込む
…

付録 - 背景

テキスト埋め込みモデル

テキスト埋め込みモデルは、最新の自然言語処理 (NLP) の基礎であり、単語、フレーズ、またはドキュメントを連続空間内の密なベクトルとして表現します。これらのモデルは時間の経過とともに大幅に進化しました。

古典的なアプローチ:

ワンホットエンコーディングとカウントベースのメソッド (TF-IDF など)
意味的関係の捕捉が制限されている

単語の埋め込み:

分散セマンティクスに基づく
主なモデル: Word2Vec、GloVe、FastText
単語の類似点と関係性を把握する

文とドキュメントの埋め込み:

単語レベルのテクニックをより大きなテキスト単位、コンテキストに基づいた動的な表現に拡張します。
例: ELMo、BERT、GPT
多義性や文脈に依存した意味の処理が得意

アプリケーションは、意味的類似性、機械翻訳、センチメント分析など、さまざまな NLP タスクにまたがります。継続的な課題には、偏見への対処と効率の向上が含まれます。

単純な表現から洗練されたコンテキストモデルへのこの進化により、NLP 機能が劇的に強化され、機械による言語のより微妙な理解が可能になりました。

ベクトルベースのセマンティック検索

ベクトルベースのセマンティック検索は、コンテキストと意味を理解する際の制限に対処するために、従来のキーワードベースの方法から進化しました。自然言語処理と機械学習の進歩を活用して、テキストを高次元空間の密なベクトルとして表現します。

ベクトルベースのセマンティック検索の主なコンポーネントは次のとおりです。

テキスト埋め込み (例: Word2Vec、GloVe、BERT、GPT)
効率的な最近傍検索アルゴリズム (HNSW を使用したベクトルのインデックス付けなど)

埋め込みを使用してドキュメントにインデックスを付けることで、次のことが可能になります。

単語と概念の間の意味的な関係を捉える
同義語および関連用語の処理を改善する
より直感的でコンテキストを意識した検索エクスペリエンス

ベクトルベースのセマンティック検索により、さまざまなアプリケーションにわたる情報検索が大幅に強化され、キーワードの正確な一致のみに依存するのではなく、クエリの背後にある意図を理解することで、より関連性の高い結果が提供されます。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2024-12-26
サイズ 11.27MB
から Github

openkaito

OpenKaito - 分散型 Kaito AI

インストール

バリデーターのインストール

マイナーのインストール

抽象的な

目的と貢献

インセンティブの仕組み

コンピューティング要件

サブネットユーザーインターフェース

開発ロードマップ

付録 - 背景

テキスト埋め込みモデル

ベクトルベースのセマンティック検索

waymo open dataset

SmartTube

Sunamu

viptools for eslam

MySchedule.py

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions