Discord • ネットワーク • 研究
クイック スタート ガイドの「バリデーターのセットアップ」を参照してください。
クイック スタート ガイドのマイナーのセットアップを参照してください。
さまざまなデータ ソースの分散インデックス作成に焦点を当てたプロジェクトのレガシー バージョンがあります。詳細については、ここを参照してください。
Bittensor Subnet 5 の主な焦点は、世界で最高のパフォーマンスと最も一般化可能なテキスト埋め込みモデルの開発です。
広範なラージ言語モデル (LLM) で拡張されたコーパスを評価に活用することで、マイナーは現在の最先端 (SOTA) パフォーマンスを上回るテキスト埋め込みモデルを開発およびデプロイすることができます。
サブネット 5 の主な目的は、最良かつ最も一般化可能なテキスト埋め込みモデルをトレーニングして提供することです。このようなテキスト埋め込みモデルは、意味検索、自然言語理解などの多くの下流アプリケーションを強化できます。
マイナーは、テキスト データの広範なコーパスを使用してモデルをトレーニングし、低遅延かつ高スループットの方法でモデルを提供する責任を負います。これらのモデルは、さまざまなテキスト入力に対する高品質の埋め込みを生成するために利用されます。
バリデーターは、複数のベンチマークを使用してモデルの厳密な評価を実施します。継続的な改善と競争力を確保するために、既存の SOTA テキスト埋め込みモデルとパフォーマンスの比較が行われます。
サブネット ユーザーは、最も汎用的で SOTA パフォーマンスを超える最先端のテキスト埋め込みモデルにアクセスできるようになります。これらのモデルは、Bittensor Subnet 5 の検証 API を通じて一般に公開され、広範な採用とさまざまなアプリケーションへの統合が促進されます。
マイナーはテキストのバッチを受け取り、それらを埋め込みます。
テキスト埋め込みの場合、バリデーターは対比学習損失を通じて評価するためのペアごとの関連性情報を持っています。
どこ
これは、ポジティブペア間の相互情報を最大化するためです。
負のペア間の相互情報を最小限に抑えます
徐々に、より高速な埋め込みとより低いレイテンシーを促進するために、処理時間を考慮に入れることができる可能性があります。
低遅延かつ高スループットの方法でテキスト埋め込みモデルを提供できる限り、マイナーの機器に厳しい要件はありません。
これを実現するには、マイナーは通常、次のインフラストラクチャを必要とします。
モデルのトレーニング:
モデル提供:
最終的に、サブネット 5 はサブネット バリデーター API を介してテキスト埋め込みモデルを提供することになります。
Subnet 5 Embedding API を使用した開発エクスペリエンスは、OpenAI テキスト埋め込み API https://platform.openai.com/docs/guides/embeddings/embedding-models と似ています。
V1:
V2 以降:
テキスト埋め込みモデルは、最新の自然言語処理 (NLP) の基礎であり、単語、フレーズ、またはドキュメントを連続空間内の密なベクトルとして表現します。これらのモデルは時間の経過とともに大幅に進化しました。
古典的なアプローチ:
単語の埋め込み:
文とドキュメントの埋め込み:
アプリケーションは、意味的類似性、機械翻訳、センチメント分析など、さまざまな NLP タスクにまたがります。継続的な課題には、偏見への対処と効率の向上が含まれます。
単純な表現から洗練されたコンテキスト モデルへのこの進化により、NLP 機能が劇的に強化され、機械による言語のより微妙な理解が可能になりました。
ベクトルベースのセマンティック検索は、コンテキストと意味を理解する際の制限に対処するために、従来のキーワードベースの方法から進化しました。自然言語処理と機械学習の進歩を活用して、テキストを高次元空間の密なベクトルとして表現します。
ベクトルベースのセマンティック検索の主なコンポーネントは次のとおりです。
埋め込みを使用してドキュメントにインデックスを付けることで、次のことが可能になります。
ベクトルベースのセマンティック検索により、さまざまなアプリケーションにわたる情報検索が大幅に強化され、キーワードの正確な一致のみに依存するのではなく、クエリの背後にある意図を理解することで、より関連性の高い結果が提供されます。