openkaito下載 - openkaito原始碼下載

openkaito

其他源碼

1.0.0

下載

OpenKaito - 去中心化 Kaito AI

Discord • 網路 • 研究

安裝

驗證器安裝

請參閱快速入門指南中的驗證器設定。

礦機安裝

請參閱快速入門指南中的礦工設定。

該專案有一個舊版本，專注於各種資料來源的分散索引，請參閱此處以了解更多詳細資訊。

抽象的

Bittensor Subnet 5 的主要重點是開發世界上表現最佳、最通用的文字嵌入模型。

利用廣泛的大型語言模型 (LLM) 增強語料庫進行評估，礦工能夠開發和部署超越當前最先進 (SOTA) 效能的文字嵌入模型。

目標與貢獻

Subnet 5 的主要目標是訓練和服務最好、最通用的文字嵌入模型。這種文字嵌入模型可以為大量下游應用提供支持，例如語義搜尋、自然語言理解等。

礦工將負責使用大量文字資料來訓練模型，並以低延遲和高吞吐量的方式為模型提供服務。這些模型將用於為不同的文字輸入生成高品質的嵌入。

驗證者將使用多個基準對模型進行嚴格評估。將與現有的 SOTA 文本嵌入模型進行效能比較，以確保持續改進和競爭力。

子網用戶將能夠存取最通用且超越 SOTA 性能的尖端文字嵌入模型。這些模型將透過 Bittensor Subnet 5 的驗證器 API 公開提供，以促進廣泛採用和整合到各種應用程式中。

激勵機制

礦工將收到一批文字並將其嵌入。

對於文字嵌入，驗證器具有成對相關訊息，可以透過對比學習損失來評估它們：

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

在哪裡 $f(x,c) = exp{(x cdot c)}$是一個估計 $frac{p(x | c)}{p(x)}$ ，和 $c$是目標嵌入，並且 $x$是正樣本，且 $x'$是負樣本。

這是為了最大化正對之間的互訊息 $x$和 $c$ ：

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p (mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{p(mathbf{x})}$

並最小化負對之間的互訊息 $x'$和 $c$ ： $I(mathbf{x'};mathbf{c})$ 。

我們可以逐漸考慮增加處理時間，以鼓勵更快的嵌入和更低的延遲。

計算要求

對礦工的設備沒有硬性要求，只要能夠以低延遲和高吞吐量的方式為其文字嵌入模型提供服務即可。

為了實現這一目標，礦工通常需要以下基礎設施：

模型訓練：

配備 GPU 的機器可在大型資料集上快速訓練模型

模型服務：

專用模型推理伺服器

子網路使用者介面

最終，子網路 5 將透過子網路驗證器 API 提供文字嵌入模型。

使用 Subnet 5 Embedding API 的開發體驗將類似於 OpenAI 文字嵌入 API https://platform.openai.com/docs/guides/embeddings/embedding-models。

發展路線圖

V1：

文本嵌入模型評價及激勵機制
具有模型效能成長曲線的子網路儀表板，並與 OpenAI text-embedding-3-small 和 text-embedding-3-large 模型作為基線進行比較
子網路 API，用於為子網路使用者提供經過礦工訓練的模型。

V2 及進一步：

擴充資料集
將評估激勵模型擴展到文件重新排序等任務
在評估中納入文件的成對距離
……

附錄 - 背景

文字嵌入模型

文字嵌入模型是現代自然語言處理 (NLP) 的基礎，它將單字、短語或文件表示為連續空間中的密集向量。隨著時間的推移，這些模型已經發生了顯著的演變：

經典方法：

One-hot 編碼和基於計數的方法（例如 TF-IDF）
捕獲語意關係有限

詞嵌入：

基於分佈語義
主要模型：Word2Vec、GloVe、FastText
捕捉單字的相似性和關係

句子和文件嵌入：

將詞級技術擴展到更大的文本單元，基於上下文的動態表示
範例：ELMo、BERT、GPT
更好地處理一詞多義和上下文相關的含義

應用程式涵蓋各種 NLP 任務，包括語義相似性、機器翻譯和情緒分析。持續的挑戰包括解決偏見和提高效率。

從簡單表示到複雜上下文模型的這種演變極大地增強了 NLP 能力，使機器能夠更細緻地理解語言。

基於向量的語意搜尋

基於向量的語義搜尋從傳統的基於關鍵字的方法發展而來，以解決理解上下文和含義的限制。它利用自然語言處理和機器學習的進步將文本表示為高維空間中的密集向量。

基於向量的語意搜尋的關鍵組成部分包括：

文字嵌入（例如，Word2Vec、GloVe、BERT、GPT）
高效的最近鄰搜尋演算法（例如，使用 HNSW 索引向量）

透過使用嵌入對文件進行索引，可以：

捕獲單字和概念之間的語義關係
改進同義詞和相關術語的處理
更直觀和上下文感知的搜尋體驗

基於向量的語義搜尋顯著增強了跨各種應用程式的資訊檢索，透過理解查詢背後的意圖而不是僅依賴精確的關鍵字匹配來提供更相關的結果。

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2024-12-26
大小 11.27MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部