Discord • 網路 • 研究
請參閱快速入門指南中的驗證器設定。
請參閱快速入門指南中的礦工設定。
該專案有一個舊版本,專注於各種資料來源的分散索引,請參閱此處以了解更多詳細資訊。
Bittensor Subnet 5 的主要重點是開發世界上表現最佳、最通用的文字嵌入模型。
利用廣泛的大型語言模型 (LLM) 增強語料庫進行評估,礦工能夠開發和部署超越當前最先進 (SOTA) 效能的文字嵌入模型。
Subnet 5 的主要目標是訓練和服務最好、最通用的文字嵌入模型。這種文字嵌入模型可以為大量下游應用提供支持,例如語義搜尋、自然語言理解等。
礦工將負責使用大量文字資料來訓練模型,並以低延遲和高吞吐量的方式為模型提供服務。這些模型將用於為不同的文字輸入生成高品質的嵌入。
驗證者將使用多個基準對模型進行嚴格評估。將與現有的 SOTA 文本嵌入模型進行效能比較,以確保持續改進和競爭力。
子網用戶將能夠存取最通用且超越 SOTA 性能的尖端文字嵌入模型。這些模型將透過 Bittensor Subnet 5 的驗證器 API 公開提供,以促進廣泛採用和整合到各種應用程式中。
礦工將收到一批文字並將其嵌入。
對於文字嵌入,驗證器具有成對相關訊息,可以透過對比學習損失來評估它們:
在哪裡
這是為了最大化正對之間的互訊息
並最小化負對之間的互訊息
我們可以逐漸考慮增加處理時間,以鼓勵更快的嵌入和更低的延遲。
對礦工的設備沒有硬性要求,只要能夠以低延遲和高吞吐量的方式為其文字嵌入模型提供服務即可。
為了實現這一目標,礦工通常需要以下基礎設施:
模型訓練:
模型服務:
最終,子網路 5 將透過子網路驗證器 API 提供文字嵌入模型。
使用 Subnet 5 Embedding API 的開發體驗將類似於 OpenAI 文字嵌入 API https://platform.openai.com/docs/guides/embeddings/embedding-models。
V1:
V2 及進一步:
文字嵌入模型是現代自然語言處理 (NLP) 的基礎,它將單字、短語或文件表示為連續空間中的密集向量。隨著時間的推移,這些模型已經發生了顯著的演變:
經典方法:
詞嵌入:
句子和文件嵌入:
應用程式涵蓋各種 NLP 任務,包括語義相似性、機器翻譯和情緒分析。持續的挑戰包括解決偏見和提高效率。
從簡單表示到複雜上下文模型的這種演變極大地增強了 NLP 能力,使機器能夠更細緻地理解語言。
基於向量的語義搜尋從傳統的基於關鍵字的方法發展而來,以解決理解上下文和含義的限制。它利用自然語言處理和機器學習的進步將文本表示為高維空間中的密集向量。
基於向量的語意搜尋的關鍵組成部分包括:
透過使用嵌入對文件進行索引,可以:
基於向量的語義搜尋顯著增強了跨各種應用程式的資訊檢索,透過理解查詢背後的意圖而不是僅依賴精確的關鍵字匹配來提供更相關的結果。