Discord • 网络 • 研究
请参阅快速入门指南中的验证器设置。
请参阅快速入门指南中的矿工设置。
该项目有一个遗留版本,专注于各种数据源的分散索引,请参阅此处了解更多详细信息。
Bittensor Subnet 5 的主要重点是开发世界上性能最好、最通用的文本嵌入模型。
利用广泛的大型语言模型(LLM)增强语料库进行评估,矿工能够开发和部署超越当前最先进(SOTA)性能的文本嵌入模型。
Subnet 5 的主要目标是训练和服务最好、最通用的文本嵌入模型。这种文本嵌入模型可以为大量下游应用提供支持,例如语义搜索、自然语言理解等。
矿工将负责使用大量文本数据来训练模型,并以低延迟和高吞吐量的方式为模型提供服务。这些模型将用于为不同的文本输入生成高质量的嵌入。
验证者将使用多个基准对模型进行严格评估。将与现有的 SOTA 文本嵌入模型进行性能比较,以确保持续改进和竞争力。
子网用户将能够访问最通用且超越 SOTA 性能的尖端文本嵌入模型。这些模型将通过 Bittensor Subnet 5 的验证器 API 公开提供,以促进广泛采用和集成到各种应用程序中。
矿工将收到一批文本并将其嵌入。
对于文本嵌入,验证器具有成对相关信息,可以通过对比学习损失来评估它们:
在哪里
这是为了最大化正对之间的互信息
并最小化负对之间的互信息
我们可以逐渐考虑增加处理时间,以鼓励更快的嵌入和更低的延迟。
对矿工的设备没有硬性要求,只要能够以低延迟和高吞吐量的方式为其文本嵌入模型提供服务即可。
为了实现这一目标,矿工通常需要以下基础设施:
模型训练:
模型服务:
最终,子网 5 将通过子网验证器 API 提供文本嵌入模型。
使用 Subnet 5 Embedding API 的开发体验将类似于 OpenAI 文本嵌入 API https://platform.openai.com/docs/guides/embeddings/embedding-models。
V1:
V2 及进一步:
文本嵌入模型是现代自然语言处理 (NLP) 的基础,它将单词、短语或文档表示为连续空间中的密集向量。这些模型随着时间的推移发生了显着的演变:
经典方法:
词嵌入:
句子和文档嵌入:
应用程序涵盖各种 NLP 任务,包括语义相似性、机器翻译和情感分析。持续的挑战包括解决偏见和提高效率。
从简单表示到复杂上下文模型的这种演变极大地增强了 NLP 能力,使机器能够更细致地理解语言。
基于向量的语义搜索从传统的基于关键字的方法发展而来,以解决理解上下文和含义的局限性。它利用自然语言处理和机器学习的进步将文本表示为高维空间中的密集向量。
基于向量的语义搜索的关键组成部分包括:
通过使用嵌入对文档进行索引,可以:
基于向量的语义搜索显着增强了跨各种应用程序的信息检索,通过理解查询背后的意图而不是仅仅依赖于精确的关键字匹配来提供更相关的结果。