openkaito下载 - openkaito源码下载

openkaito

其他源码

1.0.0

下载

OpenKaito - 去中心化 Kaito AI

Discord • 网络 • 研究

安装

验证器安装

请参阅快速入门指南中的验证器设置。

矿机安装

请参阅快速入门指南中的矿工设置。

该项目有一个遗留版本，专注于各种数据源的分散索引，请参阅此处了解更多详细信息。

抽象的

Bittensor Subnet 5 的主要重点是开发世界上性能最好、最通用的文本嵌入模型。

利用广泛的大型语言模型（LLM）增强语料库进行评估，矿工能够开发和部署超越当前最先进（SOTA）性能的文本嵌入模型。

目标与贡献

Subnet 5 的主要目标是训练和服务最好、最通用的文本嵌入模型。这种文本嵌入模型可以为大量下游应用提供支持，例如语义搜索、自然语言理解等。

矿工将负责使用大量文本数据来训练模型，并以低延迟和高吞吐量的方式为模型提供服务。这些模型将用于为不同的文本输入生成高质量的嵌入。

验证者将使用多个基准对模型进行严格评估。将与现有的 SOTA 文本嵌入模型进行性能比较，以确保持续改进和竞争力。

子网用户将能够访问最通用且超越 SOTA 性能的尖端文本嵌入模型。这些模型将通过 Bittensor Subnet 5 的验证器 API 公开提供，以促进广泛采用和集成到各种应用程序中。

激励机制

矿工将收到一批文本并将其嵌入。

对于文本嵌入，验证器具有成对相关信息，可以通过对比学习损失来评估它们：

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

在哪里 $f(x,c) = exp{(x cdot c)}$是一个估计 $frac{p(x | c)}{p(x)}$ ，和 $c$是目标嵌入，并且 $x$是正样本，并且 $x'$是负样本。

这是为了最大化正对之间的互信息 $x$和 $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{ p(mathbf{x})}$

并最小化负对之间的互信息 $x'$和 $c$ : $I(mathbf{x'};mathbf{c})$ 。

我们可以逐渐考虑增加处理时间，以鼓励更快的嵌入和更低的延迟。

计算要求

对矿工的设备没有硬性要求，只要能够以低延迟和高吞吐量的方式为其文本嵌入模型提供服务即可。

为了实现这一目标，矿工通常需要以下基础设施：

模型训练：

配备 GPU 的机器可在大型数据集上快速训练模型

模型服务：

专用模型推理服务器

子网用户界面

最终，子网 5 将通过子网验证器 API 提供文本嵌入模型。

使用 Subnet 5 Embedding API 的开发体验将类似于 OpenAI 文本嵌入 API https://platform.openai.com/docs/guides/embeddings/embedding-models。

发展路线图

V1：

文本嵌入模型评价及激励机制
具有模型性能增长曲线的子网仪表板，并与 OpenAI text-embedding-3-small 和 text-embedding-3-large 模型作为基线进行比较
子网 API，用于为子网用户提供经过矿工训练的模型。

V2 及进一步：

扩展数据集
将评估激励模型扩展到文档重新排序等任务
在评估中纳入文档的成对距离
……

附录 - 背景

文本嵌入模型

文本嵌入模型是现代自然语言处理 (NLP) 的基础，它将单词、短语或文档表示为连续空间中的密集向量。这些模型随着时间的推移发生了显着的演变：

经典方法：

One-hot 编码和基于计数的方法（例如 TF-IDF）
捕获语义关系有限

词嵌入：

基于分布语义
主要模型：Word2Vec、GloVe、FastText
捕捉单词的相似性和关系

句子和文档嵌入：

将词级技术扩展到更大的文本单元，基于上下文的动态表示
示例：ELMo、BERT、GPT
更好地处理一词多义和上下文相关的含义

应用程序涵盖各种 NLP 任务，包括语义相似性、机器翻译和情感分析。持续的挑战包括解决偏见和提高效率。

从简单表示到复杂上下文模型的这种演变极大地增强了 NLP 能力，使机器能够更细致地理解语言。

基于向量的语义搜索

基于向量的语义搜索从传统的基于关键字的方法发展而来，以解决理解上下文和含义的局限性。它利用自然语言处理和机器学习的进步将文本表示为高维空间中的密集向量。

基于向量的语义搜索的关键组成部分包括：

文本嵌入（例如，Word2Vec、GloVe、BERT、GPT）
高效的最近邻搜索算法（例如，使用 HNSW 索引向量）

通过使用嵌入对文档进行索引，可以：

捕获单词和概念之间的语义关系
改进同义词和相关术语的处理
更直观和上下文感知的搜索体验

基于向量的语义搜索显着增强了跨各种应用程序的信息检索，通过理解查询背后的意图而不是仅仅依赖于精确的关键字匹配来提供更相关的结果。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-26
大小 11.27MB
来自于 Github

openkaito

OpenKaito - 去中心化 Kaito AI

安装

验证器安装

矿机安装

抽象的

目标与贡献

激励机制

计算要求

子网用户界面

发展路线图

附录 - 背景

文本嵌入模型

基于向量的语义搜索

waymo open dataset

SmartTube

Sunamu

viptools for eslam

MySchedule.py

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions