Download openkaito - download do código-fonte openkaito

openkaito

Outro código-fonte

1.0.0

Baixar

OpenKaito - Kaito AI descentralizado

Discord • Rede • Pesquisa

Instalação

Instalação do validador

Consulte Configuração do validador no guia de início rápido.

Instalação do mineiro

Consulte Configuração do Miner no guia de início rápido.

Existe uma versão legada do projeto com foco na indexação descentralizada de diversas fontes de dados, veja aqui para mais detalhes.

Resumo

O foco principal do Bittensor Subnet 5 é o desenvolvimento do modelo de incorporação de texto com melhor desempenho e generalização do mundo.

Aproveitando um extenso corpus aumentado por Large Language Model (LLM) para avaliação, os mineradores são capacitados para desenvolver e implantar modelos de incorporação de texto que superam o desempenho atual de última geração (SOTA).

Objetivos e Contribuições

O objetivo principal da Sub-rede 5 é treinar e servir os melhores e mais generalizáveis modelos de incorporação de texto. Esses modelos de incorporação de texto podem capacitar muitas aplicações posteriores, como pesquisa semântica, compreensão de linguagem natural e assim por diante.

Os mineiros serão responsáveis por treinar modelos usando um extenso corpus de dados textuais e servindo o modelo de forma de baixa latência e alto rendimento. Esses modelos serão utilizados para gerar incorporações de alta qualidade para diversas entradas de texto.

Os validadores conduzirão avaliações rigorosas dos modelos usando vários benchmarks. Serão feitas comparações de desempenho com modelos existentes de incorporação de texto SOTA para garantir melhoria contínua e competitividade.

Os usuários da sub-rede terão acesso a modelos de incorporação de texto de última geração que são mais genéricos e excedem o desempenho do SOTA. Esses modelos serão disponibilizados publicamente por meio da API validadora da Bittensor Subnet 5, facilitando a ampla adoção e integração em diversas aplicações.

Mecanismo de incentivo

Os mineiros receberão um lote de textos e os incorporarão.

Para os embeddings de texto, os validadores têm informações de relevância aos pares para avaliá-los por meio da perda de aprendizagem contrastiva:

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

onde $f(x,c) = exp{(x cdot c)}$ é uma estimativa de $frac{p(x | c)}{p(x)}$ , e $c$ é a incorporação de destino, e $x$ é a amostra positiva, e $x'$ são amostras negativas.

Isto é para maximizar a informação mútua entre pares positivos $x$ e $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{p(mathbf{x})} $

e minimizar a informação mútua entre pares negativos $x'$ e $c$ : $I(mathbf{x'}; mathbf{c})$ .

Gradualmente, podemos potencialmente adicionar o tempo de processamento em consideração para encorajar uma incorporação mais rápida e menor latência.

Requisitos de computação

Não há requisitos rígidos para os equipamentos dos mineradores, desde que eles possam servir seu modelo de incorporação de texto com baixa latência e alto rendimento.

Para conseguir isso, os mineiros normalmente precisam das seguintes infraestruturas:

Treinamento de modelo:

Máquinas com GPUs para modelos de treinamento rápido em grandes conjuntos de dados

Serviço de modelo:

Servidor de inferência de modelo dedicado

Interface de usuário de sub-rede

Eventualmente, a Sub-rede 5 servirá o modelo de incorporação de texto por meio da API do validador de sub-rede.

A experiência de desenvolvimento de usar a API de incorporação de sub-rede 5 será semelhante à API de incorporação de texto OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.

Roteiro de Desenvolvimento

V1:

O mecanismo de avaliação e incentivo do modelo de incorporação de texto
Painel de sub-rede com curva de crescimento de desempenho do modelo e comparação com modelos OpenAI text-embedding-3-small e text-embedding-3-large como linhas de base
API de sub-rede para servir o modelo treinado dos mineradores aos usuários da sub-rede.

V2 e mais:

Estendendo o conjunto de dados
Estendendo o modelo de incentivo à avaliação para tarefas como reclassificação de documentos
Incorporando a distância aos pares dos documentos na avaliação
…

Apêndice - Planos de fundo

Modelo de incorporação de texto

Os modelos de incorporação de texto são fundamentais para o moderno Processamento de Linguagem Natural (PNL), representando palavras, frases ou documentos como vetores densos em um espaço contínuo. Esses modelos evoluíram significativamente ao longo do tempo:

Abordagens clássicas:

Codificação one-hot e métodos baseados em contagem (por exemplo, TF-IDF)
Limitado na captura de relacionamentos semânticos

Incorporações de palavras:

Baseado na semântica distributiva
Modelos principais: Word2Vec, GloVe, FastText
Capture semelhanças e relacionamentos de palavras

Incorporações de frases e documentos:

Estender técnicas de nível de palavra para unidades de texto maiores, representações dinâmicas baseadas no contexto
Exemplos: ELMo, BERT, GPT
Melhor no tratamento da polissemia e dos significados dependentes do contexto

Os aplicativos abrangem várias tarefas de PNL, incluindo similaridade semântica, tradução automática e análise de sentimento. Os desafios constantes incluem a resolução de preconceitos e a melhoria da eficiência.

Esta evolução de representações simples para modelos contextuais sofisticados melhorou dramaticamente as capacidades da PNL, permitindo uma compreensão mais matizada da linguagem pelas máquinas.

Pesquisa Semântica Baseada em Vetores

A pesquisa semântica baseada em vetores evoluiu dos métodos tradicionais baseados em palavras-chave para resolver as limitações na compreensão do contexto e do significado. Ele aproveita os avanços no processamento de linguagem natural e no aprendizado de máquina para representar texto como vetores densos em um espaço de alta dimensão.

Os principais componentes da pesquisa semântica baseada em vetores incluem:

Incorporação de texto (por exemplo, Word2Vec, GloVe, BERT, GPT)
Algoritmos eficientes de busca pelo vizinho mais próximo (por exemplo, indexação de vetores usando HNSW)

Ao indexar documentos com seus embeddings é possível:

Capture relações semânticas entre palavras e conceitos
Melhore o manuseio de sinônimos e termos relacionados
Experiências de pesquisa mais intuitivas e sensíveis ao contexto

A pesquisa semântica baseada em vetores melhorou significativamente a recuperação de informações em vários aplicativos, oferecendo resultados mais relevantes ao compreender a intenção por trás das consultas, em vez de depender apenas de correspondências exatas de palavras-chave.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-26
tamanho 11.27MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos