Discord • Rede • Pesquisa
Consulte Configuração do validador no guia de início rápido.
Consulte Configuração do Miner no guia de início rápido.
Existe uma versão legada do projeto com foco na indexação descentralizada de diversas fontes de dados, veja aqui para mais detalhes.
O foco principal do Bittensor Subnet 5 é o desenvolvimento do modelo de incorporação de texto com melhor desempenho e generalização do mundo.
Aproveitando um extenso corpus aumentado por Large Language Model (LLM) para avaliação, os mineradores são capacitados para desenvolver e implantar modelos de incorporação de texto que superam o desempenho atual de última geração (SOTA).
O objetivo principal da Sub-rede 5 é treinar e servir os melhores e mais generalizáveis modelos de incorporação de texto. Esses modelos de incorporação de texto podem capacitar muitas aplicações posteriores, como pesquisa semântica, compreensão de linguagem natural e assim por diante.
Os mineiros serão responsáveis por treinar modelos usando um extenso corpus de dados textuais e servindo o modelo de forma de baixa latência e alto rendimento. Esses modelos serão utilizados para gerar incorporações de alta qualidade para diversas entradas de texto.
Os validadores conduzirão avaliações rigorosas dos modelos usando vários benchmarks. Serão feitas comparações de desempenho com modelos existentes de incorporação de texto SOTA para garantir melhoria contínua e competitividade.
Os usuários da sub-rede terão acesso a modelos de incorporação de texto de última geração que são mais genéricos e excedem o desempenho do SOTA. Esses modelos serão disponibilizados publicamente por meio da API validadora da Bittensor Subnet 5, facilitando a ampla adoção e integração em diversas aplicações.
Os mineiros receberão um lote de textos e os incorporarão.
Para os embeddings de texto, os validadores têm informações de relevância aos pares para avaliá-los por meio da perda de aprendizagem contrastiva:
onde
Isto é para maximizar a informação mútua entre pares positivos
e minimizar a informação mútua entre pares negativos
Gradualmente, podemos potencialmente adicionar o tempo de processamento em consideração para encorajar uma incorporação mais rápida e menor latência.
Não há requisitos rígidos para os equipamentos dos mineradores, desde que eles possam servir seu modelo de incorporação de texto com baixa latência e alto rendimento.
Para conseguir isso, os mineiros normalmente precisam das seguintes infraestruturas:
Treinamento de modelo:
Serviço de modelo:
Eventualmente, a Sub-rede 5 servirá o modelo de incorporação de texto por meio da API do validador de sub-rede.
A experiência de desenvolvimento de usar a API de incorporação de sub-rede 5 será semelhante à API de incorporação de texto OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.
V1:
V2 e mais:
Os modelos de incorporação de texto são fundamentais para o moderno Processamento de Linguagem Natural (PNL), representando palavras, frases ou documentos como vetores densos em um espaço contínuo. Esses modelos evoluíram significativamente ao longo do tempo:
Abordagens clássicas:
Incorporações de palavras:
Incorporações de frases e documentos:
Os aplicativos abrangem várias tarefas de PNL, incluindo similaridade semântica, tradução automática e análise de sentimento. Os desafios constantes incluem a resolução de preconceitos e a melhoria da eficiência.
Esta evolução de representações simples para modelos contextuais sofisticados melhorou dramaticamente as capacidades da PNL, permitindo uma compreensão mais matizada da linguagem pelas máquinas.
A pesquisa semântica baseada em vetores evoluiu dos métodos tradicionais baseados em palavras-chave para resolver as limitações na compreensão do contexto e do significado. Ele aproveita os avanços no processamento de linguagem natural e no aprendizado de máquina para representar texto como vetores densos em um espaço de alta dimensão.
Os principais componentes da pesquisa semântica baseada em vetores incluem:
Ao indexar documentos com seus embeddings é possível:
A pesquisa semântica baseada em vetores melhorou significativamente a recuperação de informações em vários aplicativos, oferecendo resultados mais relevantes ao compreender a intenção por trás das consultas, em vez de depender apenas de correspondências exatas de palavras-chave.