Descarga openkaito - Descarga del código fuente openkaito

openkaito

Otro código fuente

1.0.0

Descargar

OpenKaito - IA Kaito descentralizada

Discord • Red • Investigación

Instalación

Instalación del validador

Consulte Configuración del validador en la guía de inicio rápido.

Instalación minera

Consulte Configuración de Miner en la guía de inicio rápido.

Existe una versión heredada del proyecto que se centra en la indexación descentralizada de varias fuentes de datos; consulte aquí para obtener más detalles.

Abstracto

El objetivo principal de Bittensor Subnet 5 es el desarrollo del modelo de incrustación de texto más generalizable y con mejor rendimiento del mundo.

Aprovechando un extenso corpus ampliado con el modelo de lenguaje grande (LLM) para la evaluación, los mineros están capacitados para desarrollar e implementar modelos de incrustación de texto que superan el rendimiento actual de última generación (SOTA).

Objetivos y contribuciones

El objetivo principal de la Subred 5 es entrenar y ofrecer los mejores y más generalizables modelos de incrustación de texto. Estos modelos de incrustación de texto pueden potenciar muchas aplicaciones posteriores, como la búsqueda semántica, la comprensión del lenguaje natural, etc.

Los mineros serán responsables de entrenar modelos utilizando un extenso corpus de datos textuales y de servir el modelo con baja latencia y alto rendimiento. Estos modelos se utilizarán para generar incrustaciones de alta calidad para diversas entradas de texto.

Los validadores realizarán evaluaciones rigurosas de los modelos utilizando múltiples puntos de referencia. Se realizarán comparaciones de rendimiento con los modelos de incrustación de texto SOTA existentes para garantizar la mejora continua y la competitividad.

Los usuarios de la subred obtendrán acceso a modelos de incrustación de texto de vanguardia que son más genéricos y superan el rendimiento de SOTA. Estos modelos estarán disponibles públicamente a través de la API de validación de Bittensor Subnet 5, lo que facilitará la adopción e integración generalizadas en diversas aplicaciones.

Mecanismo de incentivos

Los mineros recibirán un lote de textos y los incrustarán.

Para las incrustaciones de texto, los validadores tienen información de relevancia por pares para evaluarlas mediante la pérdida de aprendizaje contrastiva:

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

dónde $f(x,c) = exp{(x cdot c)}$ es una estimación de $frac{p(x | c)}{p(x)}$ , y $c$ es la incrustación de destino, y $x$ es la muestra positiva, y $x'$ son muestras negativas.

Esto es para maximizar la información mutua entre pares positivos. $x$ y $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{ p(mathbf{x})}$

y minimizar la información mutua entre pares negativos $x'$ y $c$ : $Yo(mathbf{x'}; mathbf{c})$ .

Poco a poco, podemos tener en cuenta el tiempo de procesamiento para fomentar una integración más rápida y una menor latencia.

Requisitos informáticos

No existen requisitos estrictos para los equipos de los mineros, siempre y cuando puedan servir su modelo de incrustación de texto con baja latencia y alto rendimiento.

Para lograr esto, los mineros normalmente necesitan las siguientes infraestructuras:

Entrenamiento modelo:

Máquinas con GPU para modelos de entrenamiento rápido en grandes conjuntos de datos

Servicio modelo:

Servidor de inferencia de modelos dedicado

Interfaz de usuario de subred

Con el tiempo, la subred 5 ofrecerá el modelo de incrustación de texto a través de la API del validador de subred.

La experiencia de desarrollo al usar la API de incrustación de Subnet 5 será similar a la API de incrustación de texto de OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.

Hoja de ruta de desarrollo

V1:

El mecanismo de incentivos y evaluación del modelo de incrustación de texto.
Panel de subred con curva de crecimiento del rendimiento del modelo y comparación con los modelos OpenAI text-embedding-3-small y text-embedding-3-large como líneas de base.
API de subred para servir el modelo entrenado por mineros a los usuarios de la subred.

V2 y posteriores:

Ampliando el conjunto de datos
Ampliar el modelo de incentivos de evaluación a tareas como la reclasificación de documentos
Incorporar la distancia por pares de los documentos en la evaluación
…

Apéndice - Fondos

Modelo de incrustación de texto

Los modelos de incrustación de texto son fundamentales para el procesamiento del lenguaje natural (PLN) moderno, ya que representan palabras, frases o documentos como vectores densos en un espacio continuo. Estos modelos han evolucionado significativamente con el tiempo:

Enfoques clásicos:

Codificación one-hot y métodos basados en recuento (p. ej., TF-IDF)
Limitado en la captura de relaciones semánticas.

Incrustaciones de palabras:

Basado en la semántica distributiva.
Modelos clave: Word2Vec, GloVe, FastText
Capture similitudes y relaciones de palabras.

Incrustaciones de oraciones y documentos:

Extender las técnicas a nivel de palabras a unidades de texto más grandes, representaciones dinámicas basadas en el contexto.
Ejemplos: ELMo, BERT, GPT
Mejor en el manejo de significados polisémicos y dependientes del contexto.

Las aplicaciones abarcan diversas tareas de PNL, incluida la similitud semántica, la traducción automática y el análisis de sentimientos. Los desafíos actuales incluyen abordar los prejuicios y mejorar la eficiencia.

Esta evolución de representaciones simples a modelos contextuales sofisticados ha mejorado dramáticamente las capacidades de la PNL, permitiendo una comprensión más matizada del lenguaje por parte de las máquinas.

Búsqueda semántica basada en vectores

La búsqueda semántica basada en vectores evolucionó a partir de métodos tradicionales basados en palabras clave para abordar las limitaciones en la comprensión del contexto y el significado. Aprovecha los avances en el procesamiento del lenguaje natural y el aprendizaje automático para representar texto como vectores densos en un espacio de alta dimensión.

Los componentes clave de la búsqueda semántica basada en vectores incluyen:

Incrustación de texto (p. ej., Word2Vec, GloVe, BERT, GPT)
Algoritmos eficientes de búsqueda del vecino más cercano (p. ej., indexación de vectores mediante HNSW)

Al indexar documentos con sus incrustaciones, es posible:

Captar relaciones semánticas entre palabras y conceptos.
Mejorar el manejo de sinónimos y términos relacionados.
Experiencias de búsqueda más intuitivas y sensibles al contexto

La búsqueda semántica basada en vectores ha mejorado significativamente la recuperación de información en varias aplicaciones, ofreciendo resultados más relevantes al comprender la intención detrás de las consultas en lugar de depender únicamente de coincidencias exactas de palabras clave.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-26
tamaño 11.27MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo