Discord • Red • Investigación
Consulte Configuración del validador en la guía de inicio rápido.
Consulte Configuración de Miner en la guía de inicio rápido.
Existe una versión heredada del proyecto que se centra en la indexación descentralizada de varias fuentes de datos; consulte aquí para obtener más detalles.
El objetivo principal de Bittensor Subnet 5 es el desarrollo del modelo de incrustación de texto más generalizable y con mejor rendimiento del mundo.
Aprovechando un extenso corpus ampliado con el modelo de lenguaje grande (LLM) para la evaluación, los mineros están capacitados para desarrollar e implementar modelos de incrustación de texto que superan el rendimiento actual de última generación (SOTA).
El objetivo principal de la Subred 5 es entrenar y ofrecer los mejores y más generalizables modelos de incrustación de texto. Estos modelos de incrustación de texto pueden potenciar muchas aplicaciones posteriores, como la búsqueda semántica, la comprensión del lenguaje natural, etc.
Los mineros serán responsables de entrenar modelos utilizando un extenso corpus de datos textuales y de servir el modelo con baja latencia y alto rendimiento. Estos modelos se utilizarán para generar incrustaciones de alta calidad para diversas entradas de texto.
Los validadores realizarán evaluaciones rigurosas de los modelos utilizando múltiples puntos de referencia. Se realizarán comparaciones de rendimiento con los modelos de incrustación de texto SOTA existentes para garantizar la mejora continua y la competitividad.
Los usuarios de la subred obtendrán acceso a modelos de incrustación de texto de vanguardia que son más genéricos y superan el rendimiento de SOTA. Estos modelos estarán disponibles públicamente a través de la API de validación de Bittensor Subnet 5, lo que facilitará la adopción e integración generalizadas en diversas aplicaciones.
Los mineros recibirán un lote de textos y los incrustarán.
Para las incrustaciones de texto, los validadores tienen información de relevancia por pares para evaluarlas mediante la pérdida de aprendizaje contrastiva:
dónde
Esto es para maximizar la información mutua entre pares positivos.
y minimizar la información mutua entre pares negativos
Poco a poco, podemos tener en cuenta el tiempo de procesamiento para fomentar una integración más rápida y una menor latencia.
No existen requisitos estrictos para los equipos de los mineros, siempre y cuando puedan servir su modelo de incrustación de texto con baja latencia y alto rendimiento.
Para lograr esto, los mineros normalmente necesitan las siguientes infraestructuras:
Entrenamiento modelo:
Servicio modelo:
Con el tiempo, la subred 5 ofrecerá el modelo de incrustación de texto a través de la API del validador de subred.
La experiencia de desarrollo al usar la API de incrustación de Subnet 5 será similar a la API de incrustación de texto de OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.
V1:
V2 y posteriores:
Los modelos de incrustación de texto son fundamentales para el procesamiento del lenguaje natural (PLN) moderno, ya que representan palabras, frases o documentos como vectores densos en un espacio continuo. Estos modelos han evolucionado significativamente con el tiempo:
Enfoques clásicos:
Incrustaciones de palabras:
Incrustaciones de oraciones y documentos:
Las aplicaciones abarcan diversas tareas de PNL, incluida la similitud semántica, la traducción automática y el análisis de sentimientos. Los desafíos actuales incluyen abordar los prejuicios y mejorar la eficiencia.
Esta evolución de representaciones simples a modelos contextuales sofisticados ha mejorado dramáticamente las capacidades de la PNL, permitiendo una comprensión más matizada del lenguaje por parte de las máquinas.
La búsqueda semántica basada en vectores evolucionó a partir de métodos tradicionales basados en palabras clave para abordar las limitaciones en la comprensión del contexto y el significado. Aprovecha los avances en el procesamiento del lenguaje natural y el aprendizaje automático para representar texto como vectores densos en un espacio de alta dimensión.
Los componentes clave de la búsqueda semántica basada en vectores incluyen:
Al indexar documentos con sus incrustaciones, es posible:
La búsqueda semántica basada en vectores ha mejorado significativamente la recuperación de información en varias aplicaciones, ofreciendo resultados más relevantes al comprender la intención detrás de las consultas en lugar de depender únicamente de coincidencias exactas de palabras clave.