Discorde • Réseau • Recherche
Veuillez consulter Configuration du validateur dans le guide de démarrage rapide.
Veuillez consulter Configuration du mineur dans le guide de démarrage rapide.
Il existe une version héritée du projet axée sur l'indexation décentralisée de diverses sources de données, voir ici pour plus de détails.
L'objectif principal de Bittensor Subnet 5 est le développement du modèle d'intégration de texte le plus performant et le plus généralisable au monde.
En tirant parti d'un corpus étendu augmenté de modèle linguistique (LLM) pour l'évaluation, les mineurs sont habilités à développer et à déployer des modèles d'intégration de texte qui dépassent les performances actuelles de l'état de l'art (SOTA).
L'objectif principal de Subnet 5 est de former et de servir les modèles d'intégration de texte les meilleurs et les plus généralisables. De tels modèles d'intégration de texte peuvent permettre de nombreuses applications en aval telles que la recherche sémantique, la compréhension du langage naturel, etc.
Les mineurs seront responsables de la formation des modèles en utilisant un vaste corpus de données textuelles et en servant le modèle avec une faible latence et un haut débit. Ces modèles seront utilisés pour générer des intégrations de haute qualité pour diverses entrées de texte.
Les validateurs procéderont à des évaluations rigoureuses des modèles en utilisant plusieurs références. Des comparaisons de performances seront effectuées par rapport aux modèles d'intégration de texte SOTA existants pour garantir une amélioration continue et une compétitivité.
Les utilisateurs de sous-réseaux auront accès à des modèles d'intégration de texte de pointe qui sont les plus génériques et dépassent les performances SOTA. Ces modèles seront rendus publics via l'API de validation de Bittensor Subnet 5, facilitant ainsi une adoption généralisée et une intégration dans diverses applications.
Les mineurs recevront un lot de textes et les intégreront.
Pour les intégrations de texte, les validateurs disposent des informations de pertinence par paire pour les évaluer via la perte d'apprentissage contrastive :
où
Il s'agit de maximiser l'information mutuelle entre les paires positives
et minimiser les informations mutuelles entre les paires négatives
Progressivement, nous pouvons potentiellement ajouter du temps de traitement en considération pour encourager une intégration plus rapide et une latence plus faible.
Il n'y a pas d'exigences strictes pour l'équipement des mineurs, tant qu'ils peuvent servir leur modèle d'intégration de texte avec une faible latence et un débit élevé.
Pour y parvenir, les mineurs ont généralement besoin des infrastructures suivantes :
Formation du modèle :
Service modèle :
À terme, Subnet 5 servira le modèle d'intégration de texte via l'API du validateur de sous-réseau.
L'expérience de développement liée à l'utilisation de l'API d'intégration de sous-réseau 5 sera similaire à l'API d'intégration de texte OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.
V1 :
V2 et plus :
Les modèles d'intégration de texte sont fondamentaux dans le traitement du langage naturel (NLP) moderne, représentant des mots, des phrases ou des documents sous forme de vecteurs denses dans un espace continu. Ces modèles ont considérablement évolué au fil du temps :
Approches classiques :
Incorporations de mots :
Intégrations de phrases et de documents :
Les applications couvrent diverses tâches NLP, notamment la similarité sémantique, la traduction automatique et l'analyse des sentiments. Les défis permanents incluent la lutte contre les préjugés et l’amélioration de l’efficacité.
Cette évolution de représentations simples vers des modèles contextuels sophistiqués a considérablement amélioré les capacités de la PNL, permettant une compréhension plus nuancée du langage par les machines.
La recherche sémantique vectorielle a évolué à partir des méthodes traditionnelles basées sur des mots-clés pour répondre aux limites de la compréhension du contexte et de la signification. Il exploite les progrès du traitement du langage naturel et de l’apprentissage automatique pour représenter le texte sous forme de vecteurs denses dans un espace de grande dimension.
Les composants clés de la recherche sémantique vectorielle comprennent :
En indexant les documents avec leurs intégrations, il est possible de :
La recherche sémantique vectorielle a considérablement amélioré la récupération d'informations dans diverses applications, offrant des résultats plus pertinents en comprenant l'intention derrière les requêtes plutôt que de s'appuyer uniquement sur des correspondances exactes de mots clés.