Discord • Netzwerk • Forschung
Weitere Informationen finden Sie unter „Validator-Setup“ in der Kurzanleitung.
Weitere Informationen finden Sie unter „Miner-Setup“ in der Kurzanleitung.
Es gibt eine Legacy-Version des Projekts, die sich auf die dezentrale Indizierung verschiedener Datenquellen konzentriert. Weitere Einzelheiten finden Sie hier.
Das Hauptaugenmerk von Bittensor Subnet 5 liegt auf der Entwicklung des weltweit leistungsfähigsten und am besten verallgemeinerbaren Texteinbettungsmodells.
Durch die Nutzung eines umfangreichen, durch Large Language Model (LLM) erweiterten Korpus zur Evaluierung sind Miner in der Lage, Texteinbettungsmodelle zu entwickeln und einzusetzen, die die Leistung des aktuellen Stands der Technik (SOTA) übertreffen.
Das Hauptziel von Subnetz 5 besteht darin, die besten und am besten verallgemeinerbaren Texteinbettungsmodelle zu trainieren und bereitzustellen. Solche Texteinbettungsmodelle können zahlreiche nachgelagerte Anwendungen wie semantische Suche, Verständnis natürlicher Sprache usw. unterstützen.
Miner werden dafür verantwortlich sein, Modelle mithilfe eines umfangreichen Korpus an Textdaten zu trainieren und das Modell mit geringer Latenz und hohem Durchsatz bereitzustellen. Diese Modelle werden verwendet, um hochwertige Einbettungen für verschiedene Texteingaben zu generieren.
Validatoren führen strenge Bewertungen der Modelle anhand mehrerer Benchmarks durch. Es werden Leistungsvergleiche mit bestehenden SOTA-Texteinbettungsmodellen durchgeführt, um eine kontinuierliche Verbesserung und Wettbewerbsfähigkeit sicherzustellen.
Subnetzbenutzer erhalten Zugang zu hochmodernen Texteinbettungsmodellen, die äußerst allgemein gehalten sind und die Leistung von SOTA übertreffen. Diese Modelle werden über die Validator-API von Bittensor Subnet 5 öffentlich zugänglich gemacht und erleichtern so eine breite Akzeptanz und Integration in verschiedene Anwendungen.
Miner erhalten einen Stapel Texte und betten diese ein.
Für die Texteinbettungen verfügen Validatoren über die paarweisen Relevanzinformationen, um sie über den kontrastiven Lernverlust zu bewerten:
Wo
Dadurch soll die gegenseitige Information zwischen positiven Paaren maximiert werden
und minimieren Sie die gegenseitige Information zwischen negativen Paaren
Nach und nach können wir möglicherweise die Verarbeitungszeit berücksichtigen, um eine schnellere Einbettung und eine geringere Latenz zu fördern.
Es gibt keine strengen Anforderungen an die Ausrüstung der Miner, solange sie ihr Texteinbettungsmodell mit geringer Latenz und hohem Durchsatz bedienen können.
Um dies zu erreichen, benötigen Miner typischerweise die folgenden Infrastrukturen:
Modellschulung:
Modeldienst:
Schließlich wird Subnetz 5 das Texteinbettungsmodell über die Subnetz-Validator-API bereitstellen.
Die Entwicklererfahrung bei der Verwendung der Subnet 5 Embedding API ähnelt der OpenAI Text-Embedding API https://platform.openai.com/docs/guides/embeddings/embedding-models.
V1:
V2 und weiter:
Texteinbettungsmodelle sind für die moderne Verarbeitung natürlicher Sprache (NLP) von grundlegender Bedeutung und stellen Wörter, Phrasen oder Dokumente als dichte Vektoren in einem kontinuierlichen Raum dar. Diese Modelle haben sich im Laufe der Zeit erheblich weiterentwickelt:
Klassische Ansätze:
Worteinbettungen:
Satz- und Dokumenteinbettungen:
Die Anwendungen umfassen verschiedene NLP-Aufgaben, darunter semantische Ähnlichkeit, maschinelle Übersetzung und Stimmungsanalyse. Zu den laufenden Herausforderungen gehören die Beseitigung von Vorurteilen und die Verbesserung der Effizienz.
Diese Entwicklung von einfachen Darstellungen zu anspruchsvollen Kontextmodellen hat die NLP-Fähigkeiten erheblich verbessert und ein differenzierteres Verständnis von Sprache durch Maschinen ermöglicht.
Die vektorbasierte semantische Suche hat sich aus herkömmlichen schlüsselwortbasierten Methoden entwickelt, um Einschränkungen beim Verständnis von Kontext und Bedeutung zu beseitigen. Es nutzt Fortschritte in der Verarbeitung natürlicher Sprache und maschinellem Lernen, um Text als dichte Vektoren in einem hochdimensionalen Raum darzustellen.
Zu den Schlüsselkomponenten der vektorbasierten semantischen Suche gehören:
Durch die Indizierung von Dokumenten mit ihren Einbettungen ist Folgendes möglich:
Die vektorbasierte semantische Suche hat den Informationsabruf in verschiedenen Anwendungen erheblich verbessert und liefert relevantere Ergebnisse, indem sie die Absicht hinter Abfragen versteht, anstatt sich ausschließlich auf exakte Schlüsselwortübereinstimmungen zu verlassen.