Discord • Сеть • Исследования
См. раздел «Настройка валидатора» в кратком руководстве.
См. раздел «Настройка майнера» в кратком руководстве.
Существует устаревшая версия проекта, ориентированная на децентрализованное индексирование различных источников данных. Подробности см. здесь.
Основное внимание Bittensor Subnet 5 уделяется разработке самой эффективной и наиболее обобщаемой модели встраивания текста в мире.
Используя для оценки обширный корпус, дополненный моделью большого языка (LLM), майнеры получают возможность разрабатывать и развертывать модели встраивания текста, которые превосходят современные производительности (SOTA).
Основная цель Подсети 5 — обучение и обслуживание лучших и наиболее обобщаемых моделей встраивания текста. Такие модели внедрения текста могут расширить возможности множества последующих приложений, таких как семантический поиск, понимание естественного языка и т. д.
Майнеры будут отвечать за обучение моделей с использованием обширного массива текстовых данных и обслуживание модели с малой задержкой и высокой пропускной способностью. Эти модели будут использоваться для создания высококачественных вложений для различных текстовых вводов.
Валидаторы проведут тщательную оценку моделей с использованием нескольких тестов. Сравнение производительности будет проводиться с существующими моделями встраивания текста SOTA, чтобы обеспечить постоянное совершенствование и конкурентоспособность.
Пользователи подсети получат доступ к новейшим моделям встраивания текста, которые являются наиболее универсальными и превосходят производительность SOTA. Эти модели будут общедоступны через API-интерфейс валидатора Bittensor Subnet 5, что будет способствовать их широкому внедрению и интеграции в различные приложения.
Майнеры получат пакет текстов и встроят их.
Для встраивания текста валидаторы имеют информацию о парной релевантности, чтобы оценить их с помощью контрастной потери обучения:
где
Это сделано для максимизации взаимной информации между положительными парами.
и минимизировать взаимную информацию между отрицательными парами
Постепенно мы потенциально сможем учитывать время обработки, чтобы стимулировать более быстрое встраивание и меньшую задержку.
Не существует жестких требований к оборудованию майнеров, если они могут обслуживать свою модель встраивания текста с малой задержкой и высокой пропускной способностью.
Для достижения этой цели майнерам обычно необходимы следующие инфраструктуры:
Модельное обучение:
Модельное обслуживание:
В конечном итоге подсеть 5 будет обслуживать модель встраивания текста через API-интерфейс валидатора подсети.
Опыт разработки при использовании API внедрения подсети 5 будет аналогичен API внедрения текста OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.
В1:
V2 и далее:
Модели внедрения текста являются фундаментальными для современной обработки естественного языка (NLP), представляя слова, фразы или документы как плотные векторы в непрерывном пространстве. Эти модели со временем значительно изменились:
Классические подходы:
Вложения слов:
Встраивание предложений и документов:
Приложения охватывают различные задачи НЛП, включая семантическое сходство, машинный перевод и анализ настроений. Текущие задачи включают устранение предвзятости и повышение эффективности.
Эта эволюция от простых представлений к сложным контекстным моделям значительно расширила возможности НЛП, позволяя машинам более детально понимать язык.
Векторный семантический поиск развился из традиционных методов, основанных на ключевых словах, для устранения ограничений в понимании контекста и значения. Он использует достижения в области обработки естественного языка и машинного обучения для представления текста в виде плотных векторов в многомерном пространстве.
Ключевые компоненты векторного семантического поиска включают в себя:
Индексируя документы с их вложениями, можно:
Векторный семантический поиск значительно улучшил поиск информации в различных приложениях, предлагая более релевантные результаты за счет понимания целей запросов, а не исключительно за счет точных совпадений ключевых слов.