Загрузка openkaito - Загрузка исходного кода openkaito

openkaito

Другой исходный код

1.0.0

Скачать

OpenKaito — децентрализованный ИИ Кайто

Discord • Сеть • Исследования

Установка

Установка валидатора

См. раздел «Настройка валидатора» в кратком руководстве.

Установка майнера

См. раздел «Настройка майнера» в кратком руководстве.

Существует устаревшая версия проекта, ориентированная на децентрализованное индексирование различных источников данных. Подробности см. здесь.

Абстрактный

Основное внимание Bittensor Subnet 5 уделяется разработке самой эффективной и наиболее обобщаемой модели встраивания текста в мире.

Используя для оценки обширный корпус, дополненный моделью большого языка (LLM), майнеры получают возможность разрабатывать и развертывать модели встраивания текста, которые превосходят современные производительности (SOTA).

Цели и вклад

Основная цель Подсети 5 — обучение и обслуживание лучших и наиболее обобщаемых моделей встраивания текста. Такие модели внедрения текста могут расширить возможности множества последующих приложений, таких как семантический поиск, понимание естественного языка и т. д.

Майнеры будут отвечать за обучение моделей с использованием обширного массива текстовых данных и обслуживание модели с малой задержкой и высокой пропускной способностью. Эти модели будут использоваться для создания высококачественных вложений для различных текстовых вводов.

Валидаторы проведут тщательную оценку моделей с использованием нескольких тестов. Сравнение производительности будет проводиться с существующими моделями встраивания текста SOTA, чтобы обеспечить постоянное совершенствование и конкурентоспособность.

Пользователи подсети получат доступ к новейшим моделям встраивания текста, которые являются наиболее универсальными и превосходят производительность SOTA. Эти модели будут общедоступны через API-интерфейс валидатора Bittensor Subnet 5, что будет способствовать их широкому внедрению и интеграции в различные приложения.

Механизм стимулирования

Майнеры получат пакет текстов и встроят их.

Для встраивания текста валидаторы имеют информацию о парной релевантности, чтобы оценить их с помощью контрастной потери обучения:

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

где $f(x,c) = exp{(x cdot c)}$ это оценка $frac{p(x | c)}{p(x)}$ , и $c$ является целевым встраиванием, и $х$ является положительным образцом, и $x'$ являются отрицательными образцами.

Это сделано для максимизации взаимной информации между положительными парами. $х$ и $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{ p(mathbf{x})}$

и минимизировать взаимную информацию между отрицательными парами $x'$ и $c$ : $I(mathbf{x'}; mathbf{c})$ .

Постепенно мы потенциально сможем учитывать время обработки, чтобы стимулировать более быстрое встраивание и меньшую задержку.

Требования к вычислительным ресурсам

Не существует жестких требований к оборудованию майнеров, если они могут обслуживать свою модель встраивания текста с малой задержкой и высокой пропускной способностью.

Для достижения этой цели майнерам обычно необходимы следующие инфраструктуры:

Модельное обучение:

Машины с графическими процессорами для быстрого обучения моделей на больших наборах данных

Модельное обслуживание:

Выделенный сервер вывода моделей

Пользовательский интерфейс подсети

В конечном итоге подсеть 5 будет обслуживать модель встраивания текста через API-интерфейс валидатора подсети.

Опыт разработки при использовании API внедрения подсети 5 будет аналогичен API внедрения текста OpenAI https://platform.openai.com/docs/guides/embeddings/embedding-models.

Дорожная карта развития

В1:

Механизм оценки и стимулирования модели встраивания текста
Панель мониторинга подсети с кривой роста производительности модели и сравнением с моделями OpenAI с встраиванием текста 3-маленьких и моделями с встраиванием текста-3-большими в качестве базовых показателей.
API подсети для предоставления модели, обученной майнерами, пользователям подсети.

V2 и далее:

Расширение набора данных
Распространение модели стимулирования оценки на такие задачи, как изменение рейтинга документов.
Учет попарного расстояния документов при оценке
…

Приложение – Фоны

Модель внедрения текста

Модели внедрения текста являются фундаментальными для современной обработки естественного языка (NLP), представляя слова, фразы или документы как плотные векторы в непрерывном пространстве. Эти модели со временем значительно изменились:

Классические подходы:

Методы горячего кодирования и подсчета (например, TF-IDF)
Ограничен в улавливании семантических отношений.

Вложения слов:

На основе распределительной семантики
Ключевые модели: Word2Vec, GloVe, FastText.
Фиксируйте сходство и взаимосвязь слов

Встраивание предложений и документов:

Распространите методы на уровне слов на более крупные текстовые единицы и динамические представления, основанные на контексте.
Примеры: ELMo, BERT, GPT.
Лучше справляется с многозначностью и контекстно-зависимыми значениями.

Приложения охватывают различные задачи НЛП, включая семантическое сходство, машинный перевод и анализ настроений. Текущие задачи включают устранение предвзятости и повышение эффективности.

Эта эволюция от простых представлений к сложным контекстным моделям значительно расширила возможности НЛП, позволяя машинам более детально понимать язык.

Векторный семантический поиск

Векторный семантический поиск развился из традиционных методов, основанных на ключевых словах, для устранения ограничений в понимании контекста и значения. Он использует достижения в области обработки естественного языка и машинного обучения для представления текста в виде плотных векторов в многомерном пространстве.

Ключевые компоненты векторного семантического поиска включают в себя:

Встраивание текста (например, Word2Vec, GloVe, BERT, GPT)
Эффективные алгоритмы поиска ближайших соседей (например, индексирование векторов с использованием HNSW)

Индексируя документы с их вложениями, можно:

Улавливайте семантические связи между словами и понятиями.
Улучшите обработку синонимов и связанных терминов.
Более интуитивно понятный и контекстно-зависимый поиск.

Векторный семантический поиск значительно улучшил поиск информации в различных приложениях, предлагая более релевантные результаты за счет понимания целей запросов, а не исключительно за счет точных совпадений ключевых слов.

Расширять

Дополнительная информация