Загрузка Yi - Загрузка исходного кода Yi

Yi

Другой исходный код

Скачать

английский | 中文

Создание следующего поколения двуязычных программ LLM с открытым исходным кодом

? Обнимающее лицо • ? Объем модели • ? мудрая модель

?‍ Задавайте вопросы или обсуждайте идеи на GitHub.

Присоединяйтесь к нам? Дискорд или Вичат

Ознакомьтесь с отчетом Yi Tech

Развивайтесь в Центре обучения Yi

? Учитесь в блоге Yi Tech

Оглавление

Что такое Йи?
- Введение
- Модели
  - Модели чата
  - Базовые модели
  - Информация о модели
- Новости
Как использовать Йи?
- Быстрый старт
  - Выберите свой путь
  - пункт
  - докер
  - лама.cpp
  - Конда-замок
  - Веб-демо
- Тонкая настройка
- Квантование
- Развертывание
- Часто задаваемые вопросы
- Учебный центр
Почему Йи?
- Экосистема
  - вверх по течению
  - Ниже по течению
    - Обслуживание
    - Квантование
    - Тонкая настройка
    - API
- Тесты
  - Производительность базовой модели
  - Производительность модели чата
- Технический отчет
  - Цитирование
Кто может использовать Yi?
Разное.
- Благодарности
- Отказ от ответственности
- Лицензия

Что такое Йи?

Введение

? Модели серии Yi — это следующее поколение моделей большого языка с открытым исходным кодом, обученных с нуля компанией 01.AI.
? Модели серии Yi, ориентированные на двуязычную языковую модель и обученные на многоязычном корпусе 3T, становятся одними из самых сильных LLM в мире, демонстрируя многообещающие результаты в понимании языка, здравом смысле, понимании прочитанного и многом другом. Например,
- Модель Yi-34B-Chat заняла второе место (после GPT-4 Turbo) , опередив другие LLM (такие как GPT-4, Mixtral, Claude) в таблице лидеров AlpacaEval (на основе данных, доступных до января 2024 года).
- Модель Yi-34B заняла первое место среди всех существующих моделей с открытым исходным кодом (таких как Falcon-180B, Llama-70B, Claude) на английском и китайском языках по различным тестам, включая Hugging Face Open LLM Leaderboard (предварительно обученный) и C-Eval. (на основе данных, доступных до ноября 2023 г.).
- (Спасибо Llama) Спасибо сообществам открытого исходного кода Transformer и Llama, поскольку они сокращают усилия, необходимые для создания с нуля, и позволяют использовать одни и те же инструменты в экосистеме искусственного интеллекта.
Если вы заинтересованы в принятии Йи архитектуры Llama и политики использования лицензий, см . Отношения Йи с Llama.
ТЛ;ДР
Модели серии Yi имеют ту же архитектуру, что и Llama, но НЕ являются производными от Llama.
- И Yi, и Llama основаны на структуре Transformer, которая с 2018 года является стандартной архитектурой для больших языковых моделей.
- Основанный на архитектуре Transformer, Llama стал новым краеугольным камнем для большинства современных моделей с открытым исходным кодом благодаря своей превосходной стабильности, надежной конвергенции и надежной совместимости. Это делает Llama признанной основополагающей основой для моделей, включая Yi.
- Благодаря архитектурам Transformer и Llama другие модели могут использовать их возможности, сокращая усилия, необходимые для сборки с нуля, и позволяя использовать те же инструменты в своих экосистемах.
- Однако модели серии Yi НЕ являются производными от Llama, поскольку в них не используются гири Llama.
  - Поскольку структура Llama используется в большинстве моделей с открытым исходным кодом, ключевыми факторами, определяющими производительность модели, являются наборы обучающих данных, конвейеры обучения и инфраструктура обучения.
  - Развиваясь уникальным и запатентованным способом, Yi самостоятельно создала свои собственные высококачественные наборы обучающих данных, эффективные конвейеры обучения и надежную инфраструктуру обучения полностью с нуля. Эти усилия привели к отличным результатам: модели серии Yi заняли второе место после GPT4 и превзошли Llama в таблице лидеров альпаки в декабре 2023 года.

[Вверх ⬆️]

Новости

2024-07-29 : Выпущена версия Yi Cookbook 1.0, содержащая учебные пособия и примеры на китайском и английском языках.

13 мая 2024 г .: Модели серии Yi-1.5 имеют открытый исходный код, что еще больше улучшает возможности кодирования, математики, рассуждения и выполнения инструкций.

16 марта 2024 г .: Yi-9B-200K выложен в открытый исходный код и доступен для общественности.

08.03.2024 : Опубликован отчет Yi Tech!

? 07.03.2024 : Расширены возможности длинного текста Yi-34B-200K.

В тесте «Иголка в стоге сена» производительность Yi-34B-200K улучшена на 10,5%, увеличившись с 89,3% до впечатляющих 99,8%. Мы продолжаем предварительно обучать модель на смеси длинных контекстных данных токенов 5B и демонстрируем почти полностью зеленую производительность.

06.03.2024 : Исходный код Yi-9B открыт и доступен для общественности.

Yi-9B выделяется как лучший производитель среди ряда моделей с открытым исходным кодом аналогичного размера (включая Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5 и другие). особенно преуспевает в программировании, математике, здравом смысле и понимании прочитанного.

23 января 2024 г .: Модели Yi-VL, Yi-VL-34B и Yi-VL-6B , имеют открытый исходный код и доступны для общественности.

Yi-VL-34B занял первое место среди всех существующих моделей с открытым исходным кодом в последних тестах, включая MMMU и CMMMU (на основе данных, доступных до января 2024 года).

2023-11-23 : Модели чата имеют открытый исходный код и доступны для общественности.

Этот выпуск содержит две модели чата, основанные на ранее выпущенных базовых моделях, две 8-битные модели, квантованные с помощью GPTQ, и две 4-битные модели, квантованные с помощью AWQ.

Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits

Вы можете попробовать некоторые из них в интерактивном режиме:

Обнимающее лицо
Репликация

? 23.11.2023 : Лицензионное соглашение сообщества моделей серии Yi обновлено до версии 2.1.

08.11.2023 : Приглашенный тест модели чата Yi-34B.

Форма заявки:

Английский
китайский

05.11.2023 : Базовые модели Yi-6B-200K и Yi-34B-200K выложены в открытый исходный код и доступны широкой публике.

Этот выпуск содержит две базовые модели с теми же размерами параметров, что и предыдущий выпуск, за исключением того, что контекстное окно расширено до 200 КБ.

2023-11-02 : Базовые модели Yi-6B и Yi-34B выложены в открытый исходный код и доступны для общественности.

Первый общедоступный выпуск содержит две двуязычные (английский и китайский) базовые модели с размерами параметров 6B и 34B. Оба они обучаются с длиной последовательности 4 КБ и могут быть увеличены до 32 КБ во время вывода.

[Вверх ⬆️]

Модели

Модели Yi бывают разных размеров и подходят для разных случаев использования. Вы также можете настроить модели Yi в соответствии с вашими конкретными требованиями.

Если вы хотите развернуть модели Yi, убедитесь, что вы соответствуете требованиям к программному и аппаратному обеспечению.

Модели чата

Модель	Скачать
Yi-34B-Чат	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Yi-34B-Чат-4бита	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Yi-34B-Чат-8бит	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Йи-6Б-Чат	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Yi-6B-Чат-4бита	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Yi-6B-Чат-8бит	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель

_{^{- Модели 4-битных серий квантуются с помощью AWQ.
- Модели 8-битных серий квантуются с помощью GPTQ.
- Все квантованные модели имеют низкий барьер для использования, поскольку их можно развернуть на графических процессорах потребительского уровня (например, 3090, 4090).}}

Базовые модели

Модель	Скачать
Йи-34Б	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
И-34Б-200К	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Йи-9Б	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Йи-9Б-200К	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Йи-6Б	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель
Йи-6Б-200К	• ? Обнимающее лицо • ? Объем модели • ? мудрая модель

_{^{- 200 тысяч примерно эквивалентны 400 000 китайских иероглифов.
- Если вы хотите использовать предыдущую версию Yi-34B-200K (выпущенную 5 ноября 2023 г.), запустите git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf , чтобы загрузить вес.}}

Информация о модели

Для чата и базовых моделей

Модель	Введение	Контекстное окно по умолчанию	Предварительно обученные токены	Дата данных обучения
Модели серии 6B	Они подходят для личного и академического использования.	4К	3Т	До июня 2023 г.
Модели серии 9В	Он лучший в кодировании и математических вычислениях среди моделей серии Yi.		Yi-9B постоянно обучается на базе Yi-6B с использованием токенов 0,8T.
Модели серии 34В	Они подходят для личных, академических и коммерческих (особенно для малых и средних предприятий) целей. Это экономически эффективное решение, доступное по цене и оснащенное экстренными возможностями.		3Т

Для моделей чата
Ограничения модели чата см. в пояснениях ниже.
- Галлюцинация: это относится к модели, генерирующей фактически неверную или бессмысленную информацию. Поскольку ответы модели более разнообразны, увеличивается вероятность появления галлюцинаций, не основанных на точных данных или логических рассуждениях.
- Недетерминизм при регенерации: при попытке регенерации или выборки ответов могут возникнуть несоответствия в результатах. Увеличение разнообразия может привести к различным результатам даже при одинаковых входных условиях.
- Кумулятивная ошибка. Это происходит, когда ошибки в ответах модели со временем накапливаются. Поскольку модель генерирует более разнообразные ответы, вероятность того, что небольшие неточности перерастут в более крупные ошибки, возрастает, особенно в сложных задачах, таких как расширенное рассуждение, решение математических задач и т. д.
- Чтобы добиться более последовательных и последовательных ответов, желательно настроить параметры конфигурации генерации, такие как температура, top_p или top_k. Эти корректировки могут помочь найти баланс между креативностью и согласованностью результатов модели.

[Вверх ⬆️]

Как использовать Йи?

Быстрый старт
- Выберите свой путь
- пункт
- докер
- Конда-замок
- лама.cpp
- Веб-демо
Тонкая настройка
Квантование
Развертывание
Часто задаваемые вопросы
Учебный центр

Быстрый старт

Совет . Если вы хотите начать работу с моделью Yi и изучить различные методы вывода, ознакомьтесь с «Поваренной книгой Yi».

Выберите свой путь

Выберите один из следующих путей, чтобы начать свое путешествие вместе с Йи!

Разверните Yi локально

Если вы предпочитаете развертывать модели Yi локально,

?‍♀️ и у вас достаточно ресурсов (например, NVIDIA A800 80 ГБ), вы можете выбрать один из следующих способов:
- пункт
- Докер
- Конда-замок
?‍♀️ и у вас ограниченные ресурсы (например, MacBook Pro), вы можете использовать llama.cpp.

Не развертывать Yi локально

Если вы предпочитаете не развертывать модели Yi локально, вы можете изучить возможности Yi, используя любой из следующих вариантов.

?‍♀️ Запускайте Yi с помощью API

Если вы хотите изучить дополнительные возможности Yi, вы можете воспользоваться одним из этих методов:

API Yi (официальный представитель Yi)
- Некоторым заявителям предоставлен ранний доступ. Оставайтесь с нами для следующего раунда доступа!
API Yi (реплицировать)

?‍♀️ Беги Йи на детской площадке

Если вы хотите общаться с Йи с более настраиваемыми параметрами (например, системным приглашением, температурой, штрафом за повторение и т. д.), вы можете попробовать один из следующих вариантов:

Yi-34B-Chat-Playground (официальный представитель Yi)
- Доступ осуществляется через белый список. Добро пожаловать, чтобы подать заявку (заполните форму на английском или китайском языке).
Yi-34B-Чат-Детская площадка (Реплика)

?‍♀️ Чат с Йи

Если вы хотите пообщаться с Йи, вы можете использовать один из этих онлайн-сервисов, которые предлагают аналогичный пользовательский интерфейс:

Yi-34B-Chat (официальный представитель Yi на Hugging Face)
- Никакой регистрации не требуется.
Yi-34B-Chat (официальная бета-версия Yi)
- Доступ осуществляется через белый список. Добро пожаловать, чтобы подать заявку (заполните форму на английском или китайском языке).

[Вверх ⬆️]

Быстрый старт — пип

Это руководство проведет вас через каждый этап локального запуска Yi-34B-Chat на A800 (80G) и последующего выполнения вывода.

Шаг 0: Предварительные условия

Убедитесь, что установлен Python 3.10 или более поздняя версия.
Если вы хотите использовать другие модели Yi, ознакомьтесь с требованиями к программному и аппаратному обеспечению.

Шаг 1. Подготовьте среду

Чтобы настроить среду и установить необходимые пакеты, выполните следующую команду.

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

Шаг 2. Загрузите модель Yi.

Скачать веса и токенизатор моделей Yi можно из следующих источников:

Обнимающее лицо
МодельОбъем
Мудраямодель

Шаг 3: Выполните вывод

Вы можете выполнить вывод с помощью чата Yi или базовых моделей, как показано ниже.

Выполните вывод с помощью модели чата Yi

Создайте файл с именем quick_start.py и скопируйте в него следующее содержимое.

 from transformers import AutoModelForCausalLM , AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )

# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
    model_path ,
    device_map = "auto" ,
    torch_dtype = 'auto'
). eval ()

# Prompt content: "hi"
messages = [
    { "role" : "user" , "content" : "hi" }
]

input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )

# Model response: "Hello! How can I assist you today?"
print ( response )

Запустите quick_start.py .
```
python quick_start.py
```
Затем вы увидите результат, аналогичный показанному ниже. ?
```
Hello ! How can I assist you today ? 
```

Выполните вывод с помощью базовой модели Yi

Йи-34Б
Шаги аналогичны pip — выполнить вывод с помощью модели чата Yi.
Вы можете использовать существующий файл text_generation.py .
```
python demo/text_generation.py  --model < your-model-path >
```
Затем вы увидите результат, аналогичный показанному ниже. ?
Выход.

Подсказка : Позвольте мне рассказать вам интересную историю о коте Томе и мышонке Джерри.
Поколение : Позвольте мне рассказать вам интересную историю о коте Томе и мышонке Джерри, которая произошла в моем детстве. У моего отца был большой дом, в котором жили две кошки, которые ловили мышей. Однажды, когда я играл дома один, я нашел одного из котов, лежащего на спине возле нашей кухонной двери и выглядевшего так, будто он чего-то хотел от нас, но не мог встать, потому что вокруг него было слишком много людей! Он пытался несколько минут, прежде чем наконец сдался...

Йи-9Б

Вход

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)

input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Выход

 # write the quick sort algorithm
def quick_sort(arr):
    if len(arr) < = 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))

[Вверх ⬆️]

Быстрый старт — Докер

Запустите Yi-34B-chat локально с помощью Docker: пошаговое руководство.

В этом руководстве вы пройдете каждый этап запуска Yi-34B-Chat на графическом процессоре A800 или 4*4090 локально, а затем выполните логический вывод.

Шаг 0: Предварительные условия

Убедитесь, что вы установили Docker и nvidia-container-toolkit.

Шаг 1. Запустите Докер.

 docker run -it --gpus all 
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest

Кроме того, вы можете получить образ Yi Docker с registry.lingyiwanwu.com/ci/01-ai/yi:latest .

Шаг 2: Выполните вывод

Вы можете выполнить вывод с помощью чата Yi или базовых моделей, как показано ниже.

Выполните вывод с помощью модели чата Yi

Шаги аналогичны pip — выполнить вывод с помощью модели чата Yi.

Обратите внимание , что единственное отличие состоит в том, чтобы установить model_path = '<your-model-mount-path>' вместо model_path = '<your-model-path>' .

Выполните вывод с помощью базовой модели Yi

Шаги аналогичны pip — выполнить вывод с использованием базовой модели Yi.

Обратите внимание , что единственное отличие состоит в том, чтобы установить --model <your-model-mount-path>' вместо model <your-model-path> .

Быстрый старт - конда-лок

Вы можете использовать conda-lock для создания полностью воспроизводимых файлов блокировки для сред conda.

Вы можете обратиться к conda-lock.yml для получения точных версий зависимостей. Кроме того, вы можете использовать micromamba для установки этих зависимостей.
Чтобы установить зависимости, выполните следующие действия:

Установите микромамбу, следуя инструкциям, доступным здесь.
Выполните micromamba install -y -n yi -f conda-lock.yml чтобы создать среду conda с именем yi и установить необходимые зависимости.

Быстрый старт — llama.cpp

Следующее руководство проведет вас через каждый этап локального запуска квантовой модели (Yi-chat-6B-2bits) и последующего выполнения вывода.

Запустите Yi-chat-6B-2bits локально с помощью llama.cpp: пошаговое руководство.

Это руководство проведет вас через каждый этап локального запуска квантовой модели (Yi-chat-6B-2bits) и последующего выполнения вывода.

Шаг 0: Предварительные условия
Шаг 1: Загрузите llama.cpp
Шаг 2. Загрузите модель Yi.
Шаг 3: Выполните вывод

Шаг 0: Предварительные условия

В этом руководстве предполагается, что вы используете MacBook Pro с 16 ГБ памяти и процессором Apple M2 Pro.
Убедитесь, что на вашем компьютере установлен git-lfs .

Шаг 1. Загрузите `llama.cpp`

Чтобы клонировать репозиторий llama.cpp , выполните следующую команду.

git clone [email protected]:ggerganov/llama.cpp.git

Шаг 2. Загрузите модель Yi.

2.1 Чтобы клонировать XeIaso/yi-chat-6B-GGUF с помощью только указателей, выполните следующую команду.

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF

2.2 Чтобы загрузить квантованную модель Yi (yi-chat-6b.Q2_K.gguf), выполните следующую команду.

git-lfs pull --include yi-chat-6b.Q2_K.gguf

Шаг 3: Выполните вывод

Чтобы выполнить вывод с помощью модели Yi, вы можете использовать один из следующих методов.

Способ 1: выполнить вывод в терминале
Способ 2: выполнить вывод в Интернете

Способ 1: выполнить вывод в терминале

Чтобы скомпилировать llama.cpp с использованием 4 потоков и затем выполнить логический вывод, перейдите в каталог llama.cpp и выполните следующую команду.

Советы
Замените /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf фактическим путем к вашей модели.
По умолчанию модель работает в режиме завершения.
Чтобы получить дополнительные параметры настройки вывода (например, системное приглашение, температуру, штраф за повторение и т. д.), запустите ./main -h , чтобы просмотреть подробные описания и использование.

make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e

...

How do you feed your pet fox ? Please answer this question in 6 simple steps:

Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.

Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.

Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.

Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.

Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.

Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.

...

Теперь вы успешно задали вопрос модели Yi и получили ответ! ?

Способ 2: выполнить вывод в Интернете

Чтобы инициализировать легкого и быстрого чат-бота, выполните следующую команду.

 cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf

Тогда вы можете получить такой вывод:

...

llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name:   Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory              = true
ggml_metal_init: recommendedMaxWorkingSetSize  = 11453.25 MB
ggml_metal_init: maxTransferRate               = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size  =  128.00 MiB, K (f16):   64.00 MiB, V (f16):   64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =     0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048

llama server listening at http://0.0.0.0:8080

Чтобы получить доступ к интерфейсу чат-бота, откройте веб-браузер и введите http://0.0.0.0:8080 в адресную строку.
Введите в окно подсказки вопрос, например «Как вы кормите свою домашнюю лису? Пожалуйста, ответьте на этот вопрос за 6 простых шагов», и вы получите соответствующий ответ.

[Вверх ⬆️]

Веб-демо

Вы можете создать демо-версию веб-интерфейса для моделей чата Yi (обратите внимание, что базовые модели Yi не поддерживаются в этом сценарии).

Шаг 1. Подготовьте среду.

Шаг 2. Загрузите модель Yi.

Шаг 3. Чтобы запустить веб-службу локально, выполните следующую команду.

python demo/web_demo.py -c < your-model-path >

Вы можете получить доступ к веб-интерфейсу, введя адрес, указанный в консоли, в браузере.

[Вверх ⬆️]

Тонкая настройка

bash finetune/scripts/run_sft_Yi_6b.sh

После завершения вы можете сравнить настроенную модель и базовую модель с помощью следующей команды:

bash finetune/scripts/run_eval.sh

Для расширенного использования (например, тонкой настройки на основе ваших пользовательских данных) см. пояснения ниже.

Код точной настройки для Yi 6B и 34B

Подготовка

Из изображения

По умолчанию мы используем небольшой набор данных из BAAI/COIG для точной настройки базовой модели. Вы также можете подготовить свой собственный набор данных в следующем формате jsonl :

{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }

А затем смонтируйте их в контейнер, чтобы заменить стандартные:

docker run -it 
    -v /path/to/save/finetuned/model/:/finetuned-model 
    -v /path/to/train.jsonl:/yi/finetune/data/train.json 
    -v /path/to/eval.jsonl:/yi/finetune/data/eval.json 
    ghcr.io/01-ai/yi:latest 
    bash finetune/scripts/run_sft_Yi_6b.sh

С локального сервера

Убедитесь, что у вас есть конда. Если нет, используйте

mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc

Затем создайте среду conda:

conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7

Настройка оборудования

Для модели Yi-6B рекомендуется узел с 4 графическими процессорами, каждый с объемом памяти графического процессора более 60 ГБ.

Для модели Yi-34B, поскольку использование метода нулевой разгрузки потребляет много памяти ЦП, будьте осторожны и ограничивайте количество графических процессоров при точной настройке 34B. Используйте CUDA_VISIBLE_DEVICES, чтобы ограничить количество графических процессоров (как показано в scripts/run_sft_Yi_34b.sh).

Типичная аппаратная установка для точной настройки модели 34B — это узел с 8 графическими процессорами (ограничено 4 при работе с помощью CUDA_VISIBLE_DEVICES=0,1,2,3), каждый с памятью графического процессора более 80 ГБ и общей памятью процессора более 900 ГБ.

Быстрый старт

Загрузите базовую модель LLM в MODEL_PATH (6B и 34B). Типичная папка моделей выглядит так:

 | -- $MODEL_PATH
|   | -- config.json
|   | -- pytorch_model-00001-of-00002.bin
|   | -- pytorch_model-00002-of-00002.bin
|   | -- pytorch_model.bin.index.json
|   | -- tokenizer_config.json
|   | -- tokenizer.model
|   | -- ...

Загрузите набор данных из Huggingface в локальное хранилище DATA_PATH, например Dahoas/rm-static.

 | -- $DATA_PATH
|   | -- data
|   |   | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
|   |   | -- test-00000-of-00001-8c7c51afc6d45980.parquet
|   | -- dataset_infos.json
|   | -- README.md

finetune/yi_example_dataset содержит примеры наборов данных, модифицированных из BAAI/COIG.

 | -- $DATA_PATH
    | --data
        | -- train.jsonl
        | -- eval.jsonl

cd в папку сценариев, скопируйте и вставьте сценарий и запустите. Например:

 cd finetune/scripts

bash run_sft_Yi_6b.sh

Для базовой модели Yi-6B установка Training_debug_steps=20 и num_train_epochs=4 позволяет вывести модель чата, что займет около 20 минут.

Для базовой модели Yi-34B инициализация занимает относительно много времени. Пожалуйста, будьте терпеливы.

Оценка

 cd finetune/scripts

bash run_eval.sh

Тогда вы увидите ответ как для базовой модели, так и для точно настроенной модели.

[Вверх ⬆️]

Квантование

GPT-Q

python quantization/gptq/quant_autogptq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

После завершения вы можете оценить полученную модель следующим образом:

python quantization/gptq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

Подробности см. в пояснениях ниже.

Квантование GPT-Q

GPT-Q — это метод PTQ (квантования после обучения). Это экономит память и обеспечивает потенциальное ускорение, сохраняя при этом точность модели.

Модели Yi можно без особых усилий квантовать по GPT-Q. Ниже мы предоставляем пошаговое руководство.

Для запуска GPT-Q мы будем использовать AutoGPTQ и exllama. А преобразователи Huggingface имеют интегрированный оптимальный и автоматический gptq для выполнения квантования GPTQ на языковых моделях.

Выполните квантование

Сценарий quant_autogptq.py предназначен для выполнения квантования GPT-Q:

python quant_autogptq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

Запустите квантованную модель

Вы можете запустить квантованную модель, используя eval_quantized_model.py :

python eval_quantized_model.py --model /quantized_model --trust_remote_code

AWQ

python quantization/awq/quant_autoawq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

После завершения вы можете оценить полученную модель следующим образом:

python quantization/awq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

Подробности см. в пояснениях ниже.

AWQ-квантование

AWQ — это метод PTQ (квантования после обучения). Это эффективное и точное низкоразрядное весовое квантование (INT3/4) для LLM.

Модели Yi можно квантовать AWQ без особых усилий. Ниже мы предоставляем пошаговое руководство.

Для запуска AWQ мы будем использовать AutoAWQ.

Выполните квантование

Сценарий quant_autoawq.py предназначен для выполнения квантования AWQ:

python quant_autoawq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

Запустите квантованную модель

Вы можете запустить квантованную модель, используя eval_quantized_model.py :

python eval_quantized_model.py --model /quantized_model --trust_remote_code

[Вверх ⬆️]

Развертывание

Если вы хотите развернуть модели Yi, убедитесь, что вы соответствуете требованиям к программному и аппаратному обеспечению.

Требования к программному обеспечению

Прежде чем использовать модели, квантованные Yi, убедитесь, что вы установили правильное программное обеспечение, указанное ниже.

Модель	Программное обеспечение
4-битные квантованные модели Yi	AWQ и CUDA
8-битные квантованные модели Yi	GPTQ и CUDA

Требования к оборудованию

Прежде чем развертывать Yi в своей среде, убедитесь, что ваше оборудование соответствует следующим требованиям.

Модели чата

Модель	Минимальная видеопамять	Рекомендуемый пример графического процессора
Йи-6Б-Чат	15 ГБ	1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ)
Yi-6B-Чат-4бита	4ГБ	1 x RTX 3060 (12 ГБ) 1 x RTX 4060 (8 ГБ)
Yi-6B-Чат-8бит	8 ГБ	1 x RTX 3070 (8 ГБ) 1 x RTX 4060 (8 ГБ)
Yi-34B-Чат	72 ГБ	4 x RTX 4090 (24 ГБ) 1 х А800 (80 ГБ)
Yi-34B-Чат-4бита	20 ГБ	1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ) 1 х А100 (40 ГБ)
Yi-34B-Чат-8бит	38 ГБ	2 x RTX 3090 (24 ГБ) 2 x RTX 4090 (24 ГБ) 1 х А800 (40 ГБ)

Ниже приведены подробные минимальные требования к VRAM для различных случаев пакетного использования.

Модель	партия=1	партия=4	партия=16	партия=32
Йи-6Б-Чат	12 ГБ	13 ГБ	15 ГБ	18 ГБ
Yi-6B-Чат-4бита	4ГБ	5 ГБ	7 ГБ	10 ГБ
Yi-6B-Чат-8бит	7 ГБ	8 ГБ	10 ГБ	14 ГБ
Yi-34B-Чат	65 ГБ	68 ГБ	76 ГБ	> 80 ГБ
Yi-34B-Чат-4бита	19 ГБ	20 ГБ	30 ГБ	40 ГБ
Yi-34B-Чат-8бит	35 ГБ	37 ГБ	46 ГБ	58 ГБ

Базовые модели

Модель	Минимальная видеопамять	Рекомендуемый пример графического процессора
Йи-6Б	15 ГБ	1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ)
Йи-6Б-200К	50 ГБ	1 х А800 (80 ГБ)
Йи-9Б	20 ГБ	1 x RTX 4090 (24 ГБ)
Йи-34Б	72 ГБ	4 x RTX 4090 (24 ГБ) 1 х А800 (80 ГБ)
Йи-34Б-200К	200 ГБ	4 x A800 (80 ГБ)

[Вверх ⬆️]

Часто задаваемые вопросы

Если у вас возникнут вопросы при использовании моделей серии Yi, ответы, представленные ниже, могут послужить вам полезной справкой.

Тонкая настройка

Базовая модель или модель чата: что нужно настроить?
Выбор предварительно обученной языковой модели для тонкой настройки зависит от имеющихся в вашем распоряжении вычислительных ресурсов и конкретных требований вашей задачи.
- Если вы работаете со значительным объемом данных для точной настройки (скажем, более 10 000 выборок), базовая модель может быть вашим выбором.
- С другой стороны, если ваши данные для точной настройки не столь обширны, выбор модели чата может быть более подходящим выбором.
- Обычно рекомендуется точно настроить модели Base и Chat, сравнить их производительность, а затем выбрать модель, которая лучше всего соответствует вашим конкретным требованиям.
Yi-34B vs Yi-34B-Chat для полномасштабной доводки - в чем разница?
Ключевое различие между полномасштабной тонкой настройкой Yi-34B и Yi-34B-Chat сводится к подходу и результатам тонкой настройки.
- Yi-34B-Chat использует метод специальной точной настройки (SFT), в результате чего ответы более точно отражают стиль человеческого разговора.
- Тонкая настройка базовой модели более универсальна, имеет относительно высокий потенциал производительности.
- Если вы уверены в качестве своих данных, вам подойдет точная настройка с помощью Yi-34B .
- Если вы стремитесь к получению ответов, генерируемых моделями, которые лучше имитируют стиль человеческого разговора, или если у вас есть сомнения в качестве ваших данных, Yi-34B-Chat может быть вашим лучшим выбором.

Квантование

Квантованная модель по сравнению с исходной моделью: каков разрыв в производительности?

Расширять

Дополнительная информация

Версия
Тип Другой исходный код
Время обновления 2024-11-24
размер 50MB
От Github

Связанные приложения

Yi

Создание следующего поколения двуязычных программ LLM с открытым исходным кодом

Что такое Йи?

Введение

Новости

Модели

Модели чата

Базовые модели

Информация о модели

Как использовать Йи?

Быстрый старт

Выберите свой путь

Разверните Yi локально

Не развертывать Yi локально

?‍♀️ Запускайте Yi с помощью API

?‍♀️ Беги Йи на детской площадке

?‍♀️ Чат с Йи

Быстрый старт — пип

Шаг 0: Предварительные условия

Шаг 1. Подготовьте среду

Шаг 2. Загрузите модель Yi.

Шаг 3: Выполните вывод

Выполните вывод с помощью модели чата Yi

Выполните вывод с помощью базовой модели Yi

Быстрый старт — Докер

Шаг 0: Предварительные условия

Шаг 1. Запустите Докер.

Шаг 2: Выполните вывод

Выполните вывод с помощью модели чата Yi

Выполните вывод с помощью базовой модели Yi

Быстрый старт - конда-лок

Быстрый старт — llama.cpp

Шаг 0: Предварительные условия

Шаг 1. Загрузите llama.cpp

Шаг 2. Загрузите модель Yi.

Шаг 3: Выполните вывод

Способ 1: выполнить вывод в терминале

Советы

Способ 2: выполнить вывод в Интернете

Веб-демо

Тонкая настройка

Код точной настройки для Yi 6B и 34B

Подготовка

Из изображения

С локального сервера

Настройка оборудования

Быстрый старт

Оценка

Квантование

GPT-Q

Квантование GPT-Q

Выполните квантование

Запустите квантованную модель

AWQ

AWQ-квантование

Выполните квантование

Запустите квантованную модель

Развертывание

Требования к программному обеспечению

Требования к оборудованию

Модели чата

Базовые модели

Часто задаваемые вопросы

Тонкая настройка

Квантование

Шаг 1. Загрузите `llama.cpp`