английский | 中文
? Обнимающее лицо • ? Объем модели • ? мудрая модель
? Задавайте вопросы или обсуждайте идеи на GitHub.
Присоединяйтесь к нам? Дискорд или Вичат
Ознакомьтесь с отчетом Yi Tech
Развивайтесь в Центре обучения Yi
? Учитесь в блоге Yi Tech
? Модели серии Yi — это следующее поколение моделей большого языка с открытым исходным кодом, обученных с нуля компанией 01.AI.
? Модели серии Yi, ориентированные на двуязычную языковую модель и обученные на многоязычном корпусе 3T, становятся одними из самых сильных LLM в мире, демонстрируя многообещающие результаты в понимании языка, здравом смысле, понимании прочитанного и многом другом. Например,
Модель Yi-34B-Chat заняла второе место (после GPT-4 Turbo) , опередив другие LLM (такие как GPT-4, Mixtral, Claude) в таблице лидеров AlpacaEval (на основе данных, доступных до января 2024 года).
Модель Yi-34B заняла первое место среди всех существующих моделей с открытым исходным кодом (таких как Falcon-180B, Llama-70B, Claude) на английском и китайском языках по различным тестам, включая Hugging Face Open LLM Leaderboard (предварительно обученный) и C-Eval. (на основе данных, доступных до ноября 2023 г.).
(Спасибо Llama) Спасибо сообществам открытого исходного кода Transformer и Llama, поскольку они сокращают усилия, необходимые для создания с нуля, и позволяют использовать одни и те же инструменты в экосистеме искусственного интеллекта.
ТЛ;ДР
Модели серии Yi имеют ту же архитектуру, что и Llama, но НЕ являются производными от Llama.
И Yi, и Llama основаны на структуре Transformer, которая с 2018 года является стандартной архитектурой для больших языковых моделей.
Основанный на архитектуре Transformer, Llama стал новым краеугольным камнем для большинства современных моделей с открытым исходным кодом благодаря своей превосходной стабильности, надежной конвергенции и надежной совместимости. Это делает Llama признанной основополагающей основой для моделей, включая Yi.
Благодаря архитектурам Transformer и Llama другие модели могут использовать их возможности, сокращая усилия, необходимые для сборки с нуля, и позволяя использовать те же инструменты в своих экосистемах.
Однако модели серии Yi НЕ являются производными от Llama, поскольку в них не используются гири Llama.
Поскольку структура Llama используется в большинстве моделей с открытым исходным кодом, ключевыми факторами, определяющими производительность модели, являются наборы обучающих данных, конвейеры обучения и инфраструктура обучения.
Развиваясь уникальным и запатентованным способом, Yi самостоятельно создала свои собственные высококачественные наборы обучающих данных, эффективные конвейеры обучения и надежную инфраструктуру обучения полностью с нуля. Эти усилия привели к отличным результатам: модели серии Yi заняли второе место после GPT4 и превзошли Llama в таблице лидеров альпаки в декабре 2023 года.
[Вверх ⬆️]
Yi-9B-200K
выложен в открытый исходный код и доступен для общественности.Yi-9B
открыт и доступен для общественности.Yi-9B
выделяется как лучший производитель среди ряда моделей с открытым исходным кодом аналогичного размера (включая Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5 и другие). особенно преуспевает в программировании, математике, здравом смысле и понимании прочитанного.Yi-VL-34B
и Yi-VL-6B
, имеют открытый исходный код и доступны для общественности.Yi-VL-34B
занял первое место среди всех существующих моделей с открытым исходным кодом в последних тестах, включая MMMU и CMMMU (на основе данных, доступных до января 2024 года).Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits
Вы можете попробовать некоторые из них в интерактивном режиме:
Yi-6B-200K
и Yi-34B-200K
выложены в открытый исходный код и доступны широкой публике.Yi-6B
и Yi-34B
выложены в открытый исходный код и доступны для общественности.[Вверх ⬆️]
Модели Yi бывают разных размеров и подходят для разных случаев использования. Вы также можете настроить модели Yi в соответствии с вашими конкретными требованиями.
Если вы хотите развернуть модели Yi, убедитесь, что вы соответствуете требованиям к программному и аппаратному обеспечению.
Модель | Скачать |
---|---|
Yi-34B-Чат | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Yi-34B-Чат-4бита | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Yi-34B-Чат-8бит | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Йи-6Б-Чат | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Yi-6B-Чат-4бита | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Yi-6B-Чат-8бит | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
- Модели 4-битных серий квантуются с помощью AWQ.
- Модели 8-битных серий квантуются с помощью GPTQ.
- Все квантованные модели имеют низкий барьер для использования, поскольку их можно развернуть на графических процессорах потребительского уровня (например, 3090, 4090).
Модель | Скачать |
---|---|
Йи-34Б | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
И-34Б-200К | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Йи-9Б | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Йи-9Б-200К | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Йи-6Б | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
Йи-6Б-200К | • ? Обнимающее лицо • ? Объем модели • ? мудрая модель |
- 200 тысяч примерно эквивалентны 400 000 китайских иероглифов.
- Если вы хотите использовать предыдущую версию Yi-34B-200K (выпущенную 5 ноября 2023 г.), запустите git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf
, чтобы загрузить вес.
Модель | Введение | Контекстное окно по умолчанию | Предварительно обученные токены | Дата данных обучения |
---|---|---|---|---|
Модели серии 6B | Они подходят для личного и академического использования. | 4К | 3Т | До июня 2023 г. |
Модели серии 9В | Он лучший в кодировании и математических вычислениях среди моделей серии Yi. | Yi-9B постоянно обучается на базе Yi-6B с использованием токенов 0,8T. | ||
Модели серии 34В | Они подходят для личных, академических и коммерческих (особенно для малых и средних предприятий) целей. Это экономически эффективное решение, доступное по цене и оснащенное экстренными возможностями. | 3Т |
Для моделей чата
Однако такое более высокое разнообразие может усугубить некоторые существующие проблемы, в том числе:
[Вверх ⬆️]
Совет . Если вы хотите начать работу с моделью Yi и изучить различные методы вывода, ознакомьтесь с «Поваренной книгой Yi».
Выберите один из следующих путей, чтобы начать свое путешествие вместе с Йи!
Если вы предпочитаете развертывать модели Yi локально,
?♀️ и у вас достаточно ресурсов (например, NVIDIA A800 80 ГБ), вы можете выбрать один из следующих способов:
?♀️ и у вас ограниченные ресурсы (например, MacBook Pro), вы можете использовать llama.cpp.
Если вы предпочитаете не развертывать модели Yi локально, вы можете изучить возможности Yi, используя любой из следующих вариантов.
Если вы хотите изучить дополнительные возможности Yi, вы можете воспользоваться одним из этих методов:
API Yi (официальный представитель Yi)
API Yi (реплицировать)
Если вы хотите общаться с Йи с более настраиваемыми параметрами (например, системным приглашением, температурой, штрафом за повторение и т. д.), вы можете попробовать один из следующих вариантов:
Yi-34B-Chat-Playground (официальный представитель Yi)
Yi-34B-Чат-Детская площадка (Реплика)
Если вы хотите пообщаться с Йи, вы можете использовать один из этих онлайн-сервисов, которые предлагают аналогичный пользовательский интерфейс:
Yi-34B-Chat (официальный представитель Yi на Hugging Face)
Yi-34B-Chat (официальная бета-версия Yi)
[Вверх ⬆️]
Это руководство проведет вас через каждый этап локального запуска Yi-34B-Chat на A800 (80G) и последующего выполнения вывода.
Убедитесь, что установлен Python 3.10 или более поздняя версия.
Если вы хотите использовать другие модели Yi, ознакомьтесь с требованиями к программному и аппаратному обеспечению.
Чтобы настроить среду и установить необходимые пакеты, выполните следующую команду.
git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt
Скачать веса и токенизатор моделей Yi можно из следующих источников:
Вы можете выполнить вывод с помощью чата Yi или базовых моделей, как показано ниже.
Создайте файл с именем quick_start.py
и скопируйте в него следующее содержимое.
from transformers import AutoModelForCausalLM , AutoTokenizer
model_path = '<your-model-path>'
tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )
# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
model_path ,
device_map = "auto" ,
torch_dtype = 'auto'
). eval ()
# Prompt content: "hi"
messages = [
{ "role" : "user" , "content" : "hi" }
]
input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )
# Model response: "Hello! How can I assist you today?"
print ( response )
Запустите quick_start.py
.
python quick_start.py
Затем вы увидите результат, аналогичный показанному ниже. ?
Hello ! How can I assist you today ?
Йи-34Б
Шаги аналогичны pip — выполнить вывод с помощью модели чата Yi.
Вы можете использовать существующий файл text_generation.py
.
python demo/text_generation.py --model < your-model-path >
Затем вы увидите результат, аналогичный показанному ниже. ?
Подсказка : Позвольте мне рассказать вам интересную историю о коте Томе и мышонке Джерри.
Поколение : Позвольте мне рассказать вам интересную историю о коте Томе и мышонке Джерри, которая произошла в моем детстве. У моего отца был большой дом, в котором жили две кошки, которые ловили мышей. Однажды, когда я играл дома один, я нашел одного из котов, лежащего на спине возле нашей кухонной двери и выглядевшего так, будто он чего-то хотел от нас, но не мог встать, потому что вокруг него было слишком много людей! Он пытался несколько минут, прежде чем наконец сдался...
Йи-9Б
Вход
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)
input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Выход
# write the quick sort algorithm
def quick_sort(arr):
if len(arr) < = 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))
[Вверх ⬆️]
Убедитесь, что вы установили Docker и nvidia-container-toolkit.
docker run -it --gpus all
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest
Кроме того, вы можете получить образ Yi Docker с registry.lingyiwanwu.com/ci/01-ai/yi:latest
.
Вы можете выполнить вывод с помощью чата Yi или базовых моделей, как показано ниже.
Шаги аналогичны pip — выполнить вывод с помощью модели чата Yi.
Обратите внимание , что единственное отличие состоит в том, чтобы установить model_path = '<your-model-mount-path>'
вместо model_path = '<your-model-path>'
.
Шаги аналогичны pip — выполнить вывод с использованием базовой модели Yi.
Обратите внимание , что единственное отличие состоит в том, чтобы установить --model <your-model-mount-path>'
вместо model <your-model-path>
.
conda-lock
для создания полностью воспроизводимых файлов блокировки для сред conda.micromamba
для установки этих зависимостей.Установите микромамбу, следуя инструкциям, доступным здесь.
Выполните micromamba install -y -n yi -f conda-lock.yml
чтобы создать среду conda с именем yi
и установить необходимые зависимости.
Следующее руководство проведет вас через каждый этап локального запуска квантовой модели (Yi-chat-6B-2bits) и последующего выполнения вывода.
В этом руководстве предполагается, что вы используете MacBook Pro с 16 ГБ памяти и процессором Apple M2 Pro.
Убедитесь, что на вашем компьютере установлен git-lfs
.
llama.cpp
Чтобы клонировать репозиторий llama.cpp
, выполните следующую команду.
git clone [email protected]:ggerganov/llama.cpp.git
2.1 Чтобы клонировать XeIaso/yi-chat-6B-GGUF с помощью только указателей, выполните следующую команду.
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF
2.2 Чтобы загрузить квантованную модель Yi (yi-chat-6b.Q2_K.gguf), выполните следующую команду.
git-lfs pull --include yi-chat-6b.Q2_K.gguf
Чтобы выполнить вывод с помощью модели Yi, вы можете использовать один из следующих методов.
Способ 1: выполнить вывод в терминале
Способ 2: выполнить вывод в Интернете
Чтобы скомпилировать llama.cpp
с использованием 4 потоков и затем выполнить логический вывод, перейдите в каталог llama.cpp
и выполните следующую команду.
Советы
Замените
/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
фактическим путем к вашей модели.По умолчанию модель работает в режиме завершения.
Чтобы получить дополнительные параметры настройки вывода (например, системное приглашение, температуру, штраф за повторение и т. д.), запустите
./main -h
, чтобы просмотреть подробные описания и использование.
make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e
...
How do you feed your pet fox ? Please answer this question in 6 simple steps:
Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.
Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.
Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.
Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.
Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.
Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.
...
Теперь вы успешно задали вопрос модели Yi и получили ответ! ?
Чтобы инициализировать легкого и быстрого чат-бота, выполните следующую команду.
cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
Тогда вы можете получить такой вывод:
...
llama_new_context_with_model: n_ctx = 2048
llama_new_context_with_model: freq_base = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name: Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory = true
ggml_metal_init: recommendedMaxWorkingSetSize = 11453.25 MB
ggml_metal_init: maxTransferRate = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size = 128.00 MiB, K (f16): 64.00 MiB, V (f16): 64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048
llama server listening at http://0.0.0.0:8080
Чтобы получить доступ к интерфейсу чат-бота, откройте веб-браузер и введите http://0.0.0.0:8080
в адресную строку.
Введите в окно подсказки вопрос, например «Как вы кормите свою домашнюю лису? Пожалуйста, ответьте на этот вопрос за 6 простых шагов», и вы получите соответствующий ответ.
[Вверх ⬆️]
Вы можете создать демо-версию веб-интерфейса для моделей чата Yi (обратите внимание, что базовые модели Yi не поддерживаются в этом сценарии).
Шаг 1. Подготовьте среду.
Шаг 2. Загрузите модель Yi.
Шаг 3. Чтобы запустить веб-службу локально, выполните следующую команду.
python demo/web_demo.py -c < your-model-path >
Вы можете получить доступ к веб-интерфейсу, введя адрес, указанный в консоли, в браузере.
[Вверх ⬆️]
bash finetune/scripts/run_sft_Yi_6b.sh
После завершения вы можете сравнить настроенную модель и базовую модель с помощью следующей команды:
bash finetune/scripts/run_eval.sh
По умолчанию мы используем небольшой набор данных из BAAI/COIG для точной настройки базовой модели. Вы также можете подготовить свой собственный набор данных в следующем формате jsonl
:
{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }
А затем смонтируйте их в контейнер, чтобы заменить стандартные:
docker run -it
-v /path/to/save/finetuned/model/:/finetuned-model
-v /path/to/train.jsonl:/yi/finetune/data/train.json
-v /path/to/eval.jsonl:/yi/finetune/data/eval.json
ghcr.io/01-ai/yi:latest
bash finetune/scripts/run_sft_Yi_6b.sh
Убедитесь, что у вас есть конда. Если нет, используйте
mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc
Затем создайте среду conda:
conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7
Для модели Yi-6B рекомендуется узел с 4 графическими процессорами, каждый с объемом памяти графического процессора более 60 ГБ.
Для модели Yi-34B, поскольку использование метода нулевой разгрузки потребляет много памяти ЦП, будьте осторожны и ограничивайте количество графических процессоров при точной настройке 34B. Используйте CUDA_VISIBLE_DEVICES, чтобы ограничить количество графических процессоров (как показано в scripts/run_sft_Yi_34b.sh).
Типичная аппаратная установка для точной настройки модели 34B — это узел с 8 графическими процессорами (ограничено 4 при работе с помощью CUDA_VISIBLE_DEVICES=0,1,2,3), каждый с памятью графического процессора более 80 ГБ и общей памятью процессора более 900 ГБ.
Загрузите базовую модель LLM в MODEL_PATH (6B и 34B). Типичная папка моделей выглядит так:
| -- $MODEL_PATH
| | -- config.json
| | -- pytorch_model-00001-of-00002.bin
| | -- pytorch_model-00002-of-00002.bin
| | -- pytorch_model.bin.index.json
| | -- tokenizer_config.json
| | -- tokenizer.model
| | -- ...
Загрузите набор данных из Huggingface в локальное хранилище DATA_PATH, например Dahoas/rm-static.
| -- $DATA_PATH
| | -- data
| | | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
| | | -- test-00000-of-00001-8c7c51afc6d45980.parquet
| | -- dataset_infos.json
| | -- README.md
finetune/yi_example_dataset
содержит примеры наборов данных, модифицированных из BAAI/COIG.
| -- $DATA_PATH
| --data
| -- train.jsonl
| -- eval.jsonl
cd
в папку сценариев, скопируйте и вставьте сценарий и запустите. Например:
cd finetune/scripts
bash run_sft_Yi_6b.sh
Для базовой модели Yi-6B установка Training_debug_steps=20 и num_train_epochs=4 позволяет вывести модель чата, что займет около 20 минут.
Для базовой модели Yi-34B инициализация занимает относительно много времени. Пожалуйста, будьте терпеливы.
cd finetune/scripts
bash run_eval.sh
Тогда вы увидите ответ как для базовой модели, так и для точно настроенной модели.
[Вверх ⬆️]
python quantization/gptq/quant_autogptq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
После завершения вы можете оценить полученную модель следующим образом:
python quantization/gptq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
GPT-Q — это метод PTQ (квантования после обучения). Это экономит память и обеспечивает потенциальное ускорение, сохраняя при этом точность модели.
Модели Yi можно без особых усилий квантовать по GPT-Q. Ниже мы предоставляем пошаговое руководство.
Для запуска GPT-Q мы будем использовать AutoGPTQ и exllama. А преобразователи Huggingface имеют интегрированный оптимальный и автоматический gptq для выполнения квантования GPTQ на языковых моделях.
Сценарий quant_autogptq.py
предназначен для выполнения квантования GPT-Q:
python quant_autogptq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
Вы можете запустить квантованную модель, используя eval_quantized_model.py
:
python eval_quantized_model.py --model /quantized_model --trust_remote_code
python quantization/awq/quant_autoawq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
После завершения вы можете оценить полученную модель следующим образом:
python quantization/awq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
AWQ — это метод PTQ (квантования после обучения). Это эффективное и точное низкоразрядное весовое квантование (INT3/4) для LLM.
Модели Yi можно квантовать AWQ без особых усилий. Ниже мы предоставляем пошаговое руководство.
Для запуска AWQ мы будем использовать AutoAWQ.
Сценарий quant_autoawq.py
предназначен для выполнения квантования AWQ:
python quant_autoawq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
Вы можете запустить квантованную модель, используя eval_quantized_model.py
:
python eval_quantized_model.py --model /quantized_model --trust_remote_code
[Вверх ⬆️]
Если вы хотите развернуть модели Yi, убедитесь, что вы соответствуете требованиям к программному и аппаратному обеспечению.
Прежде чем использовать модели, квантованные Yi, убедитесь, что вы установили правильное программное обеспечение, указанное ниже.
Модель | Программное обеспечение |
---|---|
4-битные квантованные модели Yi | AWQ и CUDA |
8-битные квантованные модели Yi | GPTQ и CUDA |
Прежде чем развертывать Yi в своей среде, убедитесь, что ваше оборудование соответствует следующим требованиям.
Модель | Минимальная видеопамять | Рекомендуемый пример графического процессора |
---|---|---|
Йи-6Б-Чат | 15 ГБ | 1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ) |
Yi-6B-Чат-4бита | 4ГБ | 1 x RTX 3060 (12 ГБ) 1 x RTX 4060 (8 ГБ) |
Yi-6B-Чат-8бит | 8 ГБ | 1 x RTX 3070 (8 ГБ) 1 x RTX 4060 (8 ГБ) |
Yi-34B-Чат | 72 ГБ | 4 x RTX 4090 (24 ГБ) 1 х А800 (80 ГБ) |
Yi-34B-Чат-4бита | 20 ГБ | 1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ) 1 х А100 (40 ГБ) |
Yi-34B-Чат-8бит | 38 ГБ | 2 x RTX 3090 (24 ГБ) 2 x RTX 4090 (24 ГБ) 1 х А800 (40 ГБ) |
Ниже приведены подробные минимальные требования к VRAM для различных случаев пакетного использования.
Модель | партия=1 | партия=4 | партия=16 | партия=32 |
---|---|---|---|---|
Йи-6Б-Чат | 12 ГБ | 13 ГБ | 15 ГБ | 18 ГБ |
Yi-6B-Чат-4бита | 4ГБ | 5 ГБ | 7 ГБ | 10 ГБ |
Yi-6B-Чат-8бит | 7 ГБ | 8 ГБ | 10 ГБ | 14 ГБ |
Yi-34B-Чат | 65 ГБ | 68 ГБ | 76 ГБ | > 80 ГБ |
Yi-34B-Чат-4бита | 19 ГБ | 20 ГБ | 30 ГБ | 40 ГБ |
Yi-34B-Чат-8бит | 35 ГБ | 37 ГБ | 46 ГБ | 58 ГБ |
Модель | Минимальная видеопамять | Рекомендуемый пример графического процессора |
---|---|---|
Йи-6Б | 15 ГБ | 1 x RTX 3090 (24 ГБ) 1 x RTX 4090 (24 ГБ) 1 х А10 (24 ГБ) 1 х А30 (24 ГБ) |
Йи-6Б-200К | 50 ГБ | 1 х А800 (80 ГБ) |
Йи-9Б | 20 ГБ | 1 x RTX 4090 (24 ГБ) |
Йи-34Б | 72 ГБ | 4 x RTX 4090 (24 ГБ) 1 х А800 (80 ГБ) |
Йи-34Б-200К | 200 ГБ | 4 x A800 (80 ГБ) |
[Вверх ⬆️]
Yi-34B
и Yi-34B-Chat
сводится к подходу и результатам тонкой настройки.Yi-34B
.Yi-34B-Chat
может быть вашим лучшим выбором.