VQ VAE on MNIST Скачать

VQ VAE on MNIST

Другой исходный код

Скачать

Вектор-квалификационный вариационный автоэкодер (VQ-VAE)

Репозиторий состоит из VQ-VAE, реализованного в Pytorch и обученного набору данных MNIST.

VQ-VAE: Обзор

VQ-VAE следуют той же базовой концепции, что и за вариационными автододерами (VAE). VQ-VAE Используйте дискретные скрытые встраивания для вариационных автоматических кодеров , то есть каждое измерение Z (скрытый вектор) является дискретным целым целом, вместо непрерывного нормального распределения, обычно используемого при кодировании входов.

VAE состоят из 3 частей:

Сеть энкодеров, которая параметризует задний Q (z | x) над задержками
Предыдущее распределение P (z)
Декодер с распределением p (x | z) по входным данным

Что ж, вы можете спросить о различиях, которые VQ-Vaes приносят на стол. Давайте перечислим их:

Энкодеры моделируют категорическое распределение, выборка, из которого вы получаете интегральные значения
Эти интегральные значения используются для индексации словаря внедрения
Индексированные значения затем передаются в декодер

Зачем вводить различия?

Многие важные объекты реального мира дискретны. Например, на изображениях у нас могут быть такие категории, как «кошка», «автомобиль» и т. Д., И может не иметь смысла интерполировать между этими категориями. Дискретные представления также легче моделировать.

Архитектура

где:

n : размер партии
h : высота изображения
w : ширина изображения
c : Количество каналов в входном изображении
d : количество каналов в скрытом состоянии

Работающий

Вот краткий обзор работы сети VQ-VAE:

VQ-VAE состоит из кодера, встраивания (или кодовой книги) и декодера.
Когда изображение передается как входное, оно преобразуется в скрытые векторы с использованием сети энкодеров .

Пространство встраивания состоит из многих скрытых векторов, которые сравниваются с пространством входного.
Расстояния рассчитываются, и выбирается наиболее похожий скрытый вектор (наименьшее расстояние) скрытый вектор (в пространстве встраивания) с скрытым вектором ввода .
Выбранный один подается в сеть декодеров, которая реконструирует изображение .

Векторный квантовый слой

Работа слоя VQ может быть объяснена в шести этапах, пронумерованных на рисунке:

RESHAPE: Все измерения, кроме последнего, объединены в один, чтобы у нас были векторы N H W каждый измерений D D.
Расчет расстояний: для каждого из векторов N H W мы рассчитываем расстояние от каждого из k векторов встроенного словаря для получения матрицы формы (n H w, k)
Аргмин: Для каждого из векторов N H W мы находим индекс ближайших к векторам K из словаря
Индекс из словаря: индексировать ближайший вектор из словаря для каждого из векторов N H W
RESHAPE: конвертируйте обратно в форму (N, H, W, D)
Копирование градиентов: невозможно обучить эту архитектуру через обратное распространение, поскольку градиент не протекает через Аргмин. Следовательно, мы стараемся приблизиться, копируя градиенты из Z_Q обратно в Z_E. Таким образом, мы на самом деле не минимизируем функцию потерь, но все еще можем передать некоторую информацию для обучения.

Потери функции

VQ-VAE использует 3 убытки для вычисления общей потери во время обучения:

Потеря реконструкции: оптимизирует декодер и энкодер как vae, то есть разница между входным изображением и реконструкцией:
reconstruction_loss = -log( p(x|z_q) )
Потеря кодовой книги: из -за того, что градиенты обходят внедрение, словарный алгоритм обучения, который использует ошибку L2 для перемещения векторов встраивания E_I в направлении выхода кодера.
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(SG представляет оператор Stop Gradient, что означает, что градиент течет через все, на что он применяется)
Потеря обязательств: Поскольку объем пространства встраивания безразмер, он может произвольно расти, если встраивание E_I не тренируется так быстро, как параметры кодера, и, таким образом, добавлена потеря обязательств, чтобы убедиться, что энкодер собирается внедрить.
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(β - это гиперпараметр, который контролирует, сколько мы хотим взвесить потерю приверженности по сравнению с другими компонентами)

Содержимое

Инструкции по настройке
Обучение вашей модели с нуля
Генерирование изображений из модели
Обзор репозитория
Результаты
1. Обучающие изображения
2. Учебные графики
3. Графики тестирования
4. Сгенерированные изображения
Наблюдения
Кредиты

1. Инструкции по настройке

Вы можете загрузить репо или клонировать его, запустив следующее в CMD -подсказке

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. Обучение вашей модели с нуля

Вы можете обучить модель с нуля по следующей команде (в Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - Имя папки данных
data-folder - имя папки данных
device - Установите устройство (ЦП или CUDA, по умолчанию: ЦП)
hidden-size - размер скрытых векторов (по умолчанию: 40)
k - количество скрытых векторов (по умолчанию: 512)
batch-size - размер партии (по умолчанию: 128)
num-epochs - количество эпох (по умолчанию: 10)
lr - скорость обучения для Adam Optimizer (по умолчанию: 2E -4)
beta - вклад потери приверженности, между 0,1 и 2,0 (по умолчанию: 1,0)
num-workers - количество рабочих для отбора проб траекторий (по умолчанию: CPU_COUNT () - 1)

Программа автоматически загружает набор данных MNIST и сохраняет его в папке PATH_TO_MNIST_dataset (вам нужно создать эту папку). Это происходит только один раз.

Он также создает папку и models logs , а внутри них создает папку с именем, передаваемым вам, чтобы сохранить журналы и модели контрольных точек внутри нее соответственно.

3. Создание изображений из модели

Для генерации новых изображений из z, выбранных случайным образом из единичного гауссона, запустите следующую команду (в Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - имя файла, содержащее модель
input - Mnist или случайный
device - Установите устройство (ЦП или CUDA, по умолчанию: ЦП)
hidden-size - размер скрытых векторов (по умолчанию: 40)
k - количество скрытых векторов (по умолчанию: 512)
filename - Имя, с каким файлом должен быть сохранен

Он генерирует 10*10 сетку изображений, которые сохраняются в папке с именем generatedImages .

Вы можете использовать предварительно обученную модель, загрузив ее по ссылке в model.txt .

4. Обзор репозитория

Репозиторий содержит следующие файлы

modules.py - содержит различные модули, используемые для создания нашей модели
VQ-VAE.py -содержит функции и код для обучения нашей модели VQ-VAE
vector_quantizer.py - классы квантования векторов определены в этом файле
generate-py -генерирует новые изображения из предварительно обученной модели
model.txt - содержит ссылку на предварительно обученную модель
README.md - readme, давая обзор репо
references.txt - Ссылки, используемые при создании этого репо.
readme_images - имеет различные изображения для readme
MNIST - содержит набор данных MNIST ZIPD (хотя он будет загружен автоматически, если это необходимо)
Training track for VQ-VAE.txt -содержит значения потерь во время обучения нашей модели VQ-VAE
logs_VQ-VAE -содержит журналы Zippd Tensorboard для нашей модели VQ-VAE (автоматически созданная программой)
testers.py - содержит некоторые функции для проверки наших определенных модулей

Команда запуска Tensorboard (в Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. Результаты

1. Обучающие изображения

Учебное изображение

Изображение от 0 -й эпохи

Изображение с 2 -й эпохи

Изображение из 4 -й эпохи

Изображение с 6 -й эпохи

Изображение из 8 -й эпохи

Изображение с 10 -й эпохи

Реконструкции продолжают улучшаться, и в конце почти напоминает изображения training_set, которые отражаются в значениях потерь (проверьте Training track for VQ-VAE.txt ).

2. Обучающие графики

Потеря реконструкции

Потеря квантования

Total_loss

Общая потеря, потери реконструкции и потери квантования уменьшаются, как и ожидалось.

3. Тестирование графиков

Testing_loss

Потеря тестирования уменьшается равномерно, как и ожидалось.

4. Сгенерированные изображения

Следующая сетка изображения была сгенерирована после прохождения изображений MNIST в качестве входов:

Поколение довольно хорошо.

Следующие сетки изображения были сгенерированы после прохождения AZ, выбранного случайным образом из единичного гауссового в качестве входного сигнала для модели, а затем проходили через декодер

Изображения не выглядят идеально. Настройка размеров скрытого пространства, количество векторов встраивания и т. Д. Может помочь в создании лучших случайных изображений.

6. Наблюдения

Модель была обучена Google Colab для 10 эпох, с размером партии 128.

После обучения модель смогла довольно хорошо восстановить входные изображения, а также смогла генерировать новые изображения, хотя сгенерированные изображения не так хороши.
Обучение, а также потеря тестирования также продолжали уменьшаться почти монотонно.

Я заметил, что обучение модели для более чем 10-20 эпох дает результаты, которые предположили вероятный признак переживания в модели. Кроме того, я экспериментировал с различными измерениями пространства Latednt и в конечном итоге dimension = 40 дал наилучшие результаты. Лучший диапазон для измерения стал между 16-42.

7. Кредиты

Следующие источники очень помогли сделать это хранилище

Нейронное дискретное обучение - Аарон Ван Ден Оорд, Ориол Виньялс, Корай Кавуккуглу
Создание разнообразных изображений с высокой точки
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image
https://blog.usejournal.com/understanding-vector-quantized-variational-autoencoders-vq-vae-323d710a888a
https://christineai.blog/pixelcnn-and-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

Расширять

Дополнительная информация