Модели диффузии — это увлекательное использование глубокого обучения для моделирования постепенного развития данных с течением времени. Концепция генерации с использованием модели диффузии заключается в итеративном преобразовании точки данных из шума в целевое распределение, которое является исходным распределением данных. Это преобразование выполняется посредством серии дискретных шагов. Этап обучения включает в себя прямую диффузию и обратную диффузию.
В процессе прямой диффузии мы постепенно добавляем к данным гауссов шум для случайного числа временных шагов «t» («t» меньше или равен общему количеству заранее определенных временных шагов), что приводит к зашумленному изображению. В процессе обратной диффузии мы начинаем с зашумленного изображения (зашумленного на шагах «t» при прямой диффузии) и обучаем модель UNet, которая помогает снизить уровень шума путем прогнозирования шума, добавленного к исходному изображению.
Для создания новых изображений мы просто итеративно выполняем обратную диффузию. Для этого мы сначала отбираем шум из стандартного гауссиана, а затем прогнозируем и постепенно удаляем шум в течение заранее определенного количества временных шагов, в результате чего создается изображение, напоминающее исходное распределение данных.