Потрясающее согласование моделей диффузии
Сборник замечательных статей по согласованию диффузионных моделей.
Если вас интересует согласование моделей распространения, обратитесь к нашему обзорному документу «Согласование моделей распространения: основы, проблемы и будущее», который, насколько нам известно, является первым обзором по этой теме.
Мы надеемся насладиться приключением изучения моделей выравнивания и диффузии вместе с большим количеством исследователей. Исправления и предложения приветствуются.
Методы выравнивания моделей диффузии
РЛХФ
- ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение. НейрИПС 2023, [pdf]
- DPOK: Обучение с подкреплением для точной настройки моделей диффузии текста в изображение, NeurIPS 2023, [pdf]
- Согласование моделей текста и изображения с использованием обратной связи с человеком. arXiv 2023, [pdf]
- Согласование моделей распространения текста в изображение с обратным распространением ошибки вознаграждения. arXiv 2023, [pdf]
- Непосредственная точная настройка моделей диффузии для дифференцируемых вознаграждений. ICLR 2024, [pdf]
- PRDP: прогнозирование проксимальной разницы в вознаграждении для крупномасштабной точной настройки диффузионных моделей. ЦВПР 2024, [pdf]
- Обратная связь Эффективная точная онлайн-настройка диффузионных моделей. ICML 2024, [pdf]
- Точная настройка моделей диффузии в непрерывном времени как энтропийно-регуляризованное управление. arXiv 2024, [pdf]
- Понимание точной настройки диффузионных моделей на основе обучения с подкреплением: учебное пособие и обзор. arXiv 2024, [pdf]
- Согласование малошаговых моделей диффузии с обучением с плотным разностным вознаграждением. arXiv 2024, [pdf]
ДПО
- Согласование модели диффузии с использованием прямой оптимизации предпочтений. ЦВПР 2024, [pdf]
- Использование обратной связи с людьми для точной настройки моделей распространения без какой-либо модели вознаграждения. ЦВПР 2024, [pdf]
- Взгляд с плотным вознаграждением на согласование распространения текста к изображению с предпочтениями. ICML 2024, [pdf]
- Самостоятельная точная настройка моделей диффузии для преобразования текста в изображение. НейрИПС 2024, [pdf]
- Согласование моделей диффузии путем оптимизации человеческой полезности. arXiv 2024, [pdf]
- Оптимизация предпочтений с учетом шагов: согласование предпочтений с производительностью шумоподавления на каждом этапе. arXiv 2024, [pdf]
- Настройка модели диффузии, дистиллированной по временному шагу, с использованием попарной оптимизации выборки. arXiv 2024, [pdf]
- Масштабируемая оптимизация ранжированных предпочтений для преобразования текста в изображение. arXiv 2024, [pdf]
- Распределите приоритеты шагов по шумоподавлению при выравнивании предпочтений диффузионной модели с помощью явной оценки распределения с шумоподавлением. arXiv 2024, [pdf]
Неявное выравнивание без обучения
- Оптимизация подсказок для преобразования текста в изображение. НейрИПС 2023, [pdf]
- RePrompt: автоматическое оперативное редактирование для совершенствования искусства искусственного интеллекта в направлении точных выражений. ОМС 2023, [pdf]
- Улучшение согласованности текста и изображения посредством автоматической оптимизации подсказок. ТМЛР 2024, [pdf]
- Динамическая оптимизация подсказок для преобразования текста в изображение. ЦВПР 2024, [pdf]
- ReNO: улучшение одношаговых моделей преобразования текста в изображение посредством оптимизации шума на основе вознаграждения. НейрИПС 2024, [pdf]
- К лучшему согласованию генерации текста и изображения посредством модуляции внимания. arXiv 2024, [pdf]
- Не все шумы создаются одинаково: выбор и оптимизация диффузионного шума. arXiv 2024, [pdf]
- Руководство без производных в моделях непрерывной и дискретной диффузии с мягким декодированием на основе значений. arXiv 2024, [pdf]
- Выравнивание по времени вывода моделей диффузии с прямой оптимизацией шума. arXiv 2024, [pdf]
Выравнивание за пределами моделей диффузии текста в изображение
- Согласование траекторий оптимизации с моделями диффузии для создания проектов с ограничениями. НейрИПС 2023, [pdf]
- AlignDiff: согласование различных человеческих предпочтений с помощью настраиваемой по поведению модели диффузии. ICLR 2024, [pdf]
- HIVE: использование обратной связи с людьми для визуального редактирования учебных материалов. ЦВПР 2024, [pdf]
- InstructVideo: обучение моделям распространения видео с обратной связью от человека. ЦВПР 2024, [pdf]
- DreamReward: преобразование текста в 3D с учетом предпочтений человека. arXiv 2024, [pdf]
- Выравнивание является ключом к применению моделей диффузии к ретросинтезу. arXiv 2024, [pdf]
- Выравнивание распространения видео с помощью градиентов вознаграждения. arXiv 2024, [pdf]
- Согласование моделей диффузии молекул с учетом целевой цели с точной оптимизацией энергии. arXiv 2024, [pdf]
- VideoRepair: улучшение преобразования текста в видео посредством оценки несовпадения и локализованного уточнения. arXiv 2024, [pdf]
Тесты и оценка
- DALL-Eval: Исследование навыков рассуждения и социальных предубеждений генеративных преобразователей текста в изображение. ICCV 2023, [pdf]
- Оценка человеческих предпочтений: лучшее согласование моделей преобразования текста в изображение с человеческими предпочтениями. ICCV 2023, [pdf]
- ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение. НейрИПС 2023, [pdf]
- Pick-a-Pic: открытый набор данных пользовательских настроек для преобразования текста в изображение. НейрИПС 2023, [pdf]
- LLMScore: раскрытие возможностей больших языковых моделей в оценке синтеза текста в изображение. НейрИПС 2023, [pdf]
- VPGen и VPEval: визуальное программирование для создания и оценки преобразования текста в изображение. НейрИПС 2023, [pdf]
- Оценка человеческих предпочтений v2: надежный эталон для оценки человеческих предпочтений при синтезе текста в изображение. arXiv 2023, [pdf]
- GenEval: объектно-ориентированная платформа для оценки выравнивания текста по изображению. Наборы данных и тесты NeurIPS 2023, [pdf]
- Целостная оценка моделей преобразования текста в изображение. НейрИПС 2023, [pdf]
- Социальное вознаграждение: оценка и улучшение генеративного искусственного интеллекта с помощью отзывов миллионов пользователей творческого онлайн-сообщества. ICLR 2024, [pdf]
- Богатая человеческая обратная связь для создания текста в изображении. ЦВПР 2024, [pdf]
- Изучение многомерных человеческих предпочтений при преобразовании текста в изображение. ЦВПР 2024, [pdf]
- Мультимодальные модели большого языка улучшают согласованность генеративных моделей преобразования текста в изображение. НейрИПС 2024, [pdf]
- Измерение сходства стилей в моделях диффузии. arXiv 2024, [pdf]
Основы человеческого мировоззрения
Моделирование предпочтений
- Ранговый анализ неполных блочных схем: I. Метод парных сравнений. Биометрика 1952, [pdf]
- Индивидуальный выбор поведения. Джон Уайли 1959, [pdf]
- Анализ перестановок. Журнал Королевского статистического общества. Серия C (Прикладная статистика) 1975 г., [pdf]
- Обучение ранжированию с разделенными предпочтениями: быстрая оценка модели Плакетта-Люса. АИСТАТС 2021, [pdf]
- Модели человеческих предпочтений для обучения функциям вознаграждения. arXiv 2022, [pdf]
- За пределами предпочтений в согласовании ИИ. arXiv 2024, [pdf]
РЛХФ
- Обучение языковых моделей следованию инструкциям с обратной связью от человека. НейрИПС 2022, [pdf]
- Конституционный ИИ: безвредность от обратной связи ИИ. arXiv 2022, [pdf]
- RRHF: ранжируйте ответы, чтобы согласовать языковые модели с человеческой обратной связью без слез. НейрИПС 2023, [pdf]
- RAFT: тонкая настройка для согласования модели генеративного фундамента, отмеченная наградами. ТМЛР 2024, [pdf]
- RLAIF против RLHF: масштабирование обучения с подкреплением на основе обратной связи от человека с помощью обратной связи от ИИ. ICML 2024, [pdf]
- Назад к основам: возвращение к оптимизации стиля REINFORCE для обучения на основе обратной связи с людьми в программах LLM. ACL 2024, [pdf]
ДПО
- Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения. НейрИПС 2023, [pdf]
- Оптимизация рейтинга предпочтений для человеческого мировоззрения. АААИ 2024, [pdf]
- Общетеоретическая парадигма для понимания обучения на основе человеческих предпочтений. АИСТАТС 2024, [pdf]
- КТО: Согласование модели как теоретическая оптимизация перспектив. ICML 2024, [pdf]
- LiPO: оптимизация предпочтений по спискам посредством обучения ранжированию. arXiv 2024, [pdf]
- ORPO: монолитная оптимизация предпочтений без эталонной модели. arXiv 2024, [pdf]
Потенциальные проблемы и возможности диффузионного выравнивания
- Законы масштабирования для переоптимизации модели вознаграждения. ICML 2023, [pdf]
- Проблема выравнивания с точки зрения глубокого обучения. ICLR 2024, [pdf]
- За пределами обратного KL: обобщение оптимизации прямых предпочтений с разнообразными ограничениями дивергенции. ICLR 2024, [pdf]
- Нэш Учится на обратной связи с людьми. ICML 2024, [pdf]
- Итеративное обучение предпочтениям на основе обратной связи с человеком: соединяющая теория и практика для RLHF в условиях KL-ограничения. ICML 2024, [pdf]
- Щедрое вознаграждение за бесплатное обучение с подкреплением на основе обратной связи с людьми. ICML 2024, [pdf]
- Позиция: Дорожная карта к плюралистическому выравниванию. ICML 2024, [pdf]
- Оценка хрупкости выравнивания безопасности посредством обрезки и модификаций низкого ранга. ICML 2024, [pdf]
- MaxMin-RLHF: соответствие разнообразным человеческим предпочтениям. ICML 2024, [pdf]
- Награды в контексте: многоцелевое согласование базовых моделей с динамической корректировкой предпочтений. ICML 2024, [pdf]
- Обучение по модели вознаграждения против прямой оптимизации политики: сравнительный анализ обучения на основе человеческих предпочтений. ICML 2024, [pdf]
- Обобщенная оптимизация предпочтений: унифицированный подход к автономному согласованию. ICML 2024, [pdf]
- Человеческое согласование больших языковых моделей посредством оптимизации онлайн-предпочтений. ICML 2024, [pdf]
- Понимание динамики обучения согласованности с обратной связью от человека. ICML 2024, [pdf]
- Позиция: Социальный выбор должен определять согласованность действий ИИ при работе с разнообразной обратной связью между людьми. ICML 2024, [pdf]
- Превосходит ли DPO PPO для согласования LLM? Комплексное исследование. ICML 2024, [pdf]
- БОНД: Согласование программ LLM с дистилляцией Best-of-N. arXiv 2024, [pdf]
- Противостояние чрезмерной оптимизации вознаграждения для моделей диффузии: взгляд на индуктивные и первичные предубеждения, [pdf]
Цитирование
Если список статей окажется полезным для вашего исследования, мы будем рады процитировать наш обзорный документ по этой теме!
@article{liu2024alignment,
title = {Alignment of Diffusion Models: Fundamentals, Challenges, and Future},
author = {Liu, Buhua and Shao, Shitong and Li, Bao and Bai, Lichen, and Xu, Zhiqiang and Xiong, Haoyi and Kwok, James and Helal, Sumi and Xie, Zeke},
journal = {arXiv preprint arXiv 2024.07253},
year = {2024}
}