Ли Дин, Дженни Чжан, Джефф Клун, Ли Спектор, Джоэл Леман
TL;DR: QDHF расширяет алгоритмы QD, выводя показатели разнообразия на основе человеческих суждений о сходстве, превосходя самые современные методы в автоматическом обнаружении разнообразия в задачах робототехники и RL и значительно повышая производительность в открытых генеративных задачах.
QDHF (справа) улучшает разнообразие результатов преобразования текста в изображение по сравнению с лучшим из N (слева) с использованием Stable Diffusion.
Мы выпустили демо-версию Gradio на Hugging Face. Этот удобный интерфейс позволяет легко исследовать QDHF без каких-либо требований к кодированию. Особая благодарность Дженни Чжан за ее вклад!
Совместно с командой Pyribs мы выпустили учебное пособие «Учет обратной связи между людьми в качественном разнообразии для диверсифицированной генерации текста в изображения». В этом руководстве представлена облегченная версия QDHF, которая запускается в Google Colab примерно за 1 час. Погрузитесь в руководство, чтобы узнать, как QDHF расширяет возможности моделей GenAI за счет разнообразных и высококачественных ответов, и примените эти идеи в своих проектах!
Чтобы установить требования, запустите:
pip install -r requirements.txt
Для каждого эксперимента мы предоставляем сценарий main.py
для его запуска. Например, чтобы запустить эксперимент с роботизированной рукой, выполните:
cd arm
python3 main.py
Замените arm
названием эксперимента, который вы хотите провести.
Если вы найдете нашу работу или какой-либо из наших материалов полезными, пожалуйста, цитируйте нашу статью:
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
Этот проект находится под лицензией MIT.
Основная структура этого кода изменена из DQD. Каждый эксперимент содержит свою собственную модифицированную версию Pyribs, библиотеки оптимизации качественного разнообразия. В эксперименте по навигации по лабиринту используется модифицированная версия Хеперакса. В эксперименте LSI используются Stable Diffusion (обнимающее лицо/диффузоры), OpenAI CLIP и DreamSim. Подтверждения финансирования раскрыты в документе.