Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
TL;DR: QDHF mejora los algoritmos QD al inferir métricas de diversidad a partir de juicios humanos de similitud, superando los métodos de última generación en el descubrimiento automático de diversidad en tareas de robótica y RL y mejorando significativamente el rendimiento en tareas generativas abiertas.
QDHF (derecha) mejora la diversidad en los resultados de generación de texto a imagen en comparación con lo mejor de N (izquierda) utilizando Difusión estable.
Hemos lanzado una demostración de Gradio sobre Hugging Face. Esta interfaz fácil de usar permite una exploración sencilla de QDHF sin ningún requisito de codificación. ¡Un agradecimiento especial a Jenny Zhang por sus contribuciones!
Hemos publicado un tutorial: Incorporación de la retroalimentación humana en la diversidad de calidad para una generación diversificada de texto a imagen, junto con el equipo de pyribs. Este tutorial presenta una versión liviana de QDHF y se ejecuta en Google Colab en aproximadamente 1 hora. ¡Sumérgete en el tutorial para explorar cómo QDHF mejora los modelos GenAI con respuestas diversificadas y de alta calidad y aplica estos conocimientos a tus proyectos!
Para instalar los requisitos, ejecute:
pip install -r requirements.txt
Para cada experimento, proporcionamos un script main.py
para ejecutar el experimento. Por ejemplo, para ejecutar el experimento del brazo robótico, ejecute:
cd arm
python3 main.py
Reemplace arm
con el nombre del experimento que desea ejecutar.
Si encuentra útil nuestro trabajo o cualquiera de nuestros materiales, cite nuestro artículo:
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
Este proyecto está bajo la Licencia MIT.
La estructura principal de este código es una modificación del DQD. Cada experimento contiene su propia versión modificada de pyribs, una biblioteca de optimización de diversidad de calidad. El experimento de navegación por el laberinto utiliza una versión modificada de Kheperax. El experimento LSI utiliza Stable Diffusion (huggingface/difusores), OpenAI CLIP y DreamSim. Los reconocimientos de financiación se divulgan en el documento.