Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
TL;DR : QDHF améliore les algorithmes QD en déduisant des métriques de diversité à partir de jugements humains de similarité, surpassant les méthodes de pointe en matière de découverte automatique de la diversité dans les tâches de robotique et de RL et en améliorant considérablement les performances dans les tâches génératives ouvertes.
QDHF (à droite) améliore la diversité des résultats de génération texte-image par rapport au best-of-N (à gauche) en utilisant la diffusion stable.
Nous avons publié une démo Gradio sur Hugging Face. Cette interface conviviale permet une exploration sans effort de QDHF sans aucune exigence de codage. Un merci spécial à Jenny Zhang pour ses contributions !
Nous avons publié un didacticiel : Incorporer les commentaires humains dans la diversité de qualité pour une génération diversifiée de texte en image, en collaboration avec l'équipe pyribs. Ce didacticiel présente une version allégée de QDHF et s'exécute sur Google Colab en environ 1 heure. Plongez dans le didacticiel pour découvrir comment QDHF améliore les modèles GenAI avec des réponses diversifiées et de haute qualité et appliquez ces informations à vos projets !
Pour installer la configuration requise, exécutez :
pip install -r requirements.txt
Pour chaque expérience, nous fournissons un script main.py
pour exécuter l'expérience. Par exemple, pour exécuter l’expérience du bras robotique, exécutez :
cd arm
python3 main.py
Remplacez arm
par le nom de l’expérience que vous souhaitez exécuter.
Si vous trouvez notre travail ou l’un de nos documents utile, veuillez citer notre article :
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
Ce projet est sous licence MIT.
La structure principale de ce code est modifiée à partir du DQD. Chaque expérience contient sa propre version modifiée de pyribs, une bibliothèque d'optimisation de la diversité de qualité. L'expérience de navigation dans le labyrinthe utilise une version modifiée de Kheperax. L'expérience LSI utilise Stable Diffusion (huggingface/diffusers), OpenAI CLIP et DreamSim. Les remerciements pour le financement sont divulgués dans le document.