Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
TL;DR: QDHF verbessert QD-Algorithmen, indem es Diversitätsmetriken aus menschlichen Ähnlichkeitsbeurteilungen ableitet, modernste Methoden bei der automatischen Diversitätserkennung bei Robotik- und RL-Aufgaben übertrifft und die Leistung bei generativen Aufgaben mit offenem Ende erheblich verbessert.
QDHF (rechts) verbessert die Vielfalt der Ergebnisse der Text-zu-Bild-Generierung im Vergleich zu Best-of-N (links) mit stabiler Diffusion.
Wir haben eine Gradio-Demo auf Hugging Face veröffentlicht. Diese benutzerfreundliche Oberfläche ermöglicht die mühelose Erkundung von QDHF ohne Programmieraufwand. Besonderer Dank geht an Jenny Zhang für ihre Beiträge!
Gemeinsam mit dem pyribs-Team haben wir ein Tutorial veröffentlicht: „Incorporating Human Feedback into Quality Diversity for Diversified Text-to-Image Generation“. Dieses Tutorial enthält eine vereinfachte Version von QDHF und läuft in etwa einer Stunde auf Google Colab. Tauchen Sie in das Tutorial ein, um zu erfahren, wie QDHF GenAI-Modelle mit vielfältigen, qualitativ hochwertigen Antworten erweitert, und wenden Sie diese Erkenntnisse auf Ihre Projekte an!
Um die Anforderungen zu installieren, führen Sie Folgendes aus:
pip install -r requirements.txt
Für jedes Experiment stellen wir ein main.py
-Skript zur Verfügung, um das Experiment auszuführen. Um beispielsweise das Roboterarm-Experiment durchzuführen, führen Sie Folgendes aus:
cd arm
python3 main.py
Ersetzen Sie arm
durch den Namen des Experiments, das Sie ausführen möchten.
Wenn Sie unsere Arbeit oder eines unserer Materialien nützlich finden, zitieren Sie bitte unseren Artikel:
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
Dieses Projekt steht unter der MIT-Lizenz.
Die Hauptstruktur dieses Codes wurde gegenüber dem DQD geändert. Jedes Experiment enthält eine eigene modifizierte Version von pyribs, einer Bibliothek zur Optimierung der Qualitätsdiversität. Das Labyrinth-Navigationsexperiment verwendet eine modifizierte Version von Kheperax. Das LSI-Experiment verwendet Stable Diffusion (Huggingface/Diffusoren), OpenAI CLIP und DreamSim. Die Danksagungen für die Finanzierung werden in der Arbeit offengelegt.