Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
DR: QDHF aprimora algoritmos QD inferindo métricas de diversidade a partir de julgamentos humanos de similaridade, superando métodos de última geração na descoberta automática de diversidade em tarefas de robótica e RL e melhorando significativamente o desempenho em tarefas generativas abertas.
QDHF (direita) melhora a diversidade nos resultados de geração de texto para imagem em comparação com o melhor de N (esquerda) usando Difusão Estável.
Lançamos uma demonstração Gradio em Hugging Face. Esta interface amigável permite a exploração fácil de QDHF, sem quaisquer requisitos de codificação. Agradecimentos especiais a Jenny Zhang por suas contribuições!
Lançamos um tutorial: Incorporando Feedback Humano na Diversidade de Qualidade para Geração Diversificada de Texto para Imagem, junto com a equipe pyribs. Este tutorial apresenta uma versão leve do QDHF e é executado no Google Colab em aproximadamente 1 hora. Mergulhe no tutorial para explorar como o QDHF aprimora os modelos GenAI com respostas diversificadas e de alta qualidade e aplique esses insights aos seus projetos!
Para instalar os requisitos, execute:
pip install -r requirements.txt
Para cada experimento, fornecemos um script main.py
para executar o experimento. Por exemplo, para executar o experimento do braço robótico, execute:
cd arm
python3 main.py
Substitua arm
pelo nome do experimento que você deseja executar.
Se você achar nosso trabalho ou algum de nossos materiais útil, cite nosso artigo:
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
Este projeto está sob a licença do MIT.
A estrutura principal deste código é modificada no DQD. Cada experimento contém sua própria versão modificada do pyribs, uma biblioteca de otimização de diversidade de qualidade. O experimento de navegação no labirinto usa uma versão modificada do Kheperax. O experimento LSI usa difusão estável (huggingface/difusores), OpenAI CLIP e DreamSim. Os reconhecimentos de financiamento são divulgados no artigo.