리 딩, 제니 장, 제프 클룬, 리 스펙터, 조엘 레먼
요약: QDHF는 유사성에 대한 인간의 판단으로부터 다양성 메트릭을 추론하고, 로봇 공학 및 RL 작업의 자동 다양성 발견에서 최첨단 방법을 능가하고, 개방형 생성 작업의 성능을 크게 향상시켜 QD 알고리즘을 향상시킵니다.
QDHF(오른쪽)는 Stable Diffusion을 사용하여 Best of N(왼쪽)에 비해 텍스트-이미지 생성 결과의 다양성을 향상시킵니다.
Hugging Face의 Gradio 데모를 출시했습니다. 이 사용자 친화적인 인터페이스를 사용하면 코딩 요구 사항 없이 QDHF를 쉽게 탐색할 수 있습니다. 기여해주신 Jenny Zhang에게 특별히 감사드립니다!
우리는 pyribs 팀과 함께 다양한 텍스트-이미지 생성을 위해 인간 피드백을 품질 다양성에 통합하는 튜토리얼을 출시했습니다. 이 튜토리얼은 QDHF의 경량 버전을 특징으로 하며 Google Colab에서 최대 1시간 안에 실행됩니다. QDHF가 다양한 고품질 응답으로 GenAI 모델을 향상하는 방법을 알아보고 이러한 통찰력을 프로젝트에 적용하려면 튜토리얼을 살펴보세요!
요구사항을 설치하려면 다음을 실행하세요.
pip install -r requirements.txt
각 실험마다 실험을 실행하기 위한 main.py
스크립트를 제공합니다. 예를 들어 로봇 팔 실험을 실행하려면 다음을 실행합니다.
cd arm
python3 main.py
arm
실행하려는 실험의 이름으로 바꿉니다.
우리 작업이나 자료가 유용하다고 생각되면 우리 논문을 인용해 주세요.
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
이 프로젝트는 MIT 라이센스를 따릅니다.
이 코드의 주요 구조는 DQD에서 수정되었습니다. 각 실험에는 품질 다양성 최적화 라이브러리인 pyribs의 수정된 버전이 포함되어 있습니다. 미로 탐색 실험에서는 Kheperax의 수정된 버전을 사용합니다. LSI 실험에서는 Stable Diffusion(huggingface/diffusers), OpenAI CLIP 및 DreamSim을 사용합니다. 자금 지원 승인은 논문에 공개됩니다.