リー・ディン、ジェニー・チャン、ジェフ・クルーン、リー・スペクター、ジョエル・リーマン
TL;DR: QDHF は、人間による類似性の判断から多様性メトリクスを推測することで QD アルゴリズムを強化し、ロボット工学および RL タスクにおける自動多様性発見において最先端の手法を上回り、オープンエンド生成タスクのパフォーマンスを大幅に向上させます。
QDHF (右) は、安定拡散を使用した Best-of-N (左) と比較して、テキストから画像への生成結果の多様性を向上させます。
Hugging FaceのGradioデモを公開しました。このユーザーフレンドリーなインターフェイスにより、コーディングを必要とせずに QDHF を簡単に探索できます。 Jenny Zhang の貢献に心より感謝いたします。
私たちは pyribs チームと協力して、チュートリアル「人間のフィードバックを品質の多様性に組み込み、多様なテキストから画像への生成を実現する」をリリースしました。このチュートリアルには QDHF の軽量バージョンが含まれており、Google Colab 上で約 1 時間で実行できます。チュートリアルに進んで、QDHF が多様で高品質な応答で GenAI モデルをどのように強化するかを探索し、これらの洞察をプロジェクトに適用してください。
要件をインストールするには、次を実行します。
pip install -r requirements.txt
実験ごとに、実験を実行するためのmain.py
スクリプトが提供されます。たとえば、ロボット アームの実験を実行するには、次を実行します。
cd arm
python3 main.py
arm
実行する実験の名前に置き換えます。
私たちの研究や資料が役立つと思われる場合は、私たちの論文を引用してください。
@inproceedings{
ding2024quality,
title={Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization},
author={Li Ding and Jenny Zhang and Jeff Clune and Lee Spector and Joel Lehman},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=9zlZuAAb08}
}
このプロジェクトは MIT ライセンスの下にあります。
このコードの主な構造は DQD から変更されています。各実験には、品質多様性最適化ライブラリである pyribs の独自の修正バージョンが含まれています。迷路ナビゲーションの実験では、Kheperax の修正バージョンを使用します。 LSI 実験では、Stable Diffusion (ハグフェイス/ディフューザー)、OpenAI CLIP、DreamSim を使用します。資金提供の謝辞は論文で開示されます。