Il s'agit du référentiel officiel de l'ensemble de données de l'article de Google DreamBooth : Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation.
L'ensemble de données comprend 30 sujets de 15 classes différentes. Parmi ces sujets, 9 sont des sujets vivants (chiens et chats) et 21 sont des objets. L'ensemble de données contient un nombre variable d'images par sujet (4-6). Les images des sujets sont généralement capturées dans différentes conditions, environnements et sous différents angles.
Nous incluons un fichier dataset/prompts_and_classes.txt qui contient toutes les invites utilisées dans l'article pour les sujets et objets vivants, ainsi que le nom de classe utilisé pour les sujets.
Les images ont été capturées par les auteurs de l'article ou proviennent de www.unsplash.com
Le fichier dataset/references_and_licenses.txt contient une liste de tous les liens de référence vers les images sur www.unsplash.com - et l'attribution au photographe, ainsi que la licence de l'image.
Si vous utilisez cet ouvrage, veuillez citer :
@inproceedings{ruiz2023dreambooth,
title={Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation},
author={Ruiz, Nataniel and Li, Yuanzhen and Jampani, Varun and Pritch, Yael and Rubinstein, Michael and Aberman, Kfir},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023}
}
Il ne s'agit pas d'un produit Google officiellement pris en charge.