Dies ist das offizielle Repository für den Datensatz des Google-Artikels DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation.
Der Datensatz umfasst 30 Fächer aus 15 verschiedenen Klassen. 9 dieser Probanden sind lebende Probanden (Hunde und Katzen) und 21 sind Objekte. Der Datensatz enthält eine variable Anzahl von Bildern pro Motiv (4-6). Bilder der Motive werden normalerweise unter verschiedenen Bedingungen, Umgebungen und aus verschiedenen Blickwinkeln aufgenommen.
Wir fügen eine Datei dataset/prompts_and_classes.txt hinzu, die alle in der Arbeit verwendeten Eingabeaufforderungen für lebende Subjekte und Objekte sowie den für die Subjekte verwendeten Klassennamen enthält.
Die Bilder wurden entweder von den Autoren des Artikels aufgenommen oder von www.unsplash.com bezogen
Die Datei dataset/references_and_licenses.txt enthält eine Liste aller Referenzlinks zu den Bildern auf www.unsplash.com – und die Namensnennung zum Fotografen sowie die Lizenz des Bildes.
Wenn Sie dieses Werk verwenden, zitieren Sie bitte:
@inproceedings{ruiz2023dreambooth,
title={Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation},
author={Ruiz, Nataniel and Li, Yuanzhen and Jampani, Varun and Pritch, Yael and Rubinstein, Michael and Aberman, Kfir},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023}
}
Dies ist kein offiziell unterstütztes Google-Produkt.