Este es el depósito oficial del conjunto de datos del artículo de Google DreamBooth: ajuste fino de modelos de difusión de texto a imagen para una generación basada en temas.
El conjunto de datos incluye 30 sujetos de 15 clases diferentes. De estos sujetos, 9 son sujetos vivos (perros y gatos) y 21 son objetos. El conjunto de datos contiene un número variable de imágenes por sujeto (4-6). Las imágenes de los sujetos suelen capturarse en diferentes condiciones, entornos y desde diferentes ángulos.
Incluimos un archivo dataset/prompts_and_classes.txt que contiene todas las indicaciones utilizadas en el artículo para sujetos y objetos vivos, así como el nombre de la clase utilizada para los sujetos.
Las imágenes han sido capturadas por los autores del artículo o obtenidas de www.unsplash.com.
El archivo dataset/references_and_licenses.txt contiene una lista de todos los enlaces de referencia a las imágenes en www.unsplash.com y la atribución al fotógrafo, junto con la licencia de la imagen.
Si utiliza este trabajo por favor cite:
@inproceedings{ruiz2023dreambooth,
title={Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation},
author={Ruiz, Nataniel and Li, Yuanzhen and Jampani, Varun and Pritch, Yael and Rubinstein, Michael and Aberman, Kfir},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023}
}
Este no es un producto de Google con soporte oficial.