Flickr-Faces-HQ (FFHQ) es un conjunto de datos de imágenes de alta calidad de rostros humanos, creado originalmente como punto de referencia para redes generativas adversarias (GAN):
Una arquitectura generadora basada en estilos para redes generativas adversarias
Tero Karras (NVIDIA), Samuli Laine (NVIDIA), Timo Aila (NVIDIA)
https://arxiv.org/abs/1812.04948
El conjunto de datos consta de 70.000 imágenes PNG de alta calidad con una resolución de 1024 × 1024 y contiene una variación considerable en términos de edad, origen étnico y fondo de la imagen. También tiene una buena cobertura de accesorios como anteojos, gafas de sol, sombreros, etc. Las imágenes fueron rastreadas desde Flickr, heredando así todos los sesgos de ese sitio web, y alineadas y recortadas automáticamente usando dlib. Sólo se recopilaron imágenes bajo licencias permisivas. Se utilizaron varios filtros automáticos para podar el conjunto, y finalmente se utilizó Amazon Mechanical Turk para eliminar alguna que otra estatua, pintura o fotografía de fotografías.
Tenga en cuenta que este conjunto de datos no está destinado ni debe utilizarse para el desarrollo o la mejora de tecnologías de reconocimiento facial. Para consultas comerciales, visite nuestro sitio web y envíe el formulario: Licencia de investigación de NVIDIA
Las imágenes individuales fueron publicadas en Flickr por sus respectivos autores bajo Creative Commons BY 2.0, Creative Commons BY-NC 2.0, Public Domain Mark 1.0, Public Domain CC0 1.0 o licencia de obras del gobierno de EE. UU. Todas estas licencias permiten el uso, la redistribución y la adaptación gratuitos para fines no comerciales . Sin embargo, algunos de ellos requieren dar el crédito apropiado al autor original, así como indicar cualquier cambio que se haya realizado en las imágenes. La licencia y el autor original de cada imagen se indican en los metadatos.
El conjunto de datos en sí (incluidos los metadatos JSON, el script de descarga y la documentación) está disponible bajo la licencia Creative Commons BY-NC-SA 4.0 de NVIDIA Corporation. Puede usarlo, redistribuirlo y adaptarlo para fines no comerciales , siempre y cuando (a) dé el crédito apropiado citando nuestro artículo , (b) indique cualquier cambio que haya realizado y (c) distribuya cualquier trabajo derivado. bajo la misma licencia .
Todos los datos están alojados en Google Drive:
Camino | Tamaño | Archivos | Formato | Descripción |
---|---|---|---|---|
conjunto de datos ffhq | 2,56 TB | 210.014 | Carpeta principal | |
├ ffhq-dataset-v2.json | 255 megas | 1 | JSON | Metadatos que incluyen información de derechos de autor, URL, etc. |
├ imágenes1024x1024 | 89,1GB | 70.000 | PNG | Imágenes alineadas y recortadas a 1024×1024 |
├ miniaturas128x128 | 1,95GB | 70.000 | PNG | Miniaturas a 128×128 |
├ imágenes-en-la-naturaleza | 955GB | 70.000 | PNG | Imágenes originales de Flickr. |
├ tfrecords | 273GB | 9 | tfrecords | Datos de resolución múltiple para StyleGAN y StyleGAN2 |
└ cremalleras | 1,28 TB | 4 | CREMALLERA | Contenido de cada carpeta como un archivo ZIP. |
Estadísticas de alto nivel:
Para casos de uso que requieren conjuntos de capacitación y validación separados, hemos designado las primeras 60 000 imágenes para usarlas para capacitación y las 10 000 restantes para validación. Sin embargo, en el artículo de StyleGAN utilizamos las 70.000 imágenes para el entrenamiento.
Nos hemos asegurado explícitamente de que no haya imágenes duplicadas en el conjunto de datos. Sin embargo, tenga en cuenta que la carpeta in-the-wild
puede contener varias copias de la misma imagen en los casos en que extrajimos varias caras diferentes de la misma imagen.
Puede obtener los datos directamente desde Google Drive o utilizar el script de descarga proporcionado. El script facilita considerablemente las cosas al descargar automáticamente todos los archivos solicitados, verificar sus sumas de verificación, volver a intentar cada archivo varias veces en caso de error y emplear múltiples conexiones simultáneas para maximizar el ancho de banda.
> python download_ffhq.py -h
usage: download_ffhq.py [-h] [-j] [-s] [-i] [-t] [-w] [-r] [-a]
[--num_threads NUM] [--status_delay SEC]
[--timing_window LEN] [--chunk_size KB]
[--num_attempts NUM]
Download Flickr-Face-HQ (FFHQ) dataset to current working directory.
optional arguments:
-h, --help show this help message and exit
-j, --json download metadata as JSON (254 MB)
-s, --stats print statistics about the dataset
-i, --images download 1024x1024 images as PNG (89.1 GB)
-t, --thumbs download 128x128 thumbnails as PNG (1.95 GB)
-w, --wilds download in-the-wild images as PNG (955 GB)
-r, --tfrecords download multi-resolution TFRecords (273 GB)
-a, --align recreate 1024x1024 images from in-the-wild images
--num_threads NUM number of concurrent download threads (default: 32)
--status_delay SEC time between download status prints (default: 0.2)
--timing_window LEN samples for estimating download eta (default: 50)
--chunk_size KB chunk size for each download thread (default: 128)
--num_attempts NUM number of download attempts per file (default: 10)
--random-shift SHIFT standard deviation of random crop rectangle jitter
--retry-crops retry random shift if crop rectangle falls outside image (up to 1000
times)
--no-rotation keep the original orientation of images
--no-padding do not apply blur-padding outside and near the image borders
--source-dir DIR where to find already downloaded FFHQ source data
> python ..download_ffhq.py --json --images
Downloading JSON metadata...
100.00% done 2/2 files 0.25/0.25 GB 43.21 MB/s ETA: done
Parsing JSON metadata...
Downloading 70000 files...
| 100.00% done 70001/70001 files 89.19 GB/89.19 GB 59.87 MB/s ETA: done
El script también sirve como implementación de referencia del esquema automatizado que utilizamos para alinear y recortar las imágenes. Una vez que haya descargado las imágenes salvajes con python download_ffhq.py --wilds
, puede ejecutar python download_ffhq.py --align
para reproducir réplicas exactas de las imágenes alineadas de 1024 × 1024 utilizando las ubicaciones de puntos de referencia faciales incluidas en los metadatos. .
Para reproducir el conjunto de datos "FFHQ no alineado" tal como se utiliza en el documento Alias-Free Generative Adversarial Networks, utilice las siguientes opciones:
python download_ffhq.py
--source-dir <path/to/downloaded/ffhq>
--align --no-rotation --random-shift 0.2 --no-padding --retry-crops
El archivo ffhq-dataset-v2.json
contiene la siguiente información para cada imagen en un formato legible por máquina:
{
"0": { # Image index
"category": "training", # Training or validation
"metadata": { # Info about the original Flickr photo:
"photo_url": "https://www.flickr.com/photos/...", # - Flickr URL
"photo_title": "DSCF0899.JPG", # - File name
"author": "Jeremy Frumkin", # - Author
"country": "", # - Country where the photo was taken
"license": "Attribution-NonCommercial License", # - License name
"license_url": "https://creativecommons.org/...", # - License detail URL
"date_uploaded": "2007-08-16", # - Date when the photo was uploaded to Flickr
"date_crawled": "2018-10-10" # - Date when the photo was crawled from Flickr
},
"image": { # Info about the aligned 1024x1024 image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "images1024x1024/00000/00000.png", # - Google Drive path
"file_size": 1488194, # - Size of the PNG file in bytes
"file_md5": "ddeaeea6ce59569643715759d537fd1b", # - MD5 checksum of the PNG file
"pixel_size": [1024, 1024], # - Image dimensions
"pixel_md5": "47238b44dfb87644460cbdcc4607e289", # - MD5 checksum of the raw pixel data
"face_landmarks": [...] # - 68 face landmarks reported by dlib
},
"thumbnail": { # Info about the 128x128 thumbnail:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "thumbnails128x128/00000/00000.png", # - Google Drive path
"file_size": 29050, # - Size of the PNG file in bytes
"file_md5": "bd3e40b2ba20f76b55dc282907b89cd1", # - MD5 checksum of the PNG file
"pixel_size": [128, 128], # - Image dimensions
"pixel_md5": "38d7e93eb9a796d0e65f8c64de8ba161" # - MD5 checksum of the raw pixel data
},
"in_the_wild": { # Info about the in-the-wild image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "in-the-wild-images/00000/00000.png", # - Google Drive path
"file_size": 3991569, # - Size of the PNG file in bytes
"file_md5": "1dc0287e73e485efb0516a80ce9d42b4", # - MD5 checksum of the PNG file
"pixel_size": [2016, 1512], # - Image dimensions
"pixel_md5": "86b3470c42e33235d76b979161fb2327", # - MD5 checksum of the raw pixel data
"face_rect": [667, 410, 1438, 1181], # - Axis-aligned rectangle of the face region
"face_landmarks": [...], # - 68 face landmarks reported by dlib
"face_quad": [...] # - Aligned quad of the face region
}
},
...
}
Agradecemos a Jaakko Lehtinen, David Luebke y Tuomas Kynkäänniemi por sus discusiones en profundidad y sus útiles comentarios; Janne Hellsten, Tero Kuosmanen y Pekka Jänis por la infraestructura informática y la ayuda con la publicación del código.
También agradecemos a Vahid Kazemi y Josephine Sullivan por su trabajo en la detección y alineación automática de rostros que nos permitió recopilar los datos en primer lugar:
Alineación de caras en un milisegundo con un conjunto de árboles de regresión
Vahid Kazemi, Josephine Sullivan
Proc. CVPR 2014
https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Kazemi_One_Millisegundo_Face_2014_CVPR_paper.pdf
Al recopilar los datos, tuvimos cuidado de incluir únicamente fotografías que, hasta donde sabíamos, estaban destinadas a su uso y redistribución gratuitos por parte de sus respectivos autores. Dicho esto, estamos comprometidos a proteger la privacidad de las personas que no desean que se incluyan sus fotografías.
Para saber si su foto está incluida en el conjunto de datos de Flickr-Faces-HQ, haga clic en este enlace para buscar en el conjunto de datos con su nombre de usuario de Flickr.
Para eliminar su foto del conjunto de datos de Flickr-Faces-HQ:
no_cv
para indicar que no desea que se utilice para investigaciones de visión por computadora.None
(Todos los derechos reservados) o cualquier licencia Creative Commons con NoDerivs
para indicar que no desea que se redistribuya.