Flickr-Faces-HQ (FFHQ) 是一個高品質的人臉影像資料集,最初是作為生成對抗網路 (GAN) 的基準創建的:
用於生成對抗網路的基於樣式的生成器架構
Tero Karras (NVIDIA)、Samuli Laine (NVIDIA)、Timo Aila (NVIDIA)
https://arxiv.org/abs/1812.04948
該資料集由 70,000 張解析度為 1024×1024 的高品質 PNG 影像組成,並且在年齡、種族和影像背景方麵包含相當大的差異。它還對眼鏡、太陽眼鏡、帽子等配件有很好的覆蓋。僅收集經過許可的圖像。使用各種自動濾鏡來修剪場景,最後使用 Amazon Mechanical Turk 刪除偶爾出現的雕像、繪畫或照片。
請注意,該資料集並非旨在也不應用於開發或改進臉部辨識技術。如需業務諮詢,請造訪我們的網站並提交表格:NVIDIA 研究許可
各個圖像由各自的作者根據 Creative Commons BY 2.0、Creative Commons BY-NC 2.0、Public Domain Mark 1.0、Public Domain CC0 1.0 或 US Government Works 許可在 Flickr 上發布。所有這些許可證都允許出於非商業目的免費使用、重新分發和改編。然而,其中一些要求對原作者給予適當的認可,並註明對圖像所做的任何更改。每個圖像的許可和原始作者都在元資料中標明。
資料集本身(包括 JSON 元資料、下載腳本和文件)由 NVIDIA Corporation 根據 Creative Commons BY-NC-SA 4.0 授權提供。您可以出於非商業目的使用、重新分發和改編它,只要您 (a) 通過引用我們的論文給予適當的認可,(b)表明您所做的任何更改,以及 (c) 分發任何衍生作品在同一許可證下。
所有資料都託管在 Google Drive 上:
小路 | 尺寸 | 文件 | 格式 | 描述 |
---|---|---|---|---|
ffhq-資料集 | 2.56TB | 210,014 | 主資料夾 | |
├ ffhq-資料集-v2.json | 255MB | 1 | JSON | 元資料包括版權資訊、URL 等。 |
├ 圖片1024x1024 | 89.1GB | 70,000 | 巴布亞紐幾內亞 | 1024×1024 對齊和裁剪的圖像 |
├ 縮圖128x128 | 1.95GB | 70,000 | 巴布亞紐幾內亞 | 縮圖為 128×128 |
├ 野外影像 | 955GB | 70,000 | 巴布亞紐幾內亞 | 原始圖片來自 Flickr |
├ tf記錄 | 273GB | 9 | tf記錄 | StyleGAN 和 StyleGAN2 的多解析度數據 |
└ 拉鍊 | 1.28TB | 4 | 拉鍊 | 每個資料夾的內容作為 ZIP 存檔。 |
進階統計數據:
對於需要單獨訓練和驗證集的用例,我們指定前 60,000 個圖像用於訓練,其餘 10,000 個圖像用於驗證。然而,在 StyleGAN 論文中,我們使用了全部 70,000 張圖像進行訓練。
我們已明確確保資料集本身不存在重複的圖像。但是,請注意,如果我們從同一影像中提取多個不同的臉部,則in-the-wild
資料夾可能包含相同影像的多個副本。
您可以直接從 Google Drive 取得數據,也可以使用提供的下載腳本。該腳本透過自動下載所有請求的文件、驗證其校驗和、在錯誤時重試每個文件多次以及採用多個並發連接來最大化頻寬,使事情變得更加容易。
> python download_ffhq.py -h
usage: download_ffhq.py [-h] [-j] [-s] [-i] [-t] [-w] [-r] [-a]
[--num_threads NUM] [--status_delay SEC]
[--timing_window LEN] [--chunk_size KB]
[--num_attempts NUM]
Download Flickr-Face-HQ (FFHQ) dataset to current working directory.
optional arguments:
-h, --help show this help message and exit
-j, --json download metadata as JSON (254 MB)
-s, --stats print statistics about the dataset
-i, --images download 1024x1024 images as PNG (89.1 GB)
-t, --thumbs download 128x128 thumbnails as PNG (1.95 GB)
-w, --wilds download in-the-wild images as PNG (955 GB)
-r, --tfrecords download multi-resolution TFRecords (273 GB)
-a, --align recreate 1024x1024 images from in-the-wild images
--num_threads NUM number of concurrent download threads (default: 32)
--status_delay SEC time between download status prints (default: 0.2)
--timing_window LEN samples for estimating download eta (default: 50)
--chunk_size KB chunk size for each download thread (default: 128)
--num_attempts NUM number of download attempts per file (default: 10)
--random-shift SHIFT standard deviation of random crop rectangle jitter
--retry-crops retry random shift if crop rectangle falls outside image (up to 1000
times)
--no-rotation keep the original orientation of images
--no-padding do not apply blur-padding outside and near the image borders
--source-dir DIR where to find already downloaded FFHQ source data
> python ..download_ffhq.py --json --images
Downloading JSON metadata...
100.00% done 2/2 files 0.25/0.25 GB 43.21 MB/s ETA: done
Parsing JSON metadata...
Downloading 70000 files...
| 100.00% done 70001/70001 files 89.19 GB/89.19 GB 59.87 MB/s ETA: done
該腳本也用作我們用來對齊和裁剪圖像的自動化方案的參考實現。使用python download_ffhq.py --wilds
下載野外影像後,您可以執行python download_ffhq.py --align
以使用元資料中包含的臉部標誌位置來重現對齊的 1024×1024 影像的精確副本。
若要重現 Alias-Free Generative Adversarial Networks 論文中使用的「未對齊的 FFHQ」資料集,請使用以下選項:
python download_ffhq.py
--source-dir <path/to/downloaded/ffhq>
--align --no-rotation --random-shift 0.2 --no-padding --retry-crops
ffhq-dataset-v2.json
檔案以機器可讀的格式包含每個影像的以下資訊:
{
"0": { # Image index
"category": "training", # Training or validation
"metadata": { # Info about the original Flickr photo:
"photo_url": "https://www.flickr.com/photos/...", # - Flickr URL
"photo_title": "DSCF0899.JPG", # - File name
"author": "Jeremy Frumkin", # - Author
"country": "", # - Country where the photo was taken
"license": "Attribution-NonCommercial License", # - License name
"license_url": "https://creativecommons.org/...", # - License detail URL
"date_uploaded": "2007-08-16", # - Date when the photo was uploaded to Flickr
"date_crawled": "2018-10-10" # - Date when the photo was crawled from Flickr
},
"image": { # Info about the aligned 1024x1024 image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "images1024x1024/00000/00000.png", # - Google Drive path
"file_size": 1488194, # - Size of the PNG file in bytes
"file_md5": "ddeaeea6ce59569643715759d537fd1b", # - MD5 checksum of the PNG file
"pixel_size": [1024, 1024], # - Image dimensions
"pixel_md5": "47238b44dfb87644460cbdcc4607e289", # - MD5 checksum of the raw pixel data
"face_landmarks": [...] # - 68 face landmarks reported by dlib
},
"thumbnail": { # Info about the 128x128 thumbnail:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "thumbnails128x128/00000/00000.png", # - Google Drive path
"file_size": 29050, # - Size of the PNG file in bytes
"file_md5": "bd3e40b2ba20f76b55dc282907b89cd1", # - MD5 checksum of the PNG file
"pixel_size": [128, 128], # - Image dimensions
"pixel_md5": "38d7e93eb9a796d0e65f8c64de8ba161" # - MD5 checksum of the raw pixel data
},
"in_the_wild": { # Info about the in-the-wild image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "in-the-wild-images/00000/00000.png", # - Google Drive path
"file_size": 3991569, # - Size of the PNG file in bytes
"file_md5": "1dc0287e73e485efb0516a80ce9d42b4", # - MD5 checksum of the PNG file
"pixel_size": [2016, 1512], # - Image dimensions
"pixel_md5": "86b3470c42e33235d76b979161fb2327", # - MD5 checksum of the raw pixel data
"face_rect": [667, 410, 1438, 1181], # - Axis-aligned rectangle of the face region
"face_landmarks": [...], # - 68 face landmarks reported by dlib
"face_quad": [...] # - Aligned quad of the face region
}
},
...
}
我們感謝 Jaakko Lehtinen、David Luebke 和 Tuomas Kynkäänniemi 的深入討論和有益的評論; Janne Hellsten、Tero Kuosmanen 和 Pekka Jänis 負責計算基礎設施並協助發布程式碼。
我們也感謝 Vahid Kazemi 和 Josephine Sullivan 在自動人臉偵測和對齊方面所做的工作,使我們能夠首先收集數據:
使用回歸樹集合進行一毫秒人臉對齊
瓦希德·卡澤米,約瑟芬·沙利文
過程。 2014年CVPR
https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Kazemi_One_Millisecond_Face_2014_CVPR_paper.pdf
在收集資料時,我們小心翼翼地僅包含據我們所知的旨在由各自作者免費使用和重新分發的照片。也就是說,我們致力於保護那些不希望自己的照片被包含在內的個人的隱私。
若要了解您的照片是否包含在 Flickr-Faces-HQ 資料集中,請按一下此連結以使用您的 Flickr 使用者名稱搜尋資料集。
若要從 Flickr-Faces-HQ 資料集中刪除您的照片:
no_cv
標記照片以表明您不希望將其用於電腦視覺研究。None
(保留所有權利)或任何具有NoDerivs
的知識共享許可證,以表明您不希望重新分發它。