Flickr-Faces-HQ (FFHQ) adalah kumpulan data gambar wajah manusia berkualitas tinggi, awalnya dibuat sebagai tolok ukur untuk jaringan permusuhan generatif (GAN):
Arsitektur Generator Berbasis Gaya untuk Jaringan Adversarial Generatif
Tero Karras (NVIDIA), Samuli Laine (NVIDIA), Timo Aila (NVIDIA)
https://arxiv.org/abs/1812.04948
Kumpulan data tersebut terdiri dari 70.000 gambar PNG berkualitas tinggi dengan resolusi 1024×1024 dan berisi banyak variasi dalam hal usia, etnis, dan latar belakang gambar. Ini juga memiliki cakupan aksesori yang bagus seperti kacamata, kacamata hitam, topi, dll. Gambar-gambar tersebut dirayapi dari Flickr, sehingga mewarisi semua bias situs web tersebut, dan secara otomatis diselaraskan dan dipotong menggunakan dlib. Hanya gambar di bawah lisensi permisif yang dikumpulkan. Berbagai filter otomatis digunakan untuk memangkas set, dan akhirnya Amazon Mechanical Turk digunakan untuk menghapus patung, lukisan, atau foto foto sesekali.
Harap diperhatikan bahwa kumpulan data ini tidak dimaksudkan untuk, dan tidak boleh digunakan untuk, pengembangan atau peningkatan teknologi pengenalan wajah. Untuk pertanyaan bisnis, silakan kunjungi situs web kami dan kirimkan formulir: Lisensi Penelitian NVIDIA
Masing-masing gambar diterbitkan di Flickr oleh penulisnya masing-masing di bawah lisensi Creative Commons BY 2.0, Creative Commons BY-NC 2.0, Public Domain Mark 1.0, Public Domain CC0 1.0, atau US Government Works. Semua lisensi ini mengizinkan penggunaan, pendistribusian ulang, dan adaptasi secara gratis untuk tujuan non-komersial . Namun, beberapa di antaranya memerlukan pemberian kredit yang pantas kepada penulis aslinya, serta menunjukkan perubahan apa pun yang dilakukan pada gambar tersebut. Lisensi dan penulis asli setiap gambar ditunjukkan dalam metadata.
Kumpulan data itu sendiri (termasuk metadata JSON, skrip unduhan, dan dokumentasi) tersedia di bawah lisensi Creative Commons BY-NC-SA 4.0 oleh NVIDIA Corporation. Anda dapat menggunakan, mendistribusikan ulang, dan mengadaptasinya untuk tujuan non-komersial , selama Anda (a) memberikan kredit yang sesuai dengan mengutip makalah kami , (b) menunjukkan perubahan apa pun yang telah Anda buat, dan (c) mendistribusikan karya turunan apa pun di bawah lisensi yang sama .
Semua data dihosting di Google Drive:
Jalur | Ukuran | File | Format | Keterangan |
---|---|---|---|---|
kumpulan data ffhq | 2,56 TB | 210.014 | Folder utama | |
├ ffhq-dataset-v2.json | 255 MB | 1 | JSON | Metadata termasuk info hak cipta, URL, dll. |
├ gambar 1024x1024 | 89,1 GB | 70.000 | PNG | Gambar disejajarkan dan dipotong pada 1024×1024 |
├ thumbnail128x128 | 1,95 GB | 70.000 | PNG | Gambar mini berukuran 128×128 |
├ gambar di alam liar | 955 GB | 70.000 | PNG | Gambar asli dari Flickr |
├ rekaman | 273 GB | 9 | rekaman | Data multi-resolusi untuk StyleGAN dan StyleGAN2 |
└ ritsleting | 1,28 TB | 4 | RITSLETING | Isi setiap folder sebagai arsip ZIP. |
Statistik tingkat tinggi:
Untuk kasus penggunaan yang memerlukan set pelatihan dan validasi terpisah, kami telah menetapkan 60.000 gambar pertama untuk digunakan untuk pelatihan dan 10.000 sisanya untuk validasi. Namun, dalam makalah StyleGAN, kami menggunakan 70.000 gambar untuk pelatihan.
Kami telah secara eksplisit memastikan bahwa tidak ada gambar duplikat dalam kumpulan data itu sendiri. Namun, perlu diingat bahwa folder in-the-wild
mungkin berisi banyak salinan dari gambar yang sama jika kami mengekstrak beberapa wajah berbeda dari gambar yang sama.
Anda dapat mengambil data langsung dari Google Drive atau menggunakan skrip unduhan yang disediakan. Skrip membuat segalanya lebih mudah dengan secara otomatis mengunduh semua file yang diminta, memverifikasi checksumnya, mencoba ulang setiap file beberapa kali jika ada kesalahan, dan menggunakan beberapa koneksi bersamaan untuk memaksimalkan bandwidth.
> python download_ffhq.py -h
usage: download_ffhq.py [-h] [-j] [-s] [-i] [-t] [-w] [-r] [-a]
[--num_threads NUM] [--status_delay SEC]
[--timing_window LEN] [--chunk_size KB]
[--num_attempts NUM]
Download Flickr-Face-HQ (FFHQ) dataset to current working directory.
optional arguments:
-h, --help show this help message and exit
-j, --json download metadata as JSON (254 MB)
-s, --stats print statistics about the dataset
-i, --images download 1024x1024 images as PNG (89.1 GB)
-t, --thumbs download 128x128 thumbnails as PNG (1.95 GB)
-w, --wilds download in-the-wild images as PNG (955 GB)
-r, --tfrecords download multi-resolution TFRecords (273 GB)
-a, --align recreate 1024x1024 images from in-the-wild images
--num_threads NUM number of concurrent download threads (default: 32)
--status_delay SEC time between download status prints (default: 0.2)
--timing_window LEN samples for estimating download eta (default: 50)
--chunk_size KB chunk size for each download thread (default: 128)
--num_attempts NUM number of download attempts per file (default: 10)
--random-shift SHIFT standard deviation of random crop rectangle jitter
--retry-crops retry random shift if crop rectangle falls outside image (up to 1000
times)
--no-rotation keep the original orientation of images
--no-padding do not apply blur-padding outside and near the image borders
--source-dir DIR where to find already downloaded FFHQ source data
> python ..download_ffhq.py --json --images
Downloading JSON metadata...
100.00% done 2/2 files 0.25/0.25 GB 43.21 MB/s ETA: done
Parsing JSON metadata...
Downloading 70000 files...
| 100.00% done 70001/70001 files 89.19 GB/89.19 GB 59.87 MB/s ETA: done
Skrip ini juga berfungsi sebagai referensi implementasi skema otomatis yang kami gunakan untuk menyelaraskan dan memotong gambar. Setelah Anda mengunduh gambar alam liar dengan python download_ffhq.py --wilds
, Anda dapat menjalankan python download_ffhq.py --align
untuk mereproduksi replika persis gambar 1024×1024 yang disejajarkan menggunakan lokasi landmark wajah yang disertakan dalam metadata .
Untuk mereproduksi kumpulan data "FFHQ yang tidak selaras" seperti yang digunakan dalam makalah Jaringan Adversarial Generatif Bebas Alias, gunakan opsi berikut:
python download_ffhq.py
--source-dir <path/to/downloaded/ffhq>
--align --no-rotation --random-shift 0.2 --no-padding --retry-crops
File ffhq-dataset-v2.json
berisi informasi berikut untuk setiap gambar dalam format yang dapat dibaca mesin:
{
"0": { # Image index
"category": "training", # Training or validation
"metadata": { # Info about the original Flickr photo:
"photo_url": "https://www.flickr.com/photos/...", # - Flickr URL
"photo_title": "DSCF0899.JPG", # - File name
"author": "Jeremy Frumkin", # - Author
"country": "", # - Country where the photo was taken
"license": "Attribution-NonCommercial License", # - License name
"license_url": "https://creativecommons.org/...", # - License detail URL
"date_uploaded": "2007-08-16", # - Date when the photo was uploaded to Flickr
"date_crawled": "2018-10-10" # - Date when the photo was crawled from Flickr
},
"image": { # Info about the aligned 1024x1024 image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "images1024x1024/00000/00000.png", # - Google Drive path
"file_size": 1488194, # - Size of the PNG file in bytes
"file_md5": "ddeaeea6ce59569643715759d537fd1b", # - MD5 checksum of the PNG file
"pixel_size": [1024, 1024], # - Image dimensions
"pixel_md5": "47238b44dfb87644460cbdcc4607e289", # - MD5 checksum of the raw pixel data
"face_landmarks": [...] # - 68 face landmarks reported by dlib
},
"thumbnail": { # Info about the 128x128 thumbnail:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "thumbnails128x128/00000/00000.png", # - Google Drive path
"file_size": 29050, # - Size of the PNG file in bytes
"file_md5": "bd3e40b2ba20f76b55dc282907b89cd1", # - MD5 checksum of the PNG file
"pixel_size": [128, 128], # - Image dimensions
"pixel_md5": "38d7e93eb9a796d0e65f8c64de8ba161" # - MD5 checksum of the raw pixel data
},
"in_the_wild": { # Info about the in-the-wild image:
"file_url": "https://drive.google.com/...", # - Google Drive URL
"file_path": "in-the-wild-images/00000/00000.png", # - Google Drive path
"file_size": 3991569, # - Size of the PNG file in bytes
"file_md5": "1dc0287e73e485efb0516a80ce9d42b4", # - MD5 checksum of the PNG file
"pixel_size": [2016, 1512], # - Image dimensions
"pixel_md5": "86b3470c42e33235d76b979161fb2327", # - MD5 checksum of the raw pixel data
"face_rect": [667, 410, 1438, 1181], # - Axis-aligned rectangle of the face region
"face_landmarks": [...], # - 68 face landmarks reported by dlib
"face_quad": [...] # - Aligned quad of the face region
}
},
...
}
Kami berterima kasih kepada Jaakko Lehtinen, David Luebke, dan Tuomas Kynkäänniemi atas diskusi mendalam dan komentar bermanfaat; Janne Hellsten, Tero Kuosmanen, dan Pekka Jänis untuk infrastruktur komputasi dan bantuan dalam rilis kode.
Kami juga berterima kasih kepada Vahid Kazemi dan Josephine Sullivan atas upaya mereka dalam deteksi dan penyelarasan wajah otomatis yang memungkinkan kami mengumpulkan data sejak awal:
Penyelarasan Wajah Satu Milidetik dengan Kumpulan Pohon Regresi
Vahid Kazemi, Josephine Sullivan
Proses. CVPR 2014
https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Kazemi_One_Millisecond_Face_2014_CVPR_paper.pdf
Saat mengumpulkan data, kami berhati-hati untuk hanya menyertakan foto yang – sepanjang pengetahuan kami – dimaksudkan untuk digunakan secara gratis dan didistribusikan ulang oleh penulisnya masing-masing. Oleh karena itu, kami berkomitmen untuk melindungi privasi individu yang tidak ingin fotonya dicantumkan.
Untuk mengetahui apakah foto Anda termasuk dalam dataset Flickr-Faces-HQ, silakan klik tautan ini untuk mencari dataset dengan nama pengguna Flickr Anda.
Untuk menghapus foto Anda dari kumpulan data Flickr-Faces-HQ:
no_cv
untuk menunjukkan bahwa Anda tidak ingin foto tersebut digunakan untuk penelitian visi komputer.None
(Hak Cipta dilindungi undang-undang) atau lisensi Creative Commons apa pun dengan NoDerivs
untuk menunjukkan bahwa Anda tidak ingin foto tersebut didistribusikan ulang.