Quick Draw 資料集包含 345 個類別的 5000 萬張圖畫,由 Quick, Draw! 遊戲的玩家貢獻。這些繪圖被捕獲為帶有時間戳記的向量,並標記有元數據,包括要求玩家繪製的內容以及玩家所在的國家。您可以在quickdraw.withgoogle.com/data 上瀏覽已識別的繪圖。
我們在這裡分享它們,供開發人員、研究人員和藝術家探索、研究和學習。如果您使用此資料集建立一些內容,請透過電子郵件或 AI Experiments 告知我們。
我們也在tensorflow.org 上發布了用於訓練您自己的繪圖分類器的教程和模型。
請記住,雖然這組圖畫經過單獨審核,但仍可能包含不當內容。
原始調節資料集
預處理資料集
取得數據
使用資料集的項目
變化
執照
原始資料以ndjson
文件形式提供,按類別分隔,格式如下:
鑰匙 | 類型 | 描述 |
---|---|---|
密鑰 ID | 64 位元無符號整數 | 所有圖紙中的唯一識別碼。 |
單字 | 細繩 | 提示玩家繪製的類別。 |
公認的 | 布林值 | 該詞是否被遊戲辨識。 |
時間戳 | 日期時間 | 當繪圖被創建時。 |
國家代碼 | 細繩 | 玩家所在位置的兩個字母的國家代碼 (ISO 3166-1 alpha-2)。 |
繪畫 | 細繩 | 表示向量繪圖的 JSON 數組 |
每行包含一幅圖畫。這是單一繪圖的範例:
{ "key_id":"5891796615823360","word":"鼻子","國家/地區代碼":"AE","時間戳":"2017-03-01 20:41:36.70725 UTC","已識別":true,"繪圖":[[[129,128,129,129,130,130,131,132,132,133,133,133,133,...]]] }
繪圖數組的格式如下:
[ [ // 第一筆畫 [x0, x1, x2, x3, ...],[y0, y1, y2, y3, ...],[t0, t1, t2, t3, ...] ], [ // 第二筆畫[x0, x1, x2, x3, ...],[y0, y1, y2, y3, ...],[t0, t1, t2, t3, ...] ], ... // 附加筆畫]
其中x
和y
是像素座標, t
是自第一個點以來的時間(以毫秒為單位)。 x
和y
是實數值,而t
是整數。由於用於顯示和輸入的設備不同,原始繪圖可能具有截然不同的邊界框和點數。
我們對資料集進行了預處理並將其拆分為不同的檔案和格式,以便更快、更輕鬆地下載和探索。
.ndjson
)我們簡化了向量,刪除了時序訊息,並將資料定位並縮放到 256x256 區域。資料以ndjson
格式匯出,其元資料與原始格式相同。簡化過程是:
將繪圖與左上角對齊,以使最小值為 0。
統一縮放繪圖,最大值為 255。
以 1 像素間距重新取樣所有筆畫。
使用 Ramer–Douglas–Peucker 演算法(epsilon 值為 2.0)簡化所有筆畫。
example/nodejs/simplified-parser.js 中有一個範例,展示如何在 NodeJS 中讀取 ndjson 檔案。
此外,examples/nodejs/ndjson.md 文件詳細介紹了一組命令列工具,可以幫助探索這些相當大的檔案的子集。
.bin
)簡化的繪圖和元資料也以自訂二進位格式提供,以實現高效壓縮和載入。
example/binary_file_parser.py 中有一個範例,展示如何在 Python 中載入二進位檔案。
example/nodejs/binary-parser.js 中還有一個範例,展示如何在 NodeJS 中讀取二進位檔案。
.npy
)所有簡化的繪圖均已渲染為 numpy .npy
格式的 28x28 灰階點陣圖。這些檔案可以使用np.load()
載入。這些圖像是根據簡化資料產生的,但與繪圖邊界框的中心而不是左上角對齊。有關用於生成的程式碼片段,請參閱此處。
此資料集以按類別分隔的ndjson
檔案形式在 Google Cloud Storage 上提供。請參閱 Cloud 中的文件列表,或閱讀有關使用其他方法存取公共資料集的更多資訊。例如,要輕鬆下載所有簡化繪圖,一種方法是執行指令gsutil -m cp 'gs://quickdraw_dataset/full/simplified/*.ndjson' .
原始文件( .ndjson
)
簡化的繪圖文件 ( .ndjson
)
二進位檔案 ( .bin
)
Numpy 位元圖檔 ( .npy
)
這些數據也用於訓練 Sketch-RNN 模型。 Magenta 專案中提供了該模型的開源 TensorFlow 實作(連結到 GitHub 儲存庫)。 您也可以在這篇 Google 研究部落格文章中了解有關此模型的更多資訊。 資料儲存在壓縮的.npz
檔案中,其格式適合輸入到循環神經網路。
在此資料集中,從每個類別中隨機選擇了 75K 個樣本(70K 訓練、2.5K 驗證、2.5K 測試),並使用epsilon
參數為 2.0 的 RDP 線簡化進行處理。 每個類別將儲存在自己的.npz
檔案中,例如cat.npz
。
如果您想使用超過 70K 的訓練範例,我們還提供了每個類別的完整資料。 它們以.full.npz
副檔名儲存。
Numpy .npz 文件
注意:對於Python3,使用np.load(data_filepath, encoding='latin1', allow_pickle=True)
載入npz
文件
本筆記本中提供了將原始ndjson
檔案轉換為此npz
格式的說明。
以下是一些以有趣的方式使用或展示資料集的專案和實驗。有什麼要補充的嗎?讓我們知道!
創意和藝術項目
Deborah Schmidt 的字母拼貼畫
尼爾門多薩的臉部追蹤實驗
Tortue 的《人性的臉》
Infinite QuickDraw 由 kynd.info 提供
Misfire.io 作者:Matthew Collyer
丹·麥克尼什畫的這個
楊新月塗鴉演講
陳凌插畫
埃內斯托·迪亞茲·阿維萊斯博士的《夢見電子羊》
數據分析
你如何畫一個圓?透過石英
Forma Fluens 作者:Mauro Martino、Hendrik Strobelt 和 Owen Cornec
(快速)畫一隻狗需要多長時間?作者:吉姆·瓦蘭丁厄姆
使用循環神經網路尋找不良火烈鳥圖畫,作者:Colin Morris
Facets Dive x 快速,繪製!由 Google 的「人+人工智慧研究計畫」(PAIR) 提供
谷歌研究探索和視覺化開放的全球資料集
用於可視化的機器學習 - Ian Johnson 的演講/文章
文件
素描圖的神經表示,作者:David Ha、Douglas Eck,ICLR 2018。
Sketchmate:用於百萬級人體草圖檢索的深度哈希,作者:Peng Xu 等人,CVPR 2018。
用於徒手草圖辨識的多圖轉換器,作者:Peng Xu、Chaitanya K Joshi、Xavier Bresson,ArXiv 2019。
用於手繪草圖的深度自監督表示學習,作者:Peng Xu 等人,ArXiv 2020。
SketchTransfer:探索細節不變性和深度網路學習的抽象的挑戰性新任務,作者:Alex Lamb、Sherjil Ozair、Vikas Verma、David Ha,WACV 2020。
徒手素描的深度學習:徐鵬的調查,ArXiv 2020。
基於卷積神經網路的新穎草圖辨識模型,作者:Abdullah Talha Kabakus,第二屆國際人機互動、最佳化與機器人應用大會,第 101-106 頁,2020 年。
指南和教程
TensorFlow 繪圖分類教程
使用 Colab 在 tf.keras 中訓練模型,並使用 Zaid Alyafeai 的 TensorFlow.js 在瀏覽器中運行它
程式碼和工具
快點,畫畫!聚合物組件和數據 API,作者:Nick Jonas
快速繪製處理,作者:Cody Ben Lewis
快點,畫畫! Keisuke Irie 的預測模型
學習統計的隨機樣本工具非常棒
Ian Johnson 的 d3.js 中的 SVG 渲染範例(在此處了解有關該過程的更多資訊)
Payal Bajaj 的 Sketch-RNN 分類
Quickdraw.js 作者:Thomas Wagenaar
~ Doodler ~ 作者:Krishna Sri Somepalli
Quickdraw Python API,作者:Martin O'Hanlon
即時 QuickDraw,作者:Akshay Bahadur
Guillem Xercavins 的資料流處理
QuickDrawGH Rhino 插件,作者:James Dalessandro
QuickDrawBattle 作者:Andri Soone
2017 年 5 月 25 日:更新了 Sketch-RNN QuickDraw 資料集,建立了.full.npz
互補集。
此數據由 Google, Inc. 根據 Creative Commons Attribution 4.0 International 授權提供。
下表對於 Google 資料集搜尋等搜尋引擎索引該資料集是必需的。
財產 | 價值 | ||||||
---|---|---|---|---|---|---|---|
姓名 | The Quick, Draw! Dataset | ||||||
備用名稱 | Quick Draw Dataset | ||||||
備用名稱 | quickdraw-dataset | ||||||
網址 | https://github.com/googlecreativelab/quickdraw-dataset | ||||||
相同 | https://github.com/googlecreativelab/quickdraw-dataset | ||||||
描述 | The Quick Draw Dataset is a collection of 50 million drawings across 345 categories, contributed by players of the game "Quick, Draw!". The drawings were captured as timestamped vectors, tagged with metadata including what the player was asked to draw and in which country the player was located.n n Example drawings: ![preview](https://raw.githubusercontent.com/googlecreativelab/quickdraw-dataset/master/preview.jpg) | ||||||
提供者 |
| ||||||
執照 |
|