用於語音技術研究和開發的開放語音語料庫清單。
此清單優先考慮免費(即無美元成本)和真正開放的語料庫(例如根據知識共享許可或社群資料授權協議發布)。並非所有這些語料庫都可以滿足這些標準,但以下所有語料庫都可以存取並可用於研究和/或商業用途。
請隨意向清單提出補充!
問題中存在大量積壓的語料庫,非常歡迎 Pull Requests :)
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
共同聲音 | 多種語言 | >15,000 小時(已驗證); >20,000 小時(總計) | 多重揚聲器 | https://voice.mozilla.org/en/datasets | CC-0 |
耶斯諾 | 希伯來文 | 6分鐘 | 一名男性 | http://www.openslr.org/1/ | CC-0 |
LJ語音語料庫 | 英語 | 〜24小時 | 一名女性 | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
NST 丹麥 ASR 資料庫 | 丹麥語 | 229,992 條言論 | 616 發言者 | 原文:https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/,重組:https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
NST 丹麥語聽寫 | 丹麥語 | 34,955 條言論 | 151 位發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
NST 丹麥語語音合成 | 丹麥語 | 4,108 條言論 | 1 男發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
NST 瑞典 ASR 資料庫 | 瑞典 | 366,000 條言論 | 1,000 位發言者 | 原文:https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/,重組:https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
NST 瑞典語聽寫 | 瑞典 | 45,620 條言論 | 195 位發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
NST 瑞典語語音合成 | 瑞典 | 5,279 條言論 | 1 男發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
NST 挪威 ASR 資料庫 | 挪威 | 359,760 條言論 | 980 個發言者 | 原文:https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/,重組:https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
NST 挪威語聽寫 | 挪威 | 33,360 條言論 | 144 位發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
NST 挪威語語音合成 | 挪威 | 5,363 條言論 | 1 男發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – 挪威語語音資料庫 | 挪威 | 7,600 條話語 + 約 12 小時 | 380 個揚聲器 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
挪威議會演講語料庫 (v0.1) | 挪威 | 〜59小時 | 203 發言者 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
維基共享資源 奧迪亞 | 奧迪亞 | 〜8小時 | 約 20 位發言者 | https://commons.wikimedia.org/wiki/Category:Odia_發音 | 大部分(?)CC-0 |
Thorsten-21.02-中性 | 德文 | 〜24小時 | 1 男發言者 | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-情感 | 德文 | 2.400 句話語(8 種情緒) | 1 男發言者 | https://www.Thorsten-Voice.de | CC-0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
ARU語音語料庫 | 英語(英國) | 720 發言/發言者 | 12(6 女;6 男) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | 抄送3.0 |
Althingi 議會演講語料庫 | 冰島語 | 542小時25分鐘 | 196 位發言者 | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Alþingisumræður 議會演講語料庫 | 冰島語 | 〜21小時 | http://www.malfong.is/index.php?dlid=8&lang=en | 抄送3.0 | |
哈爾語料庫 | 冰島語 | 約 41,000 條錄音 | 883 發言者 | http://www.malfong.is/index.php?dlid=5&lang=en | 抄送3.0 |
Malromur 語料庫 | 冰島語 | 152小時 | 563 發言者 | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Kinect 遠端合作德語語料庫 | 德文 | 〜35小時 | 約 180 位發言者 | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
非洲語音技術英英語音語料庫 | 英語 | 〜21小時 | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 南非 | |
非洲語音技術 isiXhosa 語音語料庫 | 伊西科薩語 | 〜26小時 | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 南非 | |
NCHLT 南非荷蘭語 | 南非荷蘭語 | 56小時 | 210 位發言者(98 位女性/112 位男性) | https://repo.sadilar.org/handle/20.500.12185/280 | 抄送3.0 |
NCHLT 英語 | 英語 | 56小時 | 210 位發言者(100 位女性/110 位男性) | https://repo.sadilar.org/handle/20.500.12185/274 | 抄送3.0 |
NCHLT 伊辛德貝萊 | 伊辛德貝萊 | 56小時 | 148 位發言者(78 位女性/70 位男性) | https://repo.sadilar.org/handle/20.500.12185/272 | 抄送3.0 |
NCHLT 伊西科薩語 | 伊西科薩語 | 56小時 | 209 位發言者(106 位女性/103 位男性) | https://repo.sadilar.org/handle/20.500.12185/279 | 抄送3.0 |
NCHLT 伊西祖魯語 | 伊西祖魯語 | 56小時 | 210 位發言者(98 位女性/112 位男性) | https://repo.sadilar.org/handle/20.500.12185/275 | 抄送3.0 |
NCHLT 塞佩迪 | 塞佩迪 | 56小時 | 210 位發言者(100 位女性/110 位男性) | https://repo.sadilar.org/handle/20.500.12185/270 | 抄送3.0 |
NCHLT 塞索托 | 塞索托語 | 56小時 | 210 位發言者(113 位女性/97 位男性) | https://repo.sadilar.org/handle/20.500.12185/278 | 抄送3.0 |
NCHLT 茨瓦納 | 茨瓦納語 | 56小時 | 210 位發言者(109 位女性/101 位男性) | https://repo.sadilar.org/handle/20.500.12185/281 | 抄送3.0 |
NCHLT 西斯瓦蒂 | 西斯瓦蒂 | 56小時 | 197 位發言者(96 位女性/101 位男性) | https://repo.sadilar.org/handle/20.500.12185/271 | 抄送3.0 |
NCHLT 茨文達 | 奇文達 | 56小時 | 208 位發言者(83 位女性/125 位男性) | https://repo.sadilar.org/handle/20.500.12185/276 | 抄送3.0 |
NCHLT 西松加 | 西松加 | 56小時 | 198 位發言者(95 位女性/103 位男性) | https://repo.sadilar.org/handle/20.500.12185/277 | 抄送3.0 |
Lwazi II 跨語言專有名稱語料庫 | 南非荷蘭語;英語;祖魯語;塞索托語 | 2小時5分鐘 | 20 位發言者 | https://repo.sadilar.org/handle/20.500.12185/445 | 抄送3.0 |
Lwazi II 專有名稱呼叫路由電話語料庫 | 英語 | 2小時7分鐘 | https://repo.sadilar.org/handle/20.500.12185/448 | 抄送3.0 | |
Lwazi II 南非荷蘭語軌跡追蹤語料庫 | 南非荷蘭語 | 4小時 | 一名男性 | https://repo.sadilar.org/handle/20.500.12185/442 | 抄送3.0 |
圖書館演講 | 英語 | 〜1000小時 | 2484 位發言者(1201 位女性/1283 位男性) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-韓語 | 韓國人 | 52.8小時 | 115 位發言者 | http://www.openslr.org/40/ | CC-BY 4.0 |
語音指令 | 英語 | 17.8小時 | >1,000 位發言者 | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
議會議會 | 加泰隆尼亞語 | 320小時 | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | 法語 | 〜10小時 | 一名女性 | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | 英語 | 44小時 | 109 位發言者 | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
圖書館TTS | 英語 | 586小時 | 2,456 位發言者(1,185 位女性/1,271 位男性) | http://www.openslr.org/60/ | CC-BY 4.0 |
增強型LibriSpeech | 音頻(英語);文字(英文、法文) | 236小時 | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
赫爾辛基韻律語料庫 | 英語 | 262.5小時 | 1,230 位發言者 | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
圖瓦語音資料庫 | 挪威 | 24小時 | 40 位發言者 | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
COERLL K'iche' 語料庫 | 基切 | 34分鐘 | ?揚聲器 | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
定時器等 v0.1 | 英語(合成:美國,真實:各國) | 合成:172 小時,真實:0.29 小時 | 21 種合成,11 種真實 | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
捷克議會全體聽證會大型語料庫 | 捷克語 | 444小時 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
伊班語 | 伊班語 | 8小時 | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
維斯塔迪爾 2013 | 英語;捷克語 | 41小時; 15小時 | http://www.openslr.org/6/ | CC-BY-SA 3.0 美國 | |
Vystadial 2016 捷克語 | 捷克語 | 77小時;包括 Vystadial 2013 捷克語 | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
免費口語數字資料集 | 英語 | 2,000 個獨立數字 | 4 個揚聲器 | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
谷歌爪哇語 | 爪哇語 | 296小時 | 1019 發言者 | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google尼泊爾語 | 尼泊爾語 | 165小時 | 527 位發言者 | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google孟加拉語 | 孟加拉 | 229小時 | 508 發言者 | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
谷歌僧伽羅語 | 僧伽羅語 | 224小時 | 478 位發言者 | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
谷歌巽他語 | 巽他語 | 333小時 | 542 發言者 | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
維基百科口語語料庫 (SWC-2017) | 英語;德語;荷蘭語 | 182 小時; 249小時; 79小時 | 395 位發言者; 339 位發言者; 145 位發言者 | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
楚瓦什語 TTS | 楚瓦什語 | 4小時 | 1 個揚聲器 | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
福施吉斯特 | 德文 | 2小時 | 2 位發言者(1 位女性;1 位男性) | 女發言人:https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz;男發言者:https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
SMC 的馬拉雅拉姆語語音語料庫 | 馬拉雅拉姆語 | 1:36 小時 | 75 位發言者(3 位女性、12 位男性、60 位身份不明) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
谷歌馬拉雅拉姆語 | 馬拉雅拉姆語 | 3.02小時 | 24 個揚聲器 | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
IBM 辯論錄音 v1 | 英語 | 5小時 | 10 位發言者 | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
IBM 辯論錄音 v2 | 英語 | 〜14小時 | 14 個揚聲器 | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
TV3帕爾拉 | 加泰隆尼亞語 | 240小時 | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
俄羅斯公開 STT 語料庫 | 俄文 | 公開約 10,000 小時,根據要求可提供約 10,000 小時 | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0,但有些例外 | |
俄語公開 TTS 語料庫 | 俄文 | 145小時 | 3 男 | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 的一些期望 |
OVM – Otázky Václava Moravce | 捷克語 | 35小時 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
ChiME-首頁 | 英語 | 6.8小時 | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
喀麥隆洋涇浜英語語料庫 | 喀麥隆洋涇浜英語 | 〜17小時 | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
塔托巴-英格 | 英語 | ~250 小時(粗略估計) | 6 個揚聲器 | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0(部分音訊)/CC-BY-NC-ND 3.0(大部分音訊)/CC-BY 2.0(所有文字) |
泰德-劉姆 | 英語 | 118小時 | 685 位發言者(36h 女性/81h 男性) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | 英語 | 207 小時 | 1242 個揚聲器(66h 女性/141h 男性) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | 英語 | 452小時 | 2028 個揚聲器(134h 女性/316h 男性) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
盤索里 TEDxKR | 韓國人 | 3小時 | 41 位發言者 | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Primewords 國語 | 國語 | 100小時 | 296 位發言者 | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C v1.0 | 音頻(英語);文本(荷蘭語、法語、德語、義大利語、葡萄牙語、羅馬尼亞語、俄語、西班牙語) | 每個語言對 408、504、492、465、442、385、432、489 小時 | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
捷克議會會議 | 捷克語 | 88小時 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
本巴演講 | 本巴 | 24小時 | 17 位發言者(9 男/8 女) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
迪普科 | 英語 | 〜5小時 | 32 位發言者(13 位女性;19 位男性) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permissive-1.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
沃克斯鍛造 | 英語 | 約 120 小時 | 約 2966 位發言者 | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
沃克斯鍛造公司 | 俄文 | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
沃克斯鍛造 | 德文 | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
艾舍爾-1 | 國語 | 170小時 | 400 位發言者 | http://www.openslr.org/33/ | 阿帕契2.0 |
突尼斯_MSA | 現代標準阿拉伯語(突尼斯) | 11.2小時 | 118 位發言者 | http://www.openslr.org/46/ | 阿帕契2.0 |
非洲口音的法語 | 法語 | 22小時 | 232 個發言者 | http://www.openslr.org/57/ | 阿帕契2.0 |
THCHS-30 | 國語 中文 | 33.57 小時(13,389 則言論) | 40 位發言者(31 位女性;9 位男性) | http://www.openslr.org/18/ | 阿帕契2.0 |
生活音頻資料集 - 荷蘭語 | 荷蘭語 | 57:49 分鐘 | 1 個揚聲器 | https://github.com/Idlak/Living-Audio-Dataset | 阿帕契2.0 |
生活音頻資料集 - 英語 | 英語 | 50:50 分鐘 | 1 個揚聲器 | https://github.com/Idlak/Living-Audio-Dataset | 阿帕契2.0 |
生活音頻資料集 - 愛爾蘭語 | 愛爾蘭語 | 61:56 分鐘 | 1 個揚聲器 | https://github.com/Idlak/Living-Audio-Dataset | 阿帕契2.0 |
生活音頻資料集 - 俄語 | 俄文 | 34:58 分鐘 | 1 個揚聲器 | https://github.com/Idlak/Living-Audio-Dataset | 阿帕契2.0 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
阿爾法 | 阿姆哈拉語;豪薩語(付費);斯瓦希里語;沃洛夫語 | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | 麻省理工學院 |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
M-AILAB德語語料庫 | 德文 | 237小時22分鐘 | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS 女王英語語料庫 | 女王英語 | 45小時35分鐘 | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS美國英語語料庫 | 美式英語 | 102小時7分鐘 | http://www.caito.de/data/Training/stt_tts/en_US.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS 西班牙語語料庫 | 西班牙語 西班牙語 | 108小時34分鐘 | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS 義大利語語料庫 | 義大利語 | 127小時40分鐘 | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS 烏克蘭語料庫 | 烏克蘭 | 87小時8分鐘 | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILAB俄語語料庫 | 俄文 | 46小時47分鐘 | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILABS 法語-v0.9 語料庫 | 法語 | 190小時30分鐘 | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) | |
M-AILAB波蘭語語料庫 | 拋光 | 53小時50分鐘 | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | M-AILABS 許可證(特定於資料的 BSD 3 條款許可證) |
語料庫 | 語言 | # 小時 | # 演講者 | 下載 | 執照 |
---|---|---|---|---|---|
流利的語音指令語料庫 | 英語 | 19 小時(30,043 則言論) | 97 位發言者 | http:// Fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Fluent Speech Commands 公共許可證 |
卡內基梅隆大學荒野 | 700 朗 | 沒有音訊或文字的對齊分發總計:約 14,000 小時;每語言:~20 小時 | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
CHiME-5 | 英語 | 50小時 | 48 位發言者 | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | CHiME-5 許可證 |
無畏的腳步語料庫 | 英語 | 19,000 小時(轉錄 20 小時) | 約 450 位發言者 | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | NASA 媒體使用指南 |
Microsoft 語音語料庫(印度語) | 泰盧固語;泰米爾語;古吉拉特語 | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Microsoft 語音語料庫(印度語言)許可證 | ||
微軟語音翻譯語料庫 | 英語;中國人;日本人 | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | 微軟研究院資料授權協議 | ||
嘿剪語料庫 | 英語 | 11K 條正面「Hey Snips」(約 4.4 小時)和 87K 條負面(約 89 小時)話語 | 2215 個揚聲器(正負)和 4028 個揚聲器(僅負) | https://research.snips.ai/datasets/keyword-spotting | 剪斷資料許可證 |
剪切 SLU 語料庫 | 英語;法語 | 1660 條「智慧燈 EN」(約 1.3 小時)、1286 條「智慧揚聲器 EN」(約 55 分鐘)、1138 條「智慧揚聲器 FR」(約 50 分鐘)話語 | 英語:69 人;法語:30 人 | https://research.snips.ai/datasets/spoken-language-understanding | 剪斷資料許可證 |
CMU Sphinx 集團 - AN4 | 英語 | “an4_clstk”(約 50 分鐘) “an4test_clstk”(約 6 分鐘) | 「an4_clstk」:21 名女性,53 名男性 “an4test_clstk”:3 名女性,7 名男性 | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
英國金融時報演講 | 丹麥語 | ~1,857 小時(1,017,244 句) | 434 位發言者(176 位女性,258 位男性) | https://ftspeech.dk | 英國《金融時報》演講許可證 |
法拉巴西-LAPS-憲法 | 巴西-葡萄牙語 | 9小時 | 1 個揚聲器 | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | 「音頻轉錄基礎與文字標準化基礎(sem pontuação、com números escritos por extenso 等)disponibilizadas de forma gratuita* pelo Grupo FalaBrasil。[disponibilizadas de |
Fala巴西-LaPSMail | 巴西-葡萄牙語 | 1小時 | 25 位發言者 | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | 「音頻轉錄基礎與文字標準化基礎(sem pontuação、com números escritos por extenso 等)disponibilizadas de forma gratuita* pelo Grupo FalaBrasil。[disponibilizadas de |
FalaBrasil-LaPS 基準 | 巴西-葡萄牙語 | 1小時 | 1 個揚聲器 | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | 「音頻轉錄基礎與文字標準化基礎(sem pontuação、com números escritos por extenso 等)disponibilizadas de forma gratuita* pelo Grupo FalaBrasil。[disponibilizadas de |