Daftar korpora pidato terbuka untuk penelitian dan pengembangan Teknologi Pidato.
Daftar ini memiliki preferensi untuk gratis (yaitu tanpa biaya $) dan corpora yang benar-benar terbuka (misalnya dirilis di bawah lisensi Creative Commons atau Perjanjian Lisensi Data Komunitas). Tidak semua korpora ini memenuhi kriteria tersebut, namun semua korpora berikut dapat diakses dan digunakan untuk penelitian dan/atau penggunaan komersial.
Jangan ragu untuk meminta penambahan pada daftar!
Ada tumpukan corpora yang panjang untuk ditambahkan dalam Masalah, dan Permintaan Tarik sangat diterima :)
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Suara Umum | Multibahasa | >15.000 jam (divalidasi); >20.000 jam (total) | Multi-speaker | https://voice.mozilla.org/en/datasets | CC-0 |
Ya tidak | Ibrani | 6 menit | satu laki-laki | http://www.openslr.org/1/ | CC-0 |
Korpus Pidato LJ | Bahasa inggris | ~24 jam | satu perempuan | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
Basis Data ASR NST Denmark | Denmark | 229.992 ucapan | 616 pembicara | asli: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, direorganisasi: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
Dikte Denmark NST | Denmark | 34.955 ucapan | 151 pembicara | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
Sintesis Pidato Denmark NST | Denmark | 4.108 ucapan | 1 pembicara laki-laki | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
Basis Data ASR Swedia NST | Swedia | 366.000 ucapan | 1.000 pembicara | asli: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, direorganisasi: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
Dikte Swedia NST | Swedia | 45.620 ucapan | 195 pembicara | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
Sintesis Pidato Swedia NST | Swedia | 5.279 ucapan | 1 pembicara laki-laki | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
Basis Data ASR Norwegia NST | Norwegia | 359.760 ucapan | 980 pembicara | asli: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, direorganisasi: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
Dikte Norwegia NST | Norwegia | 33.360 ucapan | 144 pembicara | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
Sintesis Pidato Norwegia NST | Norwegia | 5.363 ucapan | 1 pembicara laki-laki | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – Database Pidato untuk Bahasa Norwegia | Norwegia | 7.600 ucapan + ~12 jam | 380 pembicara | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
Corpus Pidato Parlemen Norwegia (v0.1) | Norwegia | ~59 jam | 203 pembicara | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
Wikimedia Commons Odia | Odia | ~8 jam | ~20 pembicara | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | kebanyakan(?) CC-0 |
Thorsten-21.02-netral | Jerman | ~24 jam | 1 pembicara laki-laki | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-emosional | Jerman | 2.400 ucapan (8 emosi) | 1 pembicara laki-laki | https://www.Thorsten-Voice.de | CC-0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Korpus Pidato ARU | Bahasa Inggris (Inggris Raya) | 720 ujaran/pembicara | 12 (6 perempuan; 6 laki-laki) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Korpus Pidato Parlemen Althingi | Islandia | 542 jam 25 menit | 196 pembicara | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Korpus Pidato Parlemen Alþingisumræður | Islandia | ~21 jam | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Hjal Corpus | Islandia | ~41.000 rekaman | 883 pembicara | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
Korpus Malromur | Islandia | 152 jam | 563 pembicara | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Telekooperasi Corpus Jerman untuk Kinect | Jerman | ~35 jam | ~180 pembicara | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
Teknologi Pidato Afrika Corpus Pidato Inggris-Inggris | Bahasa inggris | ~21 jam | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 Afrika Selatan | |
Teknologi Pidato Afrika isiXhosa Speech Corpus | isiXhosa | ~26 jam | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 Afrika Selatan | |
NCHLT Afrikaans | Afrikanas | 56 jam | 210 pembicara (98 perempuan / 112 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT Bahasa Inggris | Bahasa inggris | 56 jam | 210 pembicara (100 perempuan / 110 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | isNdebele | 56 jam | 148 pembicara (78 perempuan / 70 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 jam | 209 pembicara (106 perempuan / 103 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56 jam | 210 pembicara (98 perempuan / 112 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | Sepedi | 56 jam | 210 pembicara (100 perempuan / 110 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT Sesotho | Sesotho | 56 jam | 210 pembicara (113 perempuan / 97 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT Setswana | Setswana | 56 jam | 210 pembicara (109 perempuan / 101 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT Siswati | Siswati | 56 jam | 197 pembicara (96 perempuan / 101 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT Tshivenda | Tshivenda | 56 jam | 208 pembicara (83 perempuan / 125 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56 jam | 198 pembicara (95 perempuan/103 laki-laki) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Korpus Nama Diri Lintas Bahasa Lwazi II | Afrikanas; Bahasa inggris; isiZulu; Sesotho | 2 jam 5 menit | 20 pembicara | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II Nama Yang Tepat Perutean Panggilan Corpus Telepon | Bahasa inggris | 2 jam 7 menit | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Korpus Pelacakan Lintasan Lwazi II Afrikaans | Afrikanas | 4 jam | satu laki-laki | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
PerpustakaanPidato | Bahasa inggris | ~1000 jam | 2484 pembicara (1201 perempuan / 1283 laki-laki) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-Korea | Korea | 52,8 jam | 115 pembicara | http://www.openslr.org/40/ | CC-BY 4.0 |
Perintah Ucapan | Bahasa inggris | 17,8 jam | >1.000 pembicara | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlamentParla | Katalan | 320 jam | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | Perancis | ~10 jam | satu perempuan | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | Bahasa inggris | 44 jam | 109 pembicara | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
Perpustakaan | Bahasa inggris | 586 jam | 2.456 pembicara (1.185 perempuan / 1.271 laki-laki) | http://www.openslr.org/60/ | CC-BY 4.0 |
LibriSpeech yang Ditambah | Audio (Bahasa Inggris); Teks (Bahasa Inggris, Perancis) | 236 jam | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Korpus Prosodi Helsinki | Bahasa inggris | 262,5 jam | 1.230 pembicara | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
Basis Data Pidato Tuva | Norwegia | 24 jam | 40 pembicara | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
Korpus COERLL Kʼicheʼ | Kʼicheʼ | 34 menit | ? pembicara | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Timer dan Semacamnya v0.1 | Inggris (sintetis: AS, asli: berbagai kebangsaan) | sintetis: 172 jam, nyata: 0,29 jam | 21 sintetis, 11 asli | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Dengar Pendapat Pleno Parlemen Ceko | Ceko | 444 jam | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Iban | Iban | 8 jam | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Vistadial 2013 | Bahasa inggris; Ceko | 41 jam; 15 jam | http://www.openslr.org/6/ | CC-BY-SA 3.0 AS | |
Vystadial 2016 Ceko | Ceko | 77 jam; termasuk Vystadial 2013 Ceko | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Kumpulan Data Digit Lisan Gratis | Bahasa inggris | 2.000 digit terisolasi | 4 pembicara | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google bahasa Jawa | Jawa | 296 jam | 1019 pembicara | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google Nepal | Nepal | 165 jam | 527 pembicara | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google Bengali | Benggala | 229 jam | 508 pembicara | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google Sinhala | Sinhala | 224 jam | 478 pembicara | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google bahasa Sunda | Sunda | 333 jam | 542 pembicara | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Korpus Wikipedia Lisan (SWC-2017) | Bahasa inggris; Jerman; Belanda | 182 jam; 249 jam; 79 jam | 395 pembicara; 339 pembicara; 145 pembicara | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
Chuvash TTS | Chuvash | 4 jam | 1 pembicara | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
ahli forschergeist | Jerman | 2 jam | 2 pembicara (1 perempuan; 1 laki-laki) | pembicara wanita: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; pembicara pria: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Korpus Pidato Malayalam oleh SMC | Malayalam | 1:36 jam | 75 pembicara (3 perempuan, 12 laki-laki, 60 tidak teridentifikasi) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google Malayalam | Malayalam | 3,02 jam | 24 pembicara | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Debat Rekaman IBM v1 | Bahasa inggris | 5 jam | 10 pembicara | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
Debat Rekaman IBM v2 | Bahasa inggris | ~14 jam | 14 pembicara | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
TV3Parla | Katalan | 240 jam | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Corpus STT Terbuka Rusia | Rusia | ~10.000 jam publik, ~10.000 lebih berdasarkan permintaan | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 dengan beberapa pengecualian | |
Corpus TTS Terbuka Rusia | Rusia | 145 jam | 3 laki-laki | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 dengan beberapa harapan |
OVM – Otázky Václava Moravce | Ceko | 35 jam | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
CHiME-Rumah | Bahasa inggris | 6,8 jam | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Corpus Bahasa Inggris Pidgin Kamerun | Kamerun Pidgin Bahasa Inggris | ~17 jam | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Tatoeba-Inggris | Bahasa inggris | ~250 jam (perkiraan kasar) | 6 pembicara | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (sebagian audio) / CC-BY-NC-ND 3.0 (sebagian besar audio) / CC-BY 2.0 (semua teks) |
TED-LIUM | Bahasa inggris | 118 jam | 685 speaker (36 jam perempuan / 81 jam laki-laki) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | Bahasa inggris | 207 jam | 1242 speaker (66 jam perempuan / 141 jam laki-laki) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | Bahasa inggris | 452 jam | 2028 pembicara (134 jam perempuan / 316 jam laki-laki) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Pansori TEDxKR | Korea | 3 jam | 41 pembicara | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Kata Utama Mandarin | bahasa Mandarin | 100 jam | 296 pembicara | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
Harus-C v1.0 | Audio (Bahasa Inggris); Teks (Belanda, Prancis, Jerman, Italia, Portugis, Rumania, Rusia, Spanyol) | 408, 504, 492, 465, 442, 385, 432, 489 jam per pasangan bahasa | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Pertemuan Parlemen Ceko | Ceko | 88 jam | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
Pidato Bemba | Bemba | 24 jam | 17 pembicara (9 laki-laki / 8 perempuan) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
DiPCo | Bahasa inggris | ~5 jam | 32 pembicara (13 perempuan; 19 laki-laki) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permisif-1.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
VoxForge | Bahasa inggris | ~120 jam | ~2966 pembicara | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | Rusia | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Rusia/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | Jerman | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
AISHELL-1 | bahasa Mandarin | 170 jam | 400 pembicara | http://www.openslr.org/33/ | Apache 2.0 |
Tunisia_MSA | Bahasa Arab Standar Modern (Tunisia) | 11,2 jam | 118 pembicara | http://www.openslr.org/46/ | Apache 2.0 |
Perancis Beraksen Afrika | Perancis | 22 jam | 232 pembicara | http://www.openslr.org/57/ | Apache 2.0 |
THCHS-30 | Mandarin Cina | 33,57 jam (13.389 ucapan) | 40 pembicara (31 perempuan; 9 laki-laki) | http://www.openslr.org/18/ | Apache 2.0 |
Kumpulan Data Audio Langsung - Belanda | Belanda | 57:49 menit | 1 pembicara | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Kumpulan Data Audio Hidup - Bahasa Inggris | Bahasa inggris | 50:50 menit | 1 pembicara | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Kumpulan Data Audio Hidup - Irlandia | Irlandia | 61:56 menit | 1 pembicara | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Kumpulan Data Audio Langsung - Rusia | Rusia | 34:58 menit | 1 pembicara | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
ALFFA | Amharik;Hausa (berbayar); Swahili; Wolof | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
M-AILABS Korps Jerman | Jerman | 237 jam 22 menit | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Korpus Inggris Ratu | Bahasa Inggris Ratu | 45 jam 35 menit | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Korpus Bahasa Inggris AS | Bahasa Inggris Amerika | 102 jam 7 menit | http://www.caito.de/data/Training/stt_tts/en_US.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
Korpus Spanyol M-AILABS | Spanyol Spanyol | 108 jam 34 menit | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Korpus Italia | Italia | 127 jam 40 menit | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Corpus Ukraina | Ukraina | 87 jam 8 menit | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Korps Rusia | Rusia | 46 jam 47 menit | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
M-AILABS Perancis-v0.9 Corpus | Perancis | 190 jam 30 menit | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) | |
Korps Polandia M-AILABS | Polandia | 53 jam 50 menit | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | LISENSI M-AILABS (Lisensi 3-Klausul BSD khusus data) |
KORPUS | BAHASA | # JAM | #PEMBICARA | UNDUH | LISENSI |
---|---|---|---|---|---|
Korpus Perintah Pidato Lancar | Bahasa inggris | 19 jam (30.043 ucapan) | 97 pembicara | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Lisensi Publik Perintah Pidato Lancar |
Hutan Belantara CMU | 700 Lang | Penyelarasan didistribusikan tanpa audio atau teks total:~14.000 jam; per jam: ~20 jam | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
CHiME-5 | Bahasa inggris | 50 jam | 48 pembicara | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | Lisensi CHiME-5 |
Corpus Langkah Tak Takut | Bahasa inggris | 19.000 jam (transkrip 20 jam) | ~450 pembicara | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Pedoman Penggunaan Media NASA |
Microsoft Speech Corpus (bahasa India) | Telugu; Tamil; Gujarati | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Lisensi Microsoft Speech Corpus (Bahasa India). | ||
Korpus Terjemahan Bahasa Pidato Microsoft | Bahasa inggris; Cina; Jepang | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Perjanjian Lisensi Data Penelitian Microsoft | ||
Hai Snips Corpus | Bahasa inggris | 11 ribu ucapan "Hey Snips" positif (~4,4 jam) dan 87 ribu ucapan negatif (~89 jam) | 2215 pembicara (positif & negatif) dan 4028 pembicara (negatif saja) | https://research.snips.ai/datasets/keyword-spotting | Lisensi Data Snips |
Gunting SLU Corpus | Bahasa inggris; Perancis | 1660 ucapan "Smart Lights EN" (~1,3 jam), 1286 "Smart Speaker EN" (~55 menit), 1138 "Smart Speaker FR" (~50 menit) | Bahasa Inggris: 69 pembicara; Perancis: 30 pembicara | https://research.snips.ai/datasets/spoken-lingual-understanding | Lisensi Data Snips |
Grup Sphinx CMU - AN4 | Bahasa inggris | "an4_clstk"(~50 menit) "an4test_clstk" (~6 menit) | "an4_clstk": 21 perempuan, 53 laki-laki "an4test_clstk": 3 perempuan, 7 laki-laki | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
Pidato FT | Denmark | ~1.857 jam (1.017.244 ucapan) | 434 pembicara (176 perempuan, 258 laki-laki) | https://ftspeech.dk | Lisensi Pidato FT |
FalaBrasil-LAPS-Constituicao | Brasil-Portugis | 9 jam | 1 pembicara | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Basis de áudio transcrito dan bases de texto normalizadas (sem pontuação, com números escritos por extenso, dll.) tersedia untuk format gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, hanya sebagai basis livres estão sendo disponibilizadas. " |
FalaBrasil-LaPSMail | Brasil-Portugis | 1 jam | 25 pembicara | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Basis de áudio transcrito dan bases de texto normalizadas (sem pontuação, com números escritos por extenso, dll.) tersedia untuk format gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, hanya sebagai basis livres estão sendo disponibilizadas. " |
Tolok Ukur FalaBrasil-LaPS | Brasil-Portugis | 1 jam | 1 pembicara | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Basis de áudio transcrito dan bases de texto normalizadas (sem pontuação, com números escritos por extenso, dll.) tersedia untuk format gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, hanya sebagai basis livres estão sendo disponibilizadas. " |