Список открытых речевых корпусов для исследований и разработок в области речевых технологий.
В этом списке предпочтение отдается бесплатным (т. е. без каких-либо затрат) и по-настоящему открытым корпорациям (например, выпущенным по лицензии Creative Commons или Лицензионному соглашению о предоставлении данных сообщества). Не все эти корпуса могут соответствовать этим критериям, но все следующие корпуса доступны и пригодны для исследовательского и/или коммерческого использования.
Не стесняйтесь предлагать дополнения к списку!
В Issues есть длинный список корпусов, которые нужно добавить, и запросы на включение очень приветствуются :)
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Общий голос | Многоязычный | >15 000 часов (подтверждено); >20 000 часов (всего) | Мультидинамик | https://voice.mozilla.org/en/datasets | СС-0 |
да нет | иврит | 6 минут | один мужчина | http://www.openslr.org/1/ | СС-0 |
ЖЖ Речевой корпус | Английский | ~24 часа | одна женщина | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | СС-0 |
База данных ASR NST Дании | датский | 229 992 высказывания | 616 динамиков | оригинал: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, реорганизованный: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | СС-0 |
NST Датский диктант | датский | 34 955 высказываний | 151 спикер | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | СС-0 |
Синтез датской речи NST | датский | 4108 высказываний | 1 спикер-мужчина | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | СС-0 |
База данных ASR NST Швеции | Шведский | 366 000 высказываний | 1000 спикеров | оригинал: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, реорганизованный: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | СС-0 |
Шведский диктант NST | Шведский | 45 620 высказываний | 195 спикеров | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | СС-0 |
Синтез шведской речи NST | Шведский | 5279 высказываний | 1 спикер-мужчина | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | СС-0 |
База данных ASR NST Норвегии | норвежский | 359 760 высказываний | 980 динамиков | оригинал: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, реорганизованный: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | СС-0 |
Норвежский диктант NST | норвежский | 33 360 высказываний | 144 динамика | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | СС-0 |
NST Синтез норвежской речи | норвежский | 5363 высказывания | 1 спикер-мужчина | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | СС-0 |
NB Tale – речевая база данных для норвежского языка | норвежский | 7600 высказываний + ~12 часов | 380 динамиков | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | СС-0 |
Корпус норвежских парламентских выступлений (v0.1) | норвежский | ~59 часов | 203 спикера | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | СС-0 |
Викисклад Одия | Одия | ~8 часов | ~20 динамиков | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | в основном(?) CC-0 |
Торстен-21.02-нейтральный | немецкий | ~24 часа | 1 спикер-мужчина | https://www.Thorsten-Voice.de | СС-0 |
Торстен-21.06-эмоциональный | немецкий | 2.400 высказываний (8 эмоций) | 1 спикер-мужчина | https://www.Thorsten-Voice.de | СС-0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Речевой корпус ARU | английский (Великобритания) | 720 высказываний/спикер | 12 (6 женщин; 6 мужчин) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Корпус парламентских выступлений Альтинга | исландский | 542 часа 25 минут | 196 спикеров | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Корпус парламентских выступлений Alþingisumræður | исландский | ~21 час | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Корпус Хьяла | исландский | ~41 000 записей | 883 динамика | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
Корпус Малромура | исландский | 152 часа | 563 динамика | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Телесотрудничество Немецкого корпуса для Kinect | немецкий | ~35 часов | ~180 динамиков | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
Африканские речевые технологии Англо-английский речевой корпус | Английский | ~21 час | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 Южная Африка | |
Африканские речевые технологии isiXhosa Speech Corpus | isiXhosa | ~26 часов | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 Южная Африка | |
NCHLT африкаанс | африкаанс | 56 часов | 210 динамиков (98 женщин/112 мужчин) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
НЧЛТ английский | Английский | 56 часов | 210 динамиков (100 женщин/110 мужчин) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
НЧЛТ исиндебеле | ИсиНдебеле | 56 часов | 148 динамиков (78 женщин/70 мужчин) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
НЧЛТ исихоса | isiXhosa | 56 часов | 209 динамиков (106 женщин / 103 мужчин) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
НЧЛТ исизулу | ИсиЗулу | 56 часов | 210 динамиков (98 женщин/112 мужчин) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
НЧЛТ Сепеди | Сепеди | 56 часов | 210 динамиков (100 женщин/110 мужчин) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
НЧЛТ сесото | сесото | 56 часов | 210 динамиков (113 женщин / 97 мужчин) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
НЧЛТ Сетсвана | Сетсвана | 56 часов | 210 динамиков (109 женщин / 101 мужчина) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
НЧЛТ Сисвати | Сисвати | 56 часов | 197 спикеров (96 женщин / 101 мужчина) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
НЧЛТ Цшивенда | Чивенда | 56 часов | 208 динамиков (83 женщины/125 мужчин) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
НЧЛТ Сицонга | Ситсонга | 56 часов | 198 спикеров (95 женщин/103 мужчины) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Лвази II Межъязыковый корпус собственных имен | Африкаанс; Английский; исизулу; сесото | 2 часа 5 минут | 20 спикеров | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Лвази II Собственное имя Маршрутизация вызовов Телефонный корпус | Английский | 2 часа 7 минут | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Lwazi II Корпус отслеживания траекторий африкаанс | африкаанс | 4 часа | один мужчина | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriРечь | Английский | ~1000 часов | 2484 динамика (1201 женский/1283 мужской) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-Корейский | корейский | 52,8 часов | 115 динамиков | http://www.openslr.org/40/ | CC-BY 4.0 |
Речевые команды | Английский | 17,8 часов | >1000 спикеров | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ПарламентПарла | каталонский | 320 часов | https://www.openslr.org/59/ | CC-BY 4.0 | |
СИВИС | Французский | ~10 часов | одна женщина | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
ВЦТК | Английский | 44 часа | 109 спикеров | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
ЛибриТТС | Английский | 586 часов | 2456 говорящих (1185 женщин / 1271 мужчина) | http://www.openslr.org/60/ | CC-BY 4.0 |
Дополненная библиотекаРечь | Аудио (английский); Текст (английский, французский) | 236 часов | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Хельсинкский просодический корпус | Английский | 262,5 часа | 1230 динамиков | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
База данных речи Тувы | норвежский | 24 часа | 40 спикеров | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
Корпус COERLL Kicheʼ | Киче | 34 минуты | ? ораторы | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Таймеры и тому подобное v0.1 | Английский (синтетический: США, реальный: представители разных национальностей) | синтетическое: 172 часа, реальное: 0,29 часа | 21 синтетический, 11 настоящий | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Большой корпус пленарных слушаний парламента Чехии | чешский | 444 часа | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Ибан | Ибан | 8 часов | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Выстадиал 2013 | Английский; чешский | 41 час; 15 часов | http://www.openslr.org/6/ | CC-BY-SA 3.0 США | |
Выстадиал 2016 Чешский | чешский | 77 часов; включает Vystadial 2013 Чешский | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Свободный набор данных разговорных цифр | Английский | 2000 изолированных цифр | 4 динамика | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google яванский | яванский | 296 часов | 1019 динамиков | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google Непальский | непальский | 165 часов | 527 спикеров | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google Бенгальский | Бенгальский | 229 часов | 508 динамиков | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google сингальский | сингальский | 224 часа | 478 спикеров | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google Суданский | суданский | 333 часа | 542 динамика | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Разговорный корпус Википедии (SWC-2017) | Английский; Немецкий; Голландский | 182 часа; 249 часов; 79 часов | 395 динамиков; 339 динамиков; 145 спикеров | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
Чувашская ТТС | чувашский | 4 часа | 1 динамик | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Форшергейст | немецкий | 2 часа | 2 динамика (1 женщина; 1 мужчина) | спикер-женщина: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; спикер-мужчина: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Речевой корпус малаялам от SMC | малаялам | 1:36 часов | 75 говорящих (3 женщины, 12 мужчин, 60 неизвестных) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google малаялам | малаялам | 3,02 часа | 24 динамика | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Записанные дебаты IBM v1 | Английский | 5 часов | 10 спикеров | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Anaлиз | CC-BY-ND |
Записанные дебаты IBM v2 | Английский | ~14 часов | 14 динамиков | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Anaлиз | CC-BY-ND |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
TV3Парла | каталонский | 240 часов | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Открытый корпус СТТ России | Русский | ~10 000 часов публично, ещё ~10 000 часов по запросу. | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 с некоторыми исключениями | |
Российский открытый корпус TTS | Русский | 145 часов | 3 мужчины | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 с некоторыми ожиданиями |
OVM – Отазки Вацлава Моравце | чешский | 35 часов | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
CHiME-Home | Английский | 6,8 часов | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Корпус камерунского пиджин-английского языка | Камерунский пиджин-английский | ~17 часов | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Татоэба-Анг | Английский | ~250 часов (приблизительная оценка) | 6 динамиков | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (немного звука) / CC-BY-NC-ND 3.0 (большая часть звука) / CC-BY 2.0 (весь текст) |
ТЭД-ЛИУМ | Английский | 118 часов | 685 динамиков (36 часов женский / 81 час мужской) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
ТЭД-ЛИУМ-2 | Английский | 207 часов | 1242 динамика (66 часов женский / 141 час мужской) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
ТЭД-ЛИУМ-3 | Английский | 452 часа | 2028 динамиков (134 часа «женщина» / 316 часов «мужчина») | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Пансори TEDxKR | корейский | 3 часа | 41 спикер | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Праймворды мандаринского языка | Мандарин | 100 часов | 296 спикеров | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C v1.0 | Аудио (английский); Текст (голландский, французский, немецкий, итальянский, португальский, румынский, русский, испанский) | 408, 504, 492, 465, 442, 385, 432, 489 часов на языковую пару | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Заседания чешского парламента | чешский | 88 часов | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
БембаРечь | Бемба | 24 часа | 17 динамиков (9 мужчин/8 женщин) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
ДиПКо | Английский | ~5 часов | 32 спикера (13 женщин; 19 мужчин) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Разрешение-1.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
VoxForge | Английский | ~120 часов | ~2966 динамиков | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | Русский | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | немецкий | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
АЙШЕЛЛ-1 | Мандарин | 170 часов | 400 спикеров | http://www.openslr.org/33/ | Апач 2.0 |
Тунисский_MSA | Современный стандартный арабский язык (Тунис) | 11,2 часа | 118 динамиков | http://www.openslr.org/46/ | Апач 2.0 |
Французский с африканским акцентом | Французский | 22 часа | 232 динамика | http://www.openslr.org/57/ | Апач 2.0 |
ТХЧС-30 | Мандаринский китайский | 33,57 часа (13 389 высказываний) | 40 спикеров (31 женщина; 9 мужчин) | http://www.openslr.org/18/ | Апач 2.0 |
Набор данных Living Audio — голландский | Голландский | 57:49 мин. | 1 динамик | https://github.com/Idlak/Living-Audio-Dataset | Апач 2.0 |
Набор данных Living Audio – английский | Английский | 50:50 мин. | 1 динамик | https://github.com/Idlak/Living-Audio-Dataset | Апач 2.0 |
Набор данных Living Audio — ирландский | ирландский | 61:56 мин. | 1 динамик | https://github.com/Idlak/Living-Audio-Dataset | Апач 2.0 |
Набор данных Living Audio — русский | Русский | 34:58 мин. | 1 динамик | https://github.com/Idlak/Living-Audio-Dataset | Апач 2.0 |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
АЛЬФФА | Амхарский;хауса (платно); Суахили; Волоф | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | Массачусетский технологический институт |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
M-AILABS Немецкий корпус | немецкий | 237 часов 22 минуты | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS Королевский корпус английского языка | Королевский английский | 45 часов 35 минут | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS Корпус английского языка США | Американский английский | 102 часа и 7 минут | http://www.caito.de/data/Training/stt_tts/en_US.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS Испанский корпус | Испанский Испанский | 108 часов 34 минуты | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS Итальянский корпус | итальянский | 127 часов 40 минут | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
М-АЙЛАБС Украинский корпус | Украинский | 87 часов и 8 минут | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
М-АЙЛАБС Русский корпус | Русский | 46 часов 47 минут | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS French-v0.9 Корпус | Французский | 190 часов 30 минут | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) | |
M-AILABS Польский корпус | Польский | 53 часа 50 минут | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | ЛИЦЕНЗИЯ M-AILABS (3-пунктовая лицензия BSD для конкретных данных) |
КОРПУС | ЯЗЫКИ | # ЧАСЫ | # СПИКЕРЫ | СКАЧАТЬ | ЛИЦЕНЗИЯ |
---|---|---|---|---|---|
Корпус команд беглой речи | Английский | 19 часов (30 043 высказывания) | 97 спикеров | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Общественная лицензия на команды «Свободная речь» |
КМУ Дикая местность | 700 языков | Сообщения, распространяемые без звука и текста, всего: ~14 000 часов; за язык: ~20 часов | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
КХИМЕ-5 | Английский | 50 часов | 48 спикеров | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | Лицензия CHiME-5 |
Корпус бесстрашных шагов | Английский | 19 000 часов (20 часов в расшифровке) | ~450 динамиков | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Рекомендации НАСА по использованию средств массовой информации |
Microsoft Speech Corpus (индийские языки) | Телугу; тамильский; Гуджарати | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Лицензия Microsoft Speech Corpus (индийские языки) | ||
Корпус перевода Microsoft Speech Language | Английский; Китайский; японский | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Лицензионное соглашение Microsoft об исследовательских данных | ||
Эй, Корпус Снипса | Английский | 11 тысяч положительных высказываний «Эй, снипс» (~ 4,4 часа) и 87 тысяч отрицательных (~ 89 часов) высказываний | 2215 динамиков (положительные и отрицательные) и 4028 динамиков (только отрицательные) | https://research.snips.ai/datasets/keyword-spotting | Лицензия на данные Snips |
Корпус Снипса SLU | Английский; Французский | 1660 произнесений «Smart Lights EN» (~1,3 часа), 1286 «Smart Динамик EN» (~55 минут), 1138 «Smart Динамик FR» (~50 минут) | Английский: 69 человек; Французский: 30 говорящих | https://research.snips.ai/datasets/spoken-language-understanding | Лицензия на данные Snips |
Группа КМУ Сфинкс - AN4 | Английский | "an4_clstk" (~50 минут) "an4test_clstk" (~6 минут) | "an4_clstk": 21 женщина, 53 мужчины "an4test_clstk": 3 женщины, 7 мужчин | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | АН4 |
Речь FT | датский | ~1857 часов (1017244 высказывания) | 434 спикера (176 женщин, 258 мужчин) | https://ftspeech.dk | Лицензия FT на речь |
FalaBrasil-LAPS-Constituicao | Бразильско-Португальский | 9 часов | 1 динамик | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | «Основы транскрипции аудио и нормализованные основы текста (sem pontuação, com numeros escritos por extenso и т. д.) доступны для бесплатной формы * pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as base livres estão sendo disponibilizadas." |
FalaBrasil-LaPSMail | Бразильско-Португальский | 1 час | 25 спикеров | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | «Основы транскрипции аудио и нормализованные основы текста (sem pontuação, com numeros escritos por extenso и т. д.) доступны для бесплатной формы * pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as base livres estão sendo disponibilizadas." |
Тест FalaBrasil-LaPS | Бразильско-Португальский | 1 час | 1 динамик | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | «Основы транскрипции аудио и нормализованные основы текста (sem pontuação, com numeros escritos por extenso и т. д.) доступны для бесплатной формы * pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as base livres estão sendo disponibilizadas." |