قائمة بمجموعات الكلام المفتوحة لأبحاث وتطوير تكنولوجيا الكلام.
تفضل هذه القائمة القائمة المجانية (أي بدون تكلفة بالدولار) والمجموعات المفتوحة حقًا (على سبيل المثال، التي تم إصدارها بموجب ترخيص المشاع الإبداعي أو اتفاقية ترخيص بيانات المجتمع). قد لا تستوفي جميع هذه المجموعات هذه المعايير، ولكن جميع المجموعات التالية يمكن الوصول إليها واستخدامها لأغراض البحث و/أو الاستخدام التجاري.
لا تتردد في اقتراح الإضافات إلى القائمة!
هناك تراكم طويل من المجموعات التي سيتم إضافتها في المشكلات، وطلبات السحب مرحب بها للغاية :)
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
الصوت المشترك | متعدد اللغات | > 15,000 ساعة (تم التحقق من صحتها)؛ > 20,000 ساعة (الإجمالي) | متعدد المتكلمين | https://voice.mozilla.org/en/datasets | CC-0 |
نعم لا | العبرية | 6 دقائق | ذكر واحد | http://www.openslr.org/1/ | CC-0 |
مجموعة خطاب LJ | إنجليزي | ~24 ساعة | أنثى واحدة | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
قاعدة بيانات NST الدنماركية ASR | دانماركي | 229,992 أقوال | 616 مكبر صوت | الأصلي: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/، أعيد تنظيمه: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
NST الإملاء الدنماركي | دانماركي | 34,955 أقوال | 151 مكبر صوت | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
NST تركيب الكلام الدنماركي | دانماركي | 4,108 أقوال | 1 متحدث ذكر | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
قاعدة بيانات NST السويدية ASR | السويدية | 366.000 كلام | 1000 متحدث | الأصلي: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/، أعيد تنظيمه: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
NST الإملاء السويدي | السويدية | 45,620 أقوال | 195 مكبر صوت | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
NST تركيب الكلام السويدي | السويدية | 5,279 أقوال | 1 متحدث ذكر | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
قاعدة بيانات NST النرويجية ASR | النرويجية | 359,760 أقوال | 980 مكبر صوت | الأصلي: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/، أعيد تنظيمه: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
NST الإملاء النرويجي | النرويجية | 33,360 أقوال | 144 مكبر صوت | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
NST تركيب الكلام النرويجي | النرويجية | 5,363 أقوال | 1 متحدث ذكر | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – قاعدة بيانات الكلام للغة النرويجية | النرويجية | 7,600 عبارة + ~12 ساعة | 380 مكبر صوت | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
مجموعة الخطابات البرلمانية النرويجية (الإصدار 0.1) | النرويجية | ~59 ساعة | 203 مكبرات صوت | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
ويكيميديا كومنز أوديا | أوديا | ~ 8 ساعات | ~ 20 مكبر صوت | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | في الغالب (؟) CC-0 |
ثورستن-21.02-محايد | الألمانية | ~24 ساعة | 1 متحدث ذكر | https://www.Thorsten-Voice.de | CC-0 |
ثورستن-21.06-عاطفي | الألمانية | 2.400 كلام (8 مشاعر) | 1 متحدث ذكر | https://www.Thorsten-Voice.de | CC-0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
ARU مجموعة الكلام | الإنجليزية (المملكة المتحدة) | 720 أقوال / مكبر صوت | 12 (6 إناث، 6 ذكور) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
مجموعة خطابات ألثينجي البرلمانية | الأيسلندية | 542 ساعة و 25 دقيقة | 196 مكبر صوت | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Alþingisumræður مجموعة الخطابات البرلمانية | الأيسلندية | ~21 ساعة | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
هجال كوربوس | الأيسلندية | ~ 41000 تسجيلات | 883 مكبر صوت | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
مجموعة مالرومور | الأيسلندية | 152 ساعة | 563 مكبر صوت | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
التعاون عن بعد في المجموعة الألمانية لـ Kinect | الألمانية | ~ 35 ساعة | ~ 180 مكبر صوت | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
تكنولوجيا الكلام الأفريقية مجموعة الكلام الإنجليزية-الإنجليزية | إنجليزي | ~21 ساعة | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 جنوب أفريقيا | |
تكنولوجيا الكلام الأفريقية هي مجموعة خطابات Xhosa | com.isiXhosa | ~26 ساعة | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 جنوب أفريقيا | |
NCHLT الأفريكانية | الأفريكانية | 56 ساعة | 210 مكبر صوت (98 أنثى / 112 ذكر) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
إنكلت الإنجليزية | إنجليزي | 56 ساعة | 210 مكبر صوت (100 أنثى / 110 ذكر) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | com.isiNdebele | 56 ساعة | 148 متحدثًا (78 أنثى / 70 ذكرًا) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | com.isiXhosa | 56 ساعة | 209 مكبرات صوت (106 إناث / 103 ذكور) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT إيزيزولو | com.isiZulu | 56 ساعة | 210 مكبر صوت (98 أنثى / 112 ذكر) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT السيبيدية | السيبيدية | 56 ساعة | 210 مكبر صوت (100 أنثى / 110 ذكر) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT سيسوتو | سيسوتو | 56 ساعة | 210 مكبر صوت (113 أنثى / 97 ذكر) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT سيتسوانا | سيتسوانا | 56 ساعة | 210 مكبر صوت (109 أنثى / 101 ذكر) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT سيسواتي | سيسواتي | 56 ساعة | 197 متحدثًا (96 أنثى / 101 ذكر) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
نتشلت تشيفندا | تشيفيندا | 56 ساعة | 208 متحدثًا (83 أنثى / 125 ذكرًا) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT شيتسونجا | شيتسونجا | 56 ساعة | 198 متحدثًا (95 أنثى/103 ذكرًا) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Lwazi II مجموعة الاسم الصحيح عبر اللغات | الأفريكانية؛ إنجليزي؛ إيزيزولو؛ سيسوتو | 2 ساعة 5 دقائق | 20 مكبر صوت | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II الاسم الصحيح لتوجيه المكالمات الهاتفية | إنجليزي | 2 ساعة 7 دقائق | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
مجموعة تتبع مسار Lwazi II الأفريكانية | الأفريكانية | 4 ساعات | ذكر واحد | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriSpeech | إنجليزي | ~1000 ساعة | 2484 مكبر صوت (1201 أنثى / 1283 ذكر) | http://www.openslr.org/12/ | CC-BY 4.0 |
صفر-كورية | كوري | 52.8 ساعة | 115 مكبر صوت | http://www.openslr.org/40/ | CC-BY 4.0 |
أوامر الكلام | إنجليزي | 17.8 ساعة | > 1000 مكبر صوت | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlamentParla | الكاتالونية | 320 ساعة | https://www.openslr.org/59/ | CC-BY 4.0 | |
سيويس | فرنسي | ~10 ساعات | أنثى واحدة | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | إنجليزي | 44 ساعة | 109 المتحدثين | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | إنجليزي | 586 ساعة | 2,456 متحدثًا (1,185 أنثى / 1,271 ذكرًا) | http://www.openslr.org/60/ | CC-BY 4.0 |
خطاب Libri المعزز | الصوت (الإنجليزية)؛ النص (الإنجليزية والفرنسية) | 236 ساعة | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
هلسنكي بروسودي كوربوس | إنجليزي | 262.5 ساعة | 1,230 مكبر صوت | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
قاعدة بيانات الكلام توفا | النرويجية | 24 ساعة | 40 مكبر صوت | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
مجموعة COERLL Kʼicheʼ | كيتش | 34 دقيقة | ؟ مكبرات الصوت | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
الموقتات وما شابه v0.1 | الإنجليزية (الاصطناعية: أمريكية، الحقيقية: جنسيات مختلفة) | الاصطناعية: 172 ساعة، الحقيقية: 0.29 ساعة | 21 اصطناعي، 11 حقيقي | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
مجموعة كبيرة من جلسات الاستماع العامة للبرلمان التشيكي | التشيكية | 444 ساعة | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
ايبان | ايبان | 8 ساعات | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
فيستاديال 2013 | إنجليزي؛ التشيكية | 41 ساعة؛ 15 ساعة | http://www.openslr.org/6/ | CC-BY-SA 3.0 الولايات المتحدة | |
فيستاديال 2016 التشيكية | التشيكية | 77 ساعة؛ يشمل Vystadial 2013 التشيكية | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
مجموعة بيانات رقمية منطوقة مجانية | إنجليزي | 2000 رقم معزول | 4 مكبرات صوت | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
جوجل الجاوية | الجاوية | 296 ساعة | 1019 مكبر صوت | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
جوجل النيبالية | النيبالية | 165 ساعة | 527 مكبر صوت | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
جوجل البنغالية | البنغالية | 229 ساعة | 508 مكبرات صوت | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
جوجل السنهالية | السنهالية | 224 ساعة | 478 مكبر صوت | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
جوجل السودانية | السودانية | 333 ساعة | 542 مكبر صوت | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
مجموعة ويكيبيديا المنطوقة (SWC-2017) | إنجليزي؛ الألمانية؛ هولندي | 182 ساعة؛ 249 ساعة؛ 79 ساعة | 395 مكبر صوت؛ 339 مكبر صوت؛ 145 مكبر صوت | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
تشوفاش تحويل النص إلى كلام | تشوفاش | 4 ساعات | 1 مكبر صوت | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
فورشيرجيست | الألمانية | ساعاتين | 2 مكبرات الصوت (1 أنثى، 1 ذكر) | المتحدثة: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz؛ متحدث ذكر: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
مجموعة خطاب المالايالامية بواسطة SMC | المالايالامية | 1:36 ساعة | 75 متحدثًا (3 إناث، 12 ذكرًا، 60 غير محددين) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
جوجل المالايالامية | المالايالامية | 3.02 ساعة | 24 مكبر صوت | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
مناظرات IBM المسجلة v1 | إنجليزي | 5 ساعات | 10 مكبرات صوت | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analogy | CC-BY-ND |
مناظرات IBM المسجلة v2 | إنجليزي | ~ 14 ساعة | 14 مكبر صوت | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analogy | CC-BY-ND |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
TV3Parla | الكاتالونية | 240 ساعة | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
الروسية المفتوحة STT كوربوس | الروسية | ~10,000 ساعة عامة، ~10,000 ساعة أخرى عند الطلب | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 مع بعض الاستثناءات | |
الروسية المفتوحة تحويل النص إلى كلام كوربوس | الروسية | 145 ساعة | 3 ذكور | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 مع بعض التوقعات |
OVM – أوتازكي فاكلافا مورافسي | التشيكية | 35 ساعة | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
CHiME-الصفحة الرئيسية | إنجليزي | 6.8 ساعة | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
الكاميرون لغة مبسطة الإنجليزية كوربوس | الكاميرون مبسطة الإنجليزية | ~17 ساعة | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
تتويبا-م | إنجليزي | ~250 ساعة (تقدير تقريبي) | 6 مكبرات صوت | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (بعض الصوت) / CC-BY-NC-ND 3.0 (معظم الصوت) / CC-BY 2.0 (كل النص) |
تيد-ليم | إنجليزي | 118 ساعة | 685 مكبر صوت (36 ساعة للإناث / 81 ساعة للذكور) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
تيد-ليم-2 | إنجليزي | 207 ساعة | 1242 مكبر صوت (66 ساعة للإناث / 141 ساعة للذكور) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
تيد-ليم-3 | إنجليزي | 452 ساعة | 2028 مكبر صوت (134 ساعة للإناث / 316 ساعة للذكور) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
بانسوري TEDxKR | كوري | 3 ساعات | 41 مكبر صوت | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
الكلمات الأولية الماندرين | الماندرين | 100 ساعة | 296 مكبر صوت | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
موست-C v1.0 | الصوت (الإنجليزية)؛ النص (الهولندية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الرومانية، الروسية، الإسبانية) | 408، 504، 492، 465، 442، 385، 432، 489 ساعة لكل زوج لغوي | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
اجتماعات البرلمان التشيكي | التشيكية | 88 ساعة | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaSpeech | بيمبا | 24 ساعة | 17 مكبر صوت (9 ذكور / 8 إناث) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
ديبكو | إنجليزي | ~5 ساعات | 32 متحدثًا (13 أنثى و19 ذكرًا) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-مسموح-1.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
فوكس فورج | إنجليزي | ~120 ساعة | ~ 2966 مكبر صوت | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16k هرتز_16bit/ https://voice.mozilla.org/en/datasets | جنو-جي بي إل 3.0 |
فوكس فورج | الروسية | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16k هرتز_16bit/ http://www.repository.voxforge1.org/downloads/russian/Trunk/Audio/Main/16k هرتز_16bit/ | جنو-جي بي إل 3.0 | ||
فوكس فورج | الألمانية | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16k هرتز_16bit/ | جنو-جي بي إل 3.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
إيشيل-1 | الماندرين | 170 ساعة | 400 مكبر صوت | http://www.openslr.org/33/ | أباتشي 2.0 |
tunisian_MSA | اللغة العربية الفصحى الحديثة (تونس) | 11.2 ساعة | 118 مكبر صوت | http://www.openslr.org/46/ | أباتشي 2.0 |
الفرنسية بلكنة أفريقية | فرنسي | 22 ساعة | 232 مكبر صوت | http://www.openslr.org/57/ | أباتشي 2.0 |
ثكشس-30 | لغة الماندرين الصينية | 33.57 ساعة (13389 كلمة) | 40 متحدثًا (31 أنثى و9 ذكور) | http://www.openslr.org/18/ | أباتشي 2.0 |
مجموعة البيانات الصوتية الحية - الهولندية | هولندي | 57:49 دقيقة | 1 مكبر صوت | https://github.com/Idlak/Living-Audio-Dataset | أباتشي 2.0 |
مجموعة البيانات الصوتية الحية - الإنجليزية | إنجليزي | 50:50 دقيقة | 1 مكبر صوت | https://github.com/Idlak/Living-Audio-Dataset | أباتشي 2.0 |
مجموعة بيانات الصوت الحية - الأيرلندية | الأيرلندية | 61:56 دقيقة | 1 مكبر صوت | https://github.com/Idlak/Living-Audio-Dataset | أباتشي 2.0 |
مجموعة البيانات الصوتية الحية - الروسية | الروسية | 34:58 دقيقة | 1 مكبر صوت | https://github.com/Idlak/Living-Audio-Dataset | أباتشي 2.0 |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
ألفا | الأمهرية؛ الهوسا (مدفوعة)؛ السواحلية؛ الولوف | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | معهد ماساتشوستس للتكنولوجيا |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
M-AILABS المجموعة الألمانية | الألمانية | 237 ساعة و 22 دقيقة | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS مجموعة الملكة الإنجليزية | الإنجليزية الملكة | 45 ساعة و 35 دقيقة | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS مجموعة اللغة الإنجليزية الأمريكية | الإنجليزية الأمريكية | 102 ساعة و 7 دقائق | http://www.caito.de/data/Training/stt_tts/en_US.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS كوربوس الإسبانية | الاسبانية الاسبانية | 108 ساعة و34 دقيقة | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS المجموعة الإيطالية | ايطالي | 127 ساعة و40 دقيقة | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS الأوكرانية كوربوس | الأوكرانية | 87 ساعة و 8 دقائق | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS كوربوس الروسي | الروسية | 46 ساعة و 47 دقيقة | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS الفرنسية-v0.9 كوربوس | فرنسي | 190 ساعة و30 دقيقة | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) | |
M-AILABS المجموعة البولندية | بولندي | 53 ساعة و 50 دقيقة | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | ترخيص M-AILABS (ترخيص BSD خاص بالبيانات مكون من 3 فقرات) |
مجموعة | اللغات | # ساعات | # المتحدثون | تحميل | رخصة |
---|---|---|---|---|---|
أوامر الكلام بطلاقة مجموعة | إنجليزي | 19 ساعة (30,043 كلمة) | 97 مكبر صوت | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | الكلام بطلاقة يتطلب رخصة عامة |
CMU البرية | 700 لانج | التوافقات الموزعة بدون صوت أو نص إجمالي: ~ 14000 ساعة؛ لكل لغة: ~20 ساعة | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
الرنين-5 | إنجليزي | 50 ساعة | 48 مكبر صوت | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | ترخيص CHiME-5 |
خطوات لا تعرف الخوف | إنجليزي | 19000 ساعة (20 ساعة مكتوبة) | ~ 450 مكبر صوت | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | إرشادات استخدام الوسائط الخاصة بوكالة ناسا |
Microsoft Speech Corpus (اللغات الهندية) | التيلجو. التاميل؛ الغوجاراتية | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | ترخيص Microsoft Speech Corpus (اللغات الهندية). | ||
مجموعة ترجمة لغة الكلام من مايكروسوفت | إنجليزي؛ الصينية؛ اليابانية | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | اتفاقية ترخيص بيانات أبحاث Microsoft | ||
يا سنيبس كوربوس | إنجليزي | 11 ألف عبارة إيجابية "Hey Snips" (حوالي 4.4 ساعات) و87 ألف عبارة سلبية (حوالي 89 ساعة) | 2215 مكبر صوت (إيجابي وسلبي) و4028 مكبر صوت (سلبي فقط) | https://research.snips.ai/datasets/keyword-spotting | رخصة بيانات القصاصات |
القصاصات SLU كوربوس | إنجليزي؛ فرنسي | 1660 "Smart Lights EN" (~1.3 ساعة)، 1286 "Smart المتحدث EN" (~55 دقيقة)، 1138 "Smart مكبر الصوت FR" (~50 دقيقة) | الإنجليزية: 69 متحدثًا؛ الفرنسية: 30 متحدثاً | https://research.snips.ai/datasets/spoken-language-understanding | رخصة بيانات القصاصات |
CMU مجموعة سفنكس - AN4 | إنجليزي | "an4_clstk"(~ 50 دقيقة) "an4test_clstk" (~ 6 دقائق) | "an4_clstk": 21 أنثى، 53 ذكر "an4test_clstk": 3 إناث، 7 ذكور | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
خطاب FT | دانماركي | ~1,857 ساعة (1,017,244 عبارة) | 434 متحدثًا (176 أنثى، 258 ذكرًا) | https://ftspeech.dk | رخصة الكلام FT |
FalaBrasil-LAPS-Constituicao | البرازيلية البرتغالية | 9 ساعات | 1 مكبر صوت | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "قواعد نسخ الصوت وقواعد النص المعدلة (بدون كتابة، بأرقام مكتوبة على نطاق واسع، وما إلى ذلك) متاحة مجانًا* من خلال مجموعة FalaBrasil. [disponibilizadas de forma free*] / Portanto، فقط كقواعد مجانية متاحة disponibilizadas." |
FalaBrasil-LaPSMail | البرازيلية البرتغالية | 1 ساعة | 25 مكبر صوت | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "قواعد نسخ الصوت وقواعد النص المعدلة (بدون كتابة، بأرقام مكتوبة على نطاق واسع، وما إلى ذلك) متاحة مجانًا* من خلال مجموعة FalaBrasil. [disponibilizadas de forma free*] / Portanto، فقط كقواعد مجانية متاحة disponibilizadas." |
FalaBrasil-LaPS المعياري | البرازيلية البرتغالية | 1 ساعة | 1 مكبر صوت | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "قواعد نسخ الصوت وقواعد النص المعدلة (بدون كتابة، بأرقام مكتوبة على نطاق واسع، وما إلى ذلك) متاحة مجانًا* من خلال مجموعة FalaBrasil. [disponibilizadas de forma free*] / Portanto، فقط كقواعد مجانية متاحة disponibilizadas." |