Kumpulan Data Audio AI (AI-ADS)?
AI Audio Datasets (AI-ADS) ?, termasuk Pidato, Musik, dan Efek Suara, yang dapat menyediakan data pelatihan untuk AI Generatif, AIGC, pelatihan model AI, pengembangan alat audio cerdas, dan aplikasi audio.
Daftar isi
Daftar Proyek
Pidato
- AISHELL-1 - AISHELL-1 adalah korpus untuk penelitian pengenalan suara dan membangun sistem pengenalan suara untuk bahasa Mandarin.
- AISHELL-3 - AISHELL-3 adalah korpus pidato Mandarin multi-speaker berskala besar dan fidelitas tinggi yang diterbitkan oleh Beijing Shell Shell Technology Co., Ltd. Ini dapat digunakan untuk melatih sistem Text-to-Speech (TTS) multi-speaker. Korpus ini berisi sekitar 85 jam rekaman netral emosi yang diucapkan oleh 218 penutur asli bahasa mandarin Tiongkok dan total 88.035 ucapan.
- Korpus Pidato Bahasa Arab - Korpus Pidato Bahasa Arab (1,5 GB) adalah korpus pidato Bahasa Arab Standar Modern (MSA) untuk sintesis ucapan. Korpus berisi transkripsi fonetik dan ortografis lebih dari 3,7 jam ucapan MSA yang diselaraskan dengan rekaman ucapan pada tingkat fonem. Anotasinya mencakup tanda tekanan kata pada masing-masing fonem.
- AudioMNIST - Kumpulan data terdiri dari 30.000 sampel audio digit lisan (0-9) dari 60 pembicara berbeda.
- AVSpeech - AVSpeech adalah kumpulan data audio-visual berskala besar yang terdiri dari klip ucapan tanpa sinyal latar belakang yang mengganggu. Panjang segmennya bervariasi, antara 3 dan 10 detik, dan di setiap klip, satu-satunya wajah yang terlihat dalam video dan suara yang terdengar di soundtrack adalah milik satu orang yang berbicara. Secara total, kumpulan data tersebut berisi sekitar 4.700 jam segmen video dengan sekitar 150.000 pembicara berbeda, yang mencakup berbagai macam orang, bahasa, dan pose wajah.
- ATIS (Airline Travel Information Systems) - ATIS (Airline Travel Information Systems) adalah kumpulan data yang terdiri dari rekaman audio dan transkrip manual terkait tentang manusia yang meminta informasi penerbangan pada sistem penyelidikan perjalanan maskapai otomatis. Data tersebut terdiri dari 17 kategori niat unik. Pemisahan asli masing-masing berisi 4478, 500, dan 893 ucapan referensi berlabel maksud di set pelatihan, pengembangan, dan pengujian.
- Dataset Carnatic Varnam - Dataset Carnatic varnam adalah kumpulan 28 rekaman vokal solo, yang direkam untuk penelitian kami tentang analisis intonasi raga Carnatic. Koleksinya terdiri dari rekaman audio, anotasi siklus tala yang diselaraskan waktu, dan notasi swara dalam format yang dapat dibaca mesin.
- Percakapan Santai - Kumpulan data Percakapan Santai dirancang untuk membantu peneliti mengevaluasi akurasi visi komputer dan model audio mereka di berbagai usia, jenis kelamin, warna kulit, dan kondisi pencahayaan sekitar.
- CN-Celeb - CN-Celeb adalah kumpulan data pengenalan pembicara berskala besar yang dikumpulkan `di alam liar'. Kumpulan data ini berisi lebih dari 130.000 ucapan dari 1.000 selebritas Tiongkok, dan mencakup 11 genre berbeda di dunia nyata.
- Clotho - Clotho merupakan kumpulan data teks audio yang terdiri dari 4981 sampel audio, dan setiap sampel audio memiliki lima teks (total 24.905 teks). Sampel audio berdurasi 15 hingga 30 detik dan teks panjangnya delapan hingga 20 kata.
- Common Voice - Common Voice adalah kumpulan data audio yang terdiri dari MP3 unik dan file teks terkait. Ada 9.283 jam yang tercatat dalam dataset. Kumpulan data tersebut juga mencakup metadata demografis seperti usia, jenis kelamin, dan aksen. Kumpulan data terdiri dari 7.335 jam tervalidasi dalam 60 bahasa.
- CoVoST - CoVoST adalah korpus terjemahan ucapan-ke-teks multibahasa berskala besar. Versi ke-2 terbarunya mencakup terjemahan dari 21 bahasa ke dalam bahasa Inggris dan dari bahasa Inggris ke dalam 15 bahasa. Ini memiliki total 2880 jam bicara dan terdiversifikasi dengan 78 ribu speaker dan 66 aksen.
- CVSS - CVSS adalah korpus terjemahan ucapan ke ucapan (S2ST) multibahasa-ke-Inggris secara besar-besaran, yang mencakup pasangan S2ST paralel tingkat kalimat dari 21 bahasa ke dalam bahasa Inggris. CVSS berasal dari korpus ucapan Common Voice dan korpus terjemahan ucapan-ke-teks (ST) CoVoST 2, dengan mensintesis teks terjemahan dari CoVoST 2 menjadi ucapan menggunakan sistem TTS yang canggih.
- EasyCom - Kumpulan data Easy Communications (EasyCom) adalah kumpulan data pertama di dunia yang dirancang untuk membantu mengurangi efek pesta koktail dari pandangan dunia egosentris multi-sensor yang bermotivasi augmented reality (AR). Kumpulan data berisi audio rangkaian mikrofon multi-saluran egosentris kacamata AR, video RGB bidang pandang lebar, pose sumber ucapan, audio mikrofon headset, aktivitas suara beranotasi, transkripsi ucapan, kotak pembatas kepala dan wajah, serta label identifikasi sumber. Kami telah membuat dan merilis kumpulan data ini untuk memfasilitasi penelitian solusi AR multi-modal untuk masalah pesta koktail.
- Emilia - Kumpulan data Emilia adalah sumber daya multibahasa komprehensif yang mencakup lebih dari 101.000 jam data ucapan dalam enam bahasa berbeda: Inggris (En), China (Zh), Jerman (De), Prancis (Fr), Jepang (Ja), dan Korea (Ko). Ini menampilkan beragam data ucapan yang mewakili berbagai gaya berbicara dari berbagai platform video dan podcast di Internet, mencakup berbagai genre konten seperti acara bincang-bincang, wawancara, debat, komentar olahraga, dan buku audio.
- ESD (Emotional Speech Database) - ESD adalah Database Pidato Emosional untuk penelitian konversi suara. Basis data ESD terdiri dari 350 ucapan paralel yang diucapkan oleh 10 penutur asli bahasa Inggris dan 10 penutur asli bahasa Mandarin dan mencakup 5 kategori emosi (netral, senang, marah, sedih, dan terkejut). Lebih dari 29 jam data ucapan direkam dalam lingkungan akustik yang terkendali. Basis data ini cocok untuk studi konversi suara emosional multi-speaker dan lintas bahasa.
- FPT Open Speech Dataset (FOSD) - Kumpulan data ini terdiri dari 25.921 rekaman pidato bahasa Vietnam (beserta transkripnya dan label waktu mulai dan berakhirnya setiap pidato) yang dikumpulkan secara manual dari 3 sub-kumpulan data (total sekitar 30 jam) yang dirilis ke publik pada tahun 2018 oleh Perusahaan FPT.
- Kumpulan Data Digit Lisan Gratis (FSDD) - Kumpulan data audio gratis untuk digit lisan. Pikirkan MNIST untuk audio. Kumpulan data audio/ucapan sederhana yang terdiri dari rekaman angka yang diucapkan dalam file wav pada 8kHz. Rekaman dipangkas sedemikian rupa sehingga memiliki keheningan minimal di awal dan akhir.
- Perintah Ucapan Lancar - Perintah Ucapan Lancar adalah kumpulan data audio sumber terbuka untuk eksperimen pemahaman bahasa lisan (SLU). Setiap ucapan diberi label dengan nilai “tindakan”, “objek”, dan “lokasi”; misalnya, "menyalakan lampu di dapur" memiliki label {"action": "activate", "object": "lights", "location": "kitchen"}. Sebuah model harus memprediksi masing-masing nilai ini, dan prediksi suatu ucapan dianggap benar hanya jika semua nilainya benar.
- Kumpulan Data Genshin - Kumpulan Data Genshin Untuk SVC/SVS/TTS.
- GenshinVoice - Kumpulan data suara Genshin Impact 原神语音数据集
- GigaSpeech - GigaSpeech, korpus pengenalan ucapan bahasa Inggris multi-domain yang terus berkembang dengan 10.000 jam audio berlabel berkualitas tinggi yang cocok untuk pelatihan yang diawasi, dan total 40.000 jam audio yang cocok untuk pelatihan semi-supervisi dan tanpa pengawasan.
- GigaSpeech 2 - Korpus ASR yang berkembang, berskala besar, dan multi-domain untuk bahasa dengan sumber daya rendah dengan perayapan, transkripsi, dan penyempurnaan otomatis.
- How2 - Kumpulan data How2 berisi 13.500 video, atau 300 jam pidato, dan dibagi menjadi 185.187 pelatihan, 2022 pengembangan (dev), dan 2.361 ucapan pengujian. Ini memiliki subtitle dalam bahasa Inggris dan terjemahan Portugis crowdsourced.
- inaGVAD - kumpulan data TV dan Radio Prancis yang menantang yang dianotasi untuk deteksi aktivitas suara (VAD) dan Segmentasi Gender Pembicara (SGS) dengan skrip evaluasi dan skema anotasi terperinci yang merinci jenis peristiwa non-ucapan, ciri-ciri pembicara, dan kualitas ucapan
- KdConv - KdConv adalah kumpulan data Konversi Berbasis Pengetahuan multi-domain Tiongkok, yang mendasarkan topik dalam percakapan multi-putaran ke grafik pengetahuan. KdConv berisi 4,5 ribu percakapan dari tiga domain (film, musik, dan perjalanan), dan 86 ribu ucapan dengan jumlah giliran rata-rata 19,0. Percakapan ini berisi diskusi mendalam tentang topik terkait dan transisi alami antara berbagai topik, sementara korpus juga dapat digunakan untuk eksplorasi pembelajaran transfer dan adaptasi domain.
- Libriheavy - Libriheavy: korpus ASR 50.000 jam dengan tanda baca dan konteks.
- LibriSpeech - Korpus LibriSpeech adalah kumpulan buku audio berdurasi sekitar 1.000 jam yang merupakan bagian dari proyek LibriVox. Sebagian besar buku audio berasal dari Proyek Gutenberg. Data pelatihan dibagi menjadi 3 partisi set 100 jam, 360 jam, dan 500 jam, sedangkan data pengembangan dan pengujian masing-masing dibagi menjadi kategori 'bersih' dan 'lainnya', bergantung pada seberapa baik atau menantang kinerja sistem Pengenalan Ucapan Otomatis terhadap . Masing-masing set pengembangan dan pengujian memiliki durasi audio sekitar 5 jam.
- LibriTTS - LibriTTS adalah korpus bahasa Inggris multi-speaker yang berisi sekitar 585 jam pidato bahasa Inggris yang dibaca pada kecepatan pengambilan sampel 24kHz, disiapkan oleh Heiga Zen dengan bantuan anggota tim Google Speech dan Google Brain. Korpus LibriTTS dirancang untuk penelitian TTS. Ini berasal dari materi asli (file audio mp3 dari LibriVox dan file teks dari Project Gutenberg) dari korpus LibriSpeech.
- LibriTTS-R - LibriTTS-R: Corpus Text-to-Speech Multi-Speaker yang Dipulihkan. Hal ini diperoleh dengan menerapkan pemulihan ucapan ke korpus LibriTTS, yang terdiri dari 585 jam data ucapan pada kecepatan pengambilan sampel 24 kHz dari 2.456 pembicara dan teks terkait. Sampel penyusun LibriTTS-R identik dengan LibriTTS, hanya kualitas suaranya yang ditingkatkan.
- LJSpeech (Kumpulan Data Pidato LJ) - Ini adalah kumpulan data pidato domain publik yang terdiri dari 13.100 klip audio pendek dari satu pembicara yang membaca bagian dari 7 buku non-fiksi. Transkripsi disediakan untuk setiap klip. Durasi klip bervariasi dari 1 hingga 10 detik dan memiliki total durasi sekitar 24 jam. Teks-teks tersebut diterbitkan antara tahun 1884 dan 1964, dan berada dalam domain publik. Audio direkam pada 2016-17 oleh proyek LibriVox dan juga berada dalam domain publik.
- LRS2 (Lip Reading Sentences 2) - Kumpulan data Oxford-BBC Lip Reading Sentences 2 (LRS2) adalah salah satu kumpulan data terbesar yang tersedia untuk umum untuk kalimat membaca bibir di alam liar. Basis datanya sebagian besar terdiri dari berita dan acara bincang-bincang dari program BBC. Setiap kalimat panjangnya hingga 100 karakter.
- LRW (Lip Reading in the Wild) - Kumpulan data Lip Reading in the Wild (LRW) merupakan database audio-visual berskala besar yang berisi 500 kata berbeda dari lebih dari 1.000 pembicara. Setiap ujaran mempunyai 29 frame yang batasannya berpusat pada kata sasaran. Basis data dibagi menjadi set pelatihan, validasi, dan pengujian. Set pelatihan berisi setidaknya 800 ucapan untuk setiap kelas sedangkan set validasi dan pengujian berisi 50 ucapan.
- MuAViC - Korpus Audio-Visual Multibahasa untuk Pengenalan Ucapan yang Kuat dan Terjemahan Ucapan-ke-Teks yang Kuat.
- MuST-C - MuST-C saat ini mewakili korpus multibahasa terbesar yang tersedia untuk umum (satu-ke-banyak) untuk terjemahan ucapan. Ini mencakup delapan arah bahasa, dari Inggris hingga Jerman, Spanyol, Prancis, Italia, Belanda, Portugis, Rumania, dan Rusia. Korpusnya terdiri dari audio, transkripsi, dan terjemahan pembicaraan TED bahasa Inggris, dan dilengkapi dengan pelatihan, validasi, dan pemisahan tes yang telah ditentukan sebelumnya.
- MetaQA (MoviE Text Audio QA) - Kumpulan data MetaQA terdiri dari ontologi film yang berasal dari Kumpulan Data WikiMovies dan tiga set pasangan tanya jawab yang ditulis dalam bahasa alami: kueri 1-hop, 2-hop, dan 3-hop.
- MELD (Set Data Multimodal EmotionLines) - Kumpulan Data Multimodal EmotionLines (MELD) telah dibuat dengan menyempurnakan dan memperluas kumpulan data EmotionLines. MELD berisi contoh dialog yang sama dengan yang tersedia di EmotionLines, tetapi juga mencakup modalitas audio dan visual bersama dengan teks. MELD memiliki lebih dari 1400 dialog dan 13000 ucapan dari serial TV Friends. Sejumlah pembicara berpartisipasi dalam dialog tersebut. Setiap ucapan dalam dialog diberi label oleh salah satu dari tujuh emosi berikut -- Marah, Jijik, Sedih, Sukacita, Netral, Terkejut, dan Takut. MELD juga memiliki anotasi sentimen (positif, negatif, dan netral) untuk setiap ucapan.
- Microsoft Speech Corpus (Bahasa India) - Rilis Microsoft Speech Corpus (Bahasa India) berisi pelatihan pidato percakapan dan phrasal serta data pengujian untuk bahasa Telugu, Tamil, dan Gujarati. Paket data mencakup audio dan transkrip terkait. Data yang disediakan dalam kumpulan data ini tidak boleh digunakan untuk tujuan komersial. Anda dapat menggunakan data tersebut semata-mata untuk tujuan penelitian. Jika Anda mempublikasikan temuan Anda, Anda harus memberikan atribusi berikut: “Data disediakan oleh Microsoft dan SpeechOcean.com”.
- PATS (Pose Audio Transcript Style) - Kumpulan data PATS terdiri dari beragam pose, audio, dan transkrip yang selaras. Dengan kumpulan data ini, kami berharap dapat memberikan tolok ukur yang dapat membantu mengembangkan teknologi untuk agen virtual yang menghasilkan isyarat alami dan relevan.
- RealMAN - RealMAN: Kumpulan Data Array Mikrofon yang Direkam Secara Nyata dan Dianotasi untuk Peningkatan dan Pelokalan Ucapan Dinamis.
- SAVEE (Surrey Audio-Visual Expressed Emotion) - Kumpulan data Surrey Audio-Visual Expressed Emotion (SAVEE) dicatat sebagai prasyarat untuk pengembangan sistem pengenalan emosi otomatis. Basis data terdiri dari rekaman dari 4 aktor pria dalam 7 emosi berbeda, total 480 ucapan bahasa Inggris British. Kalimat-kalimat tersebut dipilih dari korpus TIMIT standar dan diseimbangkan secara fonetis untuk setiap emosi.
- SoS_Dataset - Suara Cerita: Bercerita Multi-modal dengan Audio. Bercerita adalah multi-modal di dunia nyata. Ketika seseorang menceritakan sebuah cerita, ia dapat menggunakan semua visualisasi dan suara bersama dengan cerita itu sendiri. Namun, penelitian sebelumnya mengenai kumpulan data dan tugas bercerita hanya memberikan sedikit perhatian pada suara meskipun suara juga menyampaikan semantik cerita yang bermakna. Oleh karena itu, kami mengusulkan untuk memperluas pemahaman cerita dan area bercerita dengan membangun komponen baru yang disebut "suara latar" yang merupakan audio berbasis konteks cerita tanpa informasi linguistik apa pun.
- Koleksi Kumpulan Data Ucapan - Ini adalah daftar kumpulan data ucapan terbuka yang dikurasi untuk penelitian terkait ucapan (terutama untuk Pengenalan Ucapan Otomatis). Lebih dari 110 kumpulan data ucapan dikumpulkan dalam repositori ini, dan lebih dari 70 kumpulan data dapat diunduh langsung tanpa aplikasi atau registrasi lebih lanjut.
- Generator Kumpulan Data Ucapan - Generator Kumpulan Data Ucapan didedikasikan untuk membuat kumpulan data yang cocok untuk melatih model text-to-speech atau ucapan-ke-teks. Fungsionalitas utamanya melibatkan transkripsi file audio, meningkatkan kualitas audio bila diperlukan, dan menghasilkan kumpulan data.
- Kumpulan Data Speaker 3D - Kumpulan data audio ucapan manusia multi-Perangkat, multi-Jarak, dan multi-Dialek berskala besar.
- TED-LIUM - Transkripsi audio pembicaraan TED. 1495 Rekaman audio TED talk beserta transkripsi teks lengkap dari rekaman tersebut, dibuat oleh Laboratoire d'Informatique de l'Université du Maine (LIUM).
- Korpus Teks Audio Flickr - Korpus Teks Audio Flickr 8k berisi 40.000 teks lisan dari 8.000 gambar alami. Itu dikumpulkan pada tahun 2015 untuk menyelidiki skema pembelajaran multimodal untuk penemuan pola bicara tanpa pengawasan.
- The People's Speech - The People's Speech adalah kumpulan data pengenalan ucapan bahasa Inggris percakapan diawasi yang dapat diunduh gratis selama 30.000 jam dan terus bertambah, dilisensikan untuk penggunaan akademis dan komersial di bawah CC-BY-SA (dengan subset CC-BY). Data dikumpulkan melalui pencarian di Internet untuk data audio berlisensi yang sesuai dengan transkripsi yang ada.
- Corpora Wikipedia Lisan - Proyek Wikipedia Lisan menyatukan pembaca sukarela artikel Wikipedia. Ratusan artikel lisan dalam berbagai bahasa tersedia bagi pengguna yang – karena satu dan lain hal – tidak dapat atau tidak ingin menggunakan versi tulis artikel tersebut.
- TIMIT - Korpus Pidato Berkelanjutan Akustik-Fonetik DARPA TIMIT.
- tts-frontend-dataset - Kumpulan Data FrontEnd TTS: Polifon / Prosodi / Normalisasi Teks.
- VoxCeleb2 - VoxCeleb2 adalah kumpulan data pengenalan pembicara berskala besar yang diperoleh secara otomatis dari media sumber terbuka. VoxCeleb2 terdiri dari lebih dari satu juta ucapan dari lebih dari 6 ribu pembicara. Karena kumpulan data dikumpulkan 'di alam liar', segmen ucapan diselingi dengan kebisingan dunia nyata termasuk tawa, percakapan silang, efek saluran, musik, dan suara lainnya. Kumpulan datanya juga multibahasa, dengan ucapan dari penutur dari 145 negara berbeda, mencakup berbagai aksen, usia, etnis, dan bahasa.
- VoxConverse - VoxConverse adalah kumpulan data diarisasi audio-visual yang terdiri dari klip multispeaker ucapan manusia, yang diambil dari video YouTube.
- VoxLingua107 - VoxLingua107 adalah kumpulan data untuk pengenalan bahasa lisan selama 6628 jam (rata-rata 62 jam per bahasa) dan disertai dengan kumpulan evaluasi 1609 ucapan terverifikasi.
- VoxPopuli - VoxPopuli adalah korpus multibahasa berskala besar yang menyediakan 100 ribu jam data ucapan tanpa label dalam 23 bahasa. Ini adalah data terbuka terbesar hingga saat ini untuk pembelajaran representasi tanpa pengawasan serta pembelajaran semi-supervisi. VoxPopuli juga berisi 1,8 ribu jam transkripsi pidato dalam 16 bahasa dan interpretasi lisan yang diselaraskan ke dalam 5 bahasa lain dengan total 5,1 ribu jam.
- VoxForge - VoxForge adalah kumpulan data ucapan terbuka yang disiapkan untuk mengumpulkan transkripsi ucapan untuk digunakan dengan Mesin Pengenalan Ucapan Sumber Terbuka dan Gratis (di Linux, Windows, dan Mac).
- VocalSound - VocalSound adalah kumpulan data gratis yang terdiri dari 21.024 rekaman tawa, desahan, batuk, berdehem, bersin, dan mengendus crowdsourced dari 3.365 subjek unik. Kumpulan data VocalSound juga berisi informasi meta seperti usia pembicara, jenis kelamin, bahasa ibu, negara, dan kondisi kesehatan.
- VoiceBank + DEMAND - VoiceBank+DEMAND adalah database ucapan berisik untuk melatih algoritme peningkatan ucapan dan model TTS. Basis data ini dirancang untuk melatih dan menguji metode peningkatan ucapan yang beroperasi pada 48kHz. Penjelasan lebih rinci dapat ditemukan di makalah yang berhubungan dengan database.
- WaveFake - WaveFake adalah kumpulan data untuk deteksi audio deepfake. Kumpulan data ini terdiri dari kumpulan data berskala besar yang berisi lebih dari 100 ribu klip audio yang dihasilkan.
- WenetSpeech - WenetSpeech adalah korpus Mandarin multi-domain yang terdiri dari 10.000+ jam pidato berlabel berkualitas tinggi, 2.400+ jam pidato berlabel lemah, dan sekitar 10.000 jam pidato tanpa label, dengan total 22.400+ jam. Penulis mengumpulkan data dari YouTube dan Podcast, yang mencakup berbagai gaya bicara, skenario, domain, topik, dan kondisi bising. Metode berbasis pengenalan karakter optik (OCR) diperkenalkan untuk menghasilkan kandidat segmentasi audio/teks untuk data YouTube pada teks video yang sesuai.
- WSJ0-2mix - WSJ0-2mix adalah korpus pengenalan ucapan dari campuran ucapan menggunakan ucapan dari korpus Wall Street Journal (WSJ0).
- MEMUKUL! (WSJ0 Hipster Ambient Mixtures) - Kumpulan data WSJ0 Hipster Ambient Mixtures ( WHAM! ) memasangkan setiap campuran dua speaker dalam kumpulan data wsj0-2mix dengan pemandangan latar belakang kebisingan yang unik. Audio kebisingan dikumpulkan di berbagai lokasi perkotaan di seluruh San Francisco Bay Area pada akhir tahun 2018. Lingkungan tersebut terutama terdiri dari restoran, kafe, bar, dan taman. Audio direkam menggunakan mikrofon binaural Apogee Sennheiser pada tripod antara 1,0 dan 1,5 meter dari permukaan tanah.
- YODAS - Ini adalah subset manual/otomatis YODAS dari kumpulan data YODAS kami, yang memiliki 369.510 jam bicara. Kumpulan data ini berisi ucapan audio dan teks terkait (manual atau otomatis) dari YouTube. Perhatikan bahwa teks manual hanya menunjukkan bahwa teks tersebut diunggah oleh pengguna, namun belum tentu ditranskripsi oleh manusia.
- YODAS2 - YODAS2 adalah kumpulan data bentuk panjang dari kumpulan data YODAS. Ini menyediakan kumpulan data yang sama dengan espnet/yodas tetapi YODAS2 memiliki fitur baru berikut: 1. diformat dalam bentuk panjang (tingkat video) di mana audio tidak tersegmentasi. 2. audio dikodekan menggunakan tingkat pengambilan sampel yang lebih tinggi (yaitu 24k).
- YTTTS - Kumpulan data Text-To-Speech YouTube terdiri dari audio bentuk gelombang yang diekstrak dari video YouTube beserta transkripsi bahasa Inggrisnya.
^ Kembali ke Daftar Isi ^
Musik
- AAM: Kumpulan Data Multitrack Audio Buatan - Kumpulan data ini berisi 3.000 trek audio musik buatan dengan anotasi yang kaya. Hal ini didasarkan pada sampel instrumen nyata dan dihasilkan oleh komposisi algoritmik sehubungan dengan teori musik. Ini menyediakan campuran lengkap lagu serta trek instrumen tunggal. Midis yang digunakan untuk generasi juga tersedia. File anotasi meliputi: Onsets, Pitches, Instruments, Keys, Tempos, Segments, Melody instrument, Beats, dan Chords.
- Acapella - Acapella terdiri dari sekitar 46 jam video nyanyian solo acapela yang bersumber dari YouTbe, diambil sampelnya dari berbagai penyanyi dan bahasa. Empat bahasa dipertimbangkan: Inggris, Spanyol, Hindi, dan lainnya.
- TAMBAHKAN: audio-dataset-downloader - Skrip Python CLI sederhana untuk mengunduh audio berdurasi N-jam dari Youtube, berdasarkan daftar genre musik.
- ADL Piano MIDI - ADL Piano MIDI adalah kumpulan data 11.086 buah piano dari genre berbeda. Kumpulan data ini didasarkan pada kumpulan data Lakh MIDI, yang merupakan kumpulan dari 45.129 file MIDI unik yang telah dicocokkan dengan entri dalam Kumpulan Data Sejuta Lagu.
- Aligned Scores and Performances (ASAP) - ASAP adalah kumpulan data skor musik yang selaras (MIDI dan MusicXML) dan pertunjukan (audio dan MIDI), semuanya dengan anotasi nada suram, ketukan, tanda birama, dan tanda kunci.
- Kumpulan Data Jingju Arias Beranotasi - Kumpulan Data Jingju Arias Beranotasi adalah kumpulan 34 arias jingju yang disegmentasi secara manual di berbagai tingkatan menggunakan perangkat lunak Praat. Arias yang dipilih berisi contoh dua shengqiang utama dalam jingju, yaitu xipi dan erhuang, serta lima tipe peran utama dalam hal menyanyi, yaitu, dan, jing, laodan, laosheng, dan xiaosheng. Kumpulan data dibentuk oleh file Praat TextGrid untuk setiap aria, berisi tingkatan untuk informasi berikut: aria, ID MusicBrainz, artis, sekolah, tipe peran, shengqiang, banshi, baris lirik, suku kata, dan pola perkusi.
- Bach Doodle - Kumpulan Data Bach Doodle terdiri dari 21,6 juta harmonisasi yang dikirimkan dari Bach Doodle. Kumpulan data berisi metadata tentang komposisi (seperti negara asal dan umpan balik), serta MIDI melodi yang dimasukkan pengguna dan MIDI harmonisasi yang dihasilkan. Kumpulan data berisi sekitar 6 tahun pengguna memasukkan musik.
- Kumpulan Data Biola Bach - Kumpulan rekaman publik sonata dan partitas Bach berkualitas tinggi untuk biola solo (BWV 1001–1006).
- Kumpulan data Batik-plays-Mozart - Kumpulan data Batik-plays-Mozart adalah kumpulan data pertunjukan piano yang berisi 12 Sonata Piano Mozart lengkap (36 gerakan berbeda) yang dibawakan pada grand piano Bösendorfer yang dipantau komputer oleh pianis konser Wina, Roland Batik. Pertunjukan disediakan dalam format MIDI (file audio terkait tersedia secara komersial) dan tingkat nada selaras dengan skor dalam Edisi Mozart Baru dalam MusicXML dan anotasi harmoni musikologis, irama dan frasa yang sebelumnya diterbitkan dalam The Annotated Mozart Sonatas.
- Kumpulan Data Instrumen Perkusi Opera Beijing - Kumpulan data perkusi Opera Beijing adalah kumpulan 236 contoh pukulan terisolasi yang mencakup empat kelas instrumen perkusi yang digunakan di Opera Beijing. Ini dapat digunakan untuk membuat model pukulan untuk setiap instrumen perkusi.
- Kumpulan Data Pola Perkusi Opera Beijing - Kumpulan data Pola Perkusi Opera Beijing (BOPP) adalah kumpulan 133 pola perkusi audio yang mencakup lima kelas pola. Himpunan data mencakup transkripsi tingkat audio dan suku kata untuk polanya (tidak selaras waktu). Ini berguna untuk tugas transkripsi dan klasifikasi perkusi. Polanya diambil dari rekaman audio arias dan diberi label oleh ahli musik.
- BiMMuDa - Kumpulan Data Musik Melodik Billboard (BiMMuDa) adalah kumpulan data MIDI dari melodi utama dari lima single teratas dari Tangga Lagu Akhir Tahun Billboard untuk setiap tahun dari tahun 1950 hingga 2022. Repositori ini menyimpan kumpulan data, serta metadatanya dan lampiran.
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) adalah kumpulan data yang ditujukan untuk evaluasi sistem pencarian informasi musik. Terdiri dari 502 lagu yang dipilih dari musik populer barat. Audio direpresentasikan sebagai rangkaian waktu dari 13 koefisien cepstral frekuensi Mel pertama (dan turunan pertama dan kedua) yang diekstraksi dengan menggeser jendela waktu singkat setengah tumpang tindih 12 ms di atas bentuk gelombang setiap lagu.
- Kumpulan Data Irama Musik Karnatik - Kumpulan Data Irama Musik Karnatik adalah subkoleksi dari 176 kutipan (16,6 jam) dalam empat taala musik Karnatik dengan audio, metadata terkait tala, dan penanda selaras waktu yang menunjukkan perkembangan melalui siklus tala. Ini berguna sebagai korpus uji untuk banyak tugas analisis ritme otomatis dalam musik Carnatic.
- CCMixter - CCMixter adalah kumpulan data pemisahan suara nyanyian yang terdiri dari 50 trek stereo berdurasi penuh dari ccMixter yang menampilkan banyak genre musik berbeda. Untuk setiap lagu ada tiga file WAV yang tersedia: musik latar, sinyal suara, dan jumlahnya.
- ChMusic - ChMusic adalah kumpulan data musik tradisional Tiongkok untuk model pelatihan dan evaluasi kinerja pengenalan alat musik. Dataset ini mencakup 11 alat musik yang terdiri dari Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin dan Sheng.
- bebas chongchong - Chongchong Piano Downloader adalah perangkat lunak untuk mengunduh skor piano Chongchong secara gratis, yang dapat memperoleh tautan skor, menganalisis konten skor, dan mengekspor file.
- ComMU - ComMU memiliki 11.144 sampel MIDI yang terdiri dari rangkaian nada pendek yang dibuat oleh komposer profesional dengan 12 metadata yang sesuai. Kumpulan data ini dirancang untuk tugas baru, pembuatan musik kombinatorial yang menghasilkan musik yang beragam dan berkualitas tinggi hanya dengan metadata melalui model bahasa auto-regresif.
- CoSoD - CoSoD terdiri dari metadata dan data analitik dari korpus 331 lagu yang terdiri dari semua kolaborasi multi-artis di tangga lagu akhir tahun Billboard “Hot 100” yang diterbitkan antara tahun 2010 dan 2019. Setiap lagu dalam kumpulan data dikaitkan dengan dua file CSV: satu untuk metadata dan satu lagi untuk data analitis.
- DALI - DALI: Kumpulan Data besar Audio, Lirik, dan notasi vokal yang disinkronkan.
- DadaGP - DadaGP adalah kumpulan data musik simbolik baru yang terdiri dari 26.181 partitur lagu dalam format GuitarPro yang mencakup 739 genre musik, bersama dengan format token yang menyertainya yang cocok untuk model sekuens generatif seperti Transformer. Format tokenized terinspirasi oleh pengkodean MIDI berbasis peristiwa, yang sering digunakan dalam model pembuatan musik simbolik. Kumpulan data dirilis dengan encoder/decoder yang mengubah file GuitarPro menjadi token dan sebaliknya.
- DeepScores - Kumpulan data sintetis dari 300.000 gambar musik tertulis yang dianotasi untuk klasifikasi objek, segmentasi semantik, dan deteksi objek. Berdasarkan sekumpulan besar dokumen MusicXML yang diperoleh dari MuseScore, saluran pipa canggih digunakan untuk mengubah sumber menjadi file LilyPond, dan LilyPond digunakan untuk mengukir dan memberi anotasi pada gambar.
- dMelodies - dMelodies adalah kumpulan data melodi 2 bar sederhana yang dihasilkan menggunakan 9 faktor variasi laten independen di mana setiap titik data mewakili melodi unik berdasarkan batasan berikut: - Setiap melodi akan sesuai dengan tangga nada unik (mayor, minor, blues, dll.) .). - Setiap melodi memainkan arpeggio menggunakan pola akord irama standar I-IV-VI. - Bar 1 memainkan 2 akord pertama (6 nada), Bar 2 memainkan 2 akord kedua (6 nada). - Setiap not yang dimainkan adalah not ke-8.
- DISCO-10M - DISCO-10M adalah kumpulan data musik yang dibuat untuk mendemokratisasi penelitian model pembelajaran mesin skala besar untuk musik.
- Dizi - Dizi adalah kumpulan data gaya musik sekolah Utara dan Sekolah Selatan. Ciri-cirinya meliputi melodi dan teknik permainan dari dua gaya musik berbeda yang didekonstruksi.
- DreamSound - Baru-baru ini, model pembuatan teks-ke-musik telah mencapai hasil yang belum pernah terjadi sebelumnya dalam mensintesis sampel musik berkualitas tinggi dan beragam dari perintah teks tertentu. Terlepas dari kemajuan ini, masih belum jelas bagaimana seseorang dapat menghasilkan konsep musik yang dipersonalisasi dan spesifik bagi pengguna, memanipulasinya, dan menggabungkannya dengan konsep yang sudah ada. Termotivasi oleh literatur visi komputer, kami menyelidiki text-to-music dengan mengeksplorasi dua metode yang sudah ada, yaitu Textual Inversion dan Dreambooth. Dengan menggunakan metrik kuantitatif dan studi pengguna, kami mengevaluasi kemampuan mereka untuk merekonstruksi dan memodifikasi konsep musik baru, dengan hanya memberikan beberapa sampel. Terakhir, kami menyediakan kumpulan data baru dan mengusulkan protokol evaluasi untuk tugas baru ini.
- EMOPIA - Kumpulan Data Piano Pop Multi-Modal Untuk Pengenalan Emosi dan Pembuatan Musik Berbasis Emosi. Kumpulan data EMOPIA (diucapkan 'yee-mò-pi-uh') adalah database multi-modal (audio dan MIDI) bersama yang berfokus pada emosi yang dirasakan dalam musik piano pop, untuk memfasilitasi penelitian tentang berbagai tugas yang berkaitan dengan emosi musik. Kumpulan data tersebut berisi 1.087 klip musik dari 387 lagu dan label emosi tingkat klip yang dianotasi oleh empat anotator khusus.
- ErhuPT (Kumpulan Data Teknik Bermain Erhu) - Kumpulan data ini adalah kumpulan data audio yang berisi sekitar 1500 klip audio yang direkam oleh beberapa pemain profesional.
- FiloBass - Studi Bass Basslines Jazz Berbasis Dataset dan Corpus. FiloBass: kumpulan partitur dan anotasi musik baru yang berfokus pada peran penting namun sering diabaikan dari double bass dalam iringan jazz. Terinspirasi oleh karya terbaru yang menyoroti peran solois, kami menawarkan koleksi 48 transkripsi bassis jazz profesional yang diverifikasi secara manual, yang terdiri dari lebih dari 50.000 not event, yang didasarkan pada backing track yang digunakan dalam dataset FiloSax. Untuk setiap rekaman, kami menyediakan batang audio, partitur, MIDI yang selaras dengan performa, dan metadata terkait untuk ketukan, ketukan bawah, simbol akord, dan penanda untuk bentuk musik.
- Finding Tori - Finding Tori: Pembelajaran dengan Pengawasan Mandiri untuk Menganalisis Lagu Rakyat Korea. kami memperkenalkan analisis komputasi terhadap kumpulan data rekaman lapangan yang berisi sekitar 700 jam lagu rakyat Korea, yang direkam sekitar tahun 1980-90an.
- FMA - Arsip Musik Gratis (FMA) adalah kumpulan data berskala besar untuk mengevaluasi beberapa tugas dalam Pengambilan Informasi Musik. Ini terdiri dari 343 hari audio dari 106.574 lagu dari 16.341 artis dan 14.854 album, disusun dalam taksonomi hierarki 161 genre. Ini menyediakan audio berdurasi penuh dan berkualitas tinggi, fitur yang telah dihitung sebelumnya, bersama dengan metadata tingkat trek dan pengguna, tag, dan teks bentuk bebas seperti biografi.
- GiantMIDI-Piano - GiantMIDI-Piano adalah kumpulan data MIDI piano klasik yang berisi 10.855 file MIDI dari 2.786 komposer. Subset yang dikurasi dengan membatasi nama belakang komposer berisi 7.236 file MIDI dari 1.787 komposer.
- Groove (Groove MIDI Dataset) - Groove MIDI Dataset (GMD) terdiri dari 13,6 jam MIDI yang selaras dan audio (disintesis) dari permainan drum ekspresif yang dilakukan manusia dan selaras dengan tempo. Dataset berisi 1.150 file MIDI dan lebih dari 22.000 ukuran drum.
- GTSINGER - GTSINGER: Corpus bernyanyi multi -teknologi global dengan skor musik yang realistis untuk semua tugas menyanyi. Kami memperkenalkan Gtsinger, sebuah korpus bernyanyi global, multi-teknologi, gratis, gratis, berkualitas tinggi dengan skor musik yang realistis, yang dirancang untuk semua tugas menyanyi, bersama dengan tolok ukurnya.
- Guitarset - Guitarset: Dataset untuk transkripsi gitar.
- Dataset Rhythm Musik Hindustan - Dataset Ritme Musik Hindustan adalah sub -pengumpulan 151 (5 jam) dalam empat taals musik Hindustani dengan audio, terkait metadata terkait TAAL dan penanda waktu yang selaras yang menunjukkan perkembangan melalui siklus Taal. Dataset ini berguna sebagai korpus uji untuk banyak tugas analisis ritme otomatis dalam musik Hindustani.
- Humtrans - Dataset juga dapat berfungsi sebagai fondasi untuk tugas -tugas hilir seperti generasi musik berbasis melodi. Ini terdiri dari 500 komposisi musik dari genre dan bahasa yang berbeda, dengan masing -masing komposisi dibagi menjadi beberapa segmen. Secara total, dataset terdiri dari 1000 segmen musik. Untuk mengumpulkan dataset bersenandung ini, kami mempekerjakan 10 mahasiswa, yang semuanya adalah jurusan musik atau mahir dalam memainkan setidaknya satu alat musik. Masing -masing dari mereka menyenandungkan setiap segmen dua kali menggunakan antarmuka perekaman web yang disediakan oleh situs web kami yang dirancang. Rekaman bersenandung diambil sampelnya pada frekuensi 44.100 Hz.
- Dataset Tonik Musik Seni India - Dataset ini terdiri dari 597 rekaman musik audio yang tersedia secara komersial dari musik seni India (Hindustani dan musik Carnatic), masing -masing secara manual dijelaskan dengan tonik artis utama. Dataset ini digunakan sebagai korpus uji untuk pengembangan pendekatan identifikasi tonik.
- Jazz Harmony Treebank - Repositori ini berisi Jazz Harmony Treebank, sebuah corpus analisis harmonik hierarkis dari urutan akord jazz yang dipilih dari IREALPRO Corpus yang diterbitkan di Zenodo oleh Shanahan et al.
- Jazznet - Jazznet: Dataset pola piano mendasar untuk penelitian musik audio musik audio. Makalah ini memperkenalkan Dataset Jazznet, dataset pola musik piano jazz fundamental untuk mengembangkan algoritma pembelajaran mesin (ML) dalam pengambilan informasi musik (MIR). Dataset berisi 162520 pola piano berlabel, termasuk akord, arpeggio, skala, dan progresi akor dengan inversi mereka, menghasilkan lebih dari 26k jam audio dan ukuran total 95GB.
- Jingju A Cappella Singing Pitch Contour Dataset - Jingju A Cappella Singing Pitch Contour Dataset adalah kumpulan Segmen Kontur Pitch Ground Truth for 39 Jingju a Cappella Singing Recordings. Dataset mencakup kebenaran dasar untuk (1) transkripsi melodi, (2) segmentasi kontur pitch. Ini berguna untuk transkripsi melodi dan tugas segmentasi kontur pitch. Kontur pitch telah diekstraksi dari rekaman audio dan dikoreksi secara manual dan tersegmentasi oleh ahli musik.
- Koleksi Skor Musik Jingju - Ini adalah koleksi 92 skor musik Jingju yang dikumpulkan untuk analisis bernyanyi jingju dalam hal sistem musiknya. Mereka ditranskripsi dari sumber cetak asli mereka ke dalam format mesin yang dapat dibaca, menggunakan Musescore, dan mengekspornya ke Musicxml.
- JS Fake Chorales - Dataset MIDI dari 500 Chorales 4 -bagian yang dihasilkan oleh algoritma KS_CHORUS, dijelaskan dengan hasil dari ratusan peserta tes mendengarkan, dengan 300 paduan suara lebih lanjut yang tidak diatur.
- Laion-Disco-12m-Dataset Laion-Disco-12m berisi tautan 12m ke musik di YouTube, terinspirasi oleh metodologi disko-10m. Mulai dari daftar unggulan awal seniman, kita dapat menemukan artis baru dengan mengeksplorasi secara rekursif para seniman yang tercantum di bagian "Fans May juga menyukai". Kami menjelajahi grafik seniman terkait selama kami dapat menemukan artis baru.
- Lakh Musenet MIDI Dataset - Dataset Lakh Midi penuh dikonversi ke format output MIDI Musenet (9 instrumen + drum).
- Dataset MIDI Los Angeles - SOTA Kilo -skala MIDI Dataset untuk Mir dan Music AI Tujuan.
- LP-Musiccaps-LP-Musiccaps: Captioning musik semu berbasis LLM.
- Lyra Dataset - Lyra adalah dataset untuk musik tradisional dan rakyat Yunani yang mencakup 1570 karya, menjumlahkan sekitar 80 jam data. Dataset menggabungkan tautan YouTube Timestamped untuk mengambil audio dan video, bersama dengan informasi metadata yang kaya sehubungan dengan instrumentasi, geografi dan genre, antara lain.
- Maestro-Dataset Maestro berisi lebih dari 200 jam rekaman audio dan MIDI berpasangan dari sepuluh tahun kompetisi piano-e internasional. Data MIDI mencakup kecepatan pemogokan kunci dan posisi pedal Sustain/Sostenuto/UNA Corda. File audio dan midi diselaraskan dengan akurasi ∼3 ms dan diiris ke karya musik individual, yang dijelaskan dengan komposer, judul, dan tahun kinerja. Audio yang tidak terkompresi adalah kualitas CD atau lebih tinggi (44,1-48 kHz 16-bit PCM stereo).
- Magnatagatune - Dataset Magnatagatune berisi 25.863 klip musik. Setiap klip adalah kutipan sepanjang 29 detik milik salah satu dari 5223 lagu, 445 album dan 230 artis. Klipnya menjangkau berbagai genre seperti klasik, zaman baru, electronica, rock, pop, dunia, jazz, blues, logam, punk, dan banyak lagi. Setiap klip audio dilengkapi dengan vektor anotasi biner dari 188 tag.
- Dataset utama untuk "Evolusi Musik Populer: USA 1960-2010" - Ini adalah file besar (~ 20MB) yang disebut evolutionpopusa_maindata.csv, dalam format data yang dipisahkan koma dengan header kolom. Setiap baris sesuai dengan rekaman. File dapat dilihat di editor teks apa pun, dan juga dapat dibuka di Excel atau diimpor ke program pemrosesan data lainnya.
- Dataset Metamidi - Kami memperkenalkan Dataset Metamidi (MMD), koleksi skala besar 436.631 file MIDI dan metadata. Selain file MIDI, kami menyediakan Metadata Artis, Judul, dan Genre yang dikumpulkan selama proses pengikisan saat tersedia. MIDI IN (MMD) dicocokkan dengan koleksi 32.000.000 klip audio 30 detik yang diambil dari Spotify, menghasilkan lebih dari 10.796.557 pertandingan audio-Midi.
- Juta Song Dataset - Dataset ini berisi sejuta lagu dari tahun 1922-2011, dengan artis yang menandai informasi dari Echonest (sekarang bagian dari Spotify), bersama dengan pengukuran audio, dan informasi terkait lainnya.
- MiR-1K-miR-1k (Lab Pengambilan Informasi Multimedia, 1000 Klip Lagu) adalah dataset yang dirancang untuk menyanyikan pemisahan suara.
- Dataset Mridangam Stroke - Dataset Mridangam Stroke adalah kumpulan 7162 contoh audio dari stroke individu Mridangam di berbagai tonik. Dataset terdiri dari 10 pukulan berbeda yang dimainkan pada Mridangams dengan 6 nilai tonik yang berbeda. Dataset dapat digunakan untuk model pelatihan untuk setiap stroke mridangam.
- Dataset Mridangam Tani-Avarthanam-Dataset Mridangam Tani-Avarthanam adalah koleksi yang ditranskripsi dari dua Tani-Avarthanam yang dimainkan oleh maestro Mridangam yang terkenal Padmavibhushan Umayalpuram K. Sivaraman. Audio ini direkam di IIT Madras, India dan dijelaskan oleh perkusi karnatik profesional. Ini terdiri dari sekitar 24 menit audio dan 8800 sapuan.
- MIRMLPOP-berisi 1) Anotasi dataset miR-MLPOP, 2) Kode sumber untuk mendapatkan audio dari dataset, 3) Kode sumber yang kami gunakan untuk menyempurnakan bisikan pada miR-mlpop (keduanya transkripsi penyelarasan lirik & lirik) , dan 4) kode sumber untuk evaluasi.
- MSD (Juta Song Dataset) - The Million Song Dataset adalah kumpulan fitur audio dan metadata yang tersedia secara bebas untuk sejuta lagu musik populer kontemporer. Inti dari dataset adalah analisis fitur dan metadata untuk satu juta lagu, yang disediakan oleh Echo Nest.
- Dataset MTG-Jamendo-Kami menyajikan dataset MTG-Jamendo, dataset terbuka baru untuk musik auto-tagging. Ini dibangun menggunakan musik yang tersedia di Jamendo di bawah lisensi dan tag Creative Commons yang disediakan oleh pengunggah konten. Dataset berisi lebih dari 55.000 trek audio penuh dengan 195 tag dari genre, instrumen, dan kategori suasana hati/tema. Kami menyediakan pemisahan data yang diuraikan untuk para peneliti dan melaporkan kinerja pendekatan baseline sederhana pada lima set tag yang berbeda: genre, instrumen, suasana hati/tema, top-50, dan keseluruhan.
- MTG-Jamendo-Dataset MTG-Jamendo adalah dataset terbuka untuk musik auto-tagging. Dataset berisi lebih dari 55.000 trek audio penuh dengan 195 tag kategori (87 tag genre, 40 tag instrumen, dan 56 tag suasana hati/tema). Ini dibangun menggunakan musik yang tersedia di Jamendo di bawah lisensi dan tag Creative Commons yang disediakan oleh pengunggah konten. Semua audio didistribusikan dalam format MP3 320kbps.
- Platform Berbagi Data Musik untuk Penelitian Musikologi Komputasi (Dataset CCMUSIC) - Platform ini adalah platform berbagi data musik multi -fungsional untuk penelitian musikologi komputasi. Ini berisi banyak data musik seperti informasi suara alat musik tradisional Cina dan informasi pelabelan musik pop Cina, yang tersedia secara gratis oleh para peneliti musikologi komputasi.
- Music Emotion Recognition (MER) - Kami menyajikan kumpulan data untuk analisis sistem pengenalan emosi musik yang dipersonalisasi (MER). Kami mengembangkan platform penggemar musik yang bertujuan untuk meningkatkan pengumpulan dan analisis apa yang disebut "kebenaran darat" yang diperlukan sebagai masukan untuk sistem tersebut.
- Musan - Musan adalah kumpulan musik, ucapan dan kebisingan. Dataset ini cocok untuk model pelatihan untuk deteksi aktivitas suara (VAD) dan diskriminasi musik/ucapan. Dataset terdiri dari musik dari beberapa genre, pidato dari dua belas bahasa, dan berbagai macam suara teknis dan non-teknis.
- Musdb-XL-Train-Dataset Musdb-XL-Train terdiri dari 300.000 segmen audio 4-detik yang diterapkan oleh pembatas dan 100 lagu asli. Untuk setiap segmen, kami secara acak memilih segmen sewenang-wenang dalam 4 batang (vokal, bass, drum, lainnya) dari subset pelatihan MUSDB-HQ dan mencampurnya secara acak. Kemudian, kami menerapkan plug-in limiter komersial untuk setiap batang.
- MusicBench- Musicbench Dataset adalah kumpulan pasangan teks-musik yang dirancang untuk generasi teks-ke-musik dan dirilis dengan model teks-ke-musik Mustango. Dataset MusicCaps diperluas dari 5.521 sampel menjadi 52.768 pelatihan dan 400 sampel uji untuk membuat MusicBench !
- MusicNet - MusicNet adalah koleksi 330 rekaman musik klasik berlisensi bebas, bersama dengan lebih dari 1 juta label beranotasi yang menunjukkan waktu yang tepat dari setiap nada dalam setiap rekaman, instrumen yang memainkan setiap nada, dan posisi nada dalam struktur metrik dari dari komposisi. Label diperoleh dari skor musik yang selaras dengan rekaman oleh Dynamic Time Warping. Label diverifikasi oleh musisi terlatih; Kami memperkirakan tingkat kesalahan pelabelan sebesar 4%. Kami menawarkan label MusicNet ke komunitas pembelajaran mesin dan musik sebagai sumber daya untuk model pelatihan dan tolok ukur umum untuk membandingkan hasil.
- MusicCaps - MusicCaps adalah dataset yang terdiri dari pasangan musik 5.5k, dengan deskripsi teks yang kaya yang disediakan oleh para ahli manusia.
- Musedata - Musedata adalah perpustakaan elektronik musik orkestra dan piano klasik dari CCARH. Terdiri dari sekitar 3MB dari 783 file.
- Musdb18 - Musdb18 adalah dataset 150 trek musik panjang penuh (~ 10 jam) dari genre yang berbeda bersama dengan drum terisolasi, bass, vokal, dan batang lainnya. Dataset dibagi menjadi pelatihan dan set tes dengan 100 dan 50 lagu, masing -masing. Semua sinyal stereofonik dan dikodekan pada 44.1kHz.
- Topik Musik dan Metadata - Dataset ini menyediakan daftar lirik dari tahun 1950 hingga 2019 yang menggambarkan metadata musik sebagai kesedihan, penari, kenyaringan, akustik, dll. Kami juga memberikan beberapa informasi sebagai lirik yang dapat digunakan untuk pemrosesan bahasa alami.
- Dataset Genre Musik - Dataset 1494 Genre, masing -masing berisi 200 lagu.
- Dataset Musik Lembar Multimodal - MSMD adalah dataset sintetis dari 497 karya musik (klasik) yang berisi representasi audio dan skor dari potongan -potongan yang disejajarkan pada level berbutir halus (344.742 pasang notead yang disejajarkan dengan rekan audio/MIDI mereka).
- MUVI-SYNC-Dataset MUVI-SYNC adalah dataset multi-model yang terdiri dari kedua fitur musik (chord, kunci, kenyaringan, dan kepadatan catatan) dan fitur video (adegan offset, emosi, gerakan, dan semantik) yang diekstraksi dari total 748 video musik.
- Nlakh - Nlakh adalah dataset untuk pengambilan alat musik. Ini adalah kombinasi dari dataset Nsynth, yang menyediakan sejumlah besar instrumen, dan dataset lakh, yang menyediakan data MIDI multi-track.
- NSYNTH - NSYNTH adalah dataset dari satu nada instrumental tembakan, berisi 305.979 catatan musik dengan nada unik, timbre, dan amplop. Suara -suara dikumpulkan dari 1006 instrumen dari perpustakaan sampel komersial dan dijelaskan berdasarkan sumbernya (akustik, elektronik atau sintetis), keluarga instrumen dan kualitas sonik. Keluarga instrumen yang digunakan dalam anotasi adalah bass, kuningan, seruling, gitar, keyboard, palu, organ, buluh, string, synth lead, dan vokal. Empat cuplikan audio monofonik 16kHz detik dihasilkan (catatan) untuk instrumen.
- NES-MDB (Nintendo Entertainment System Music Database)-Nintendo Entertainment System Music Database (NES-MDB) adalah dataset yang ditujukan untuk membangun sistem komposisi musik otomatis untuk synthesizer audio NES. Ini terdiri dari 5278 lagu dari soundtrack 397 game NES. Dataset mewakili 296 komposer unik, dan lagu -lagu tersebut berisi lebih dari dua juta not gabungan. Ini memiliki opsi format file untuk MIDI, SCORE dan NLM (pemodelan bahasa NES).
- Niko Chord Progres Dataset - Dataset Niko Chord Progress digunakan di Actomontage2. Ini berisi potongan perkembangan 5K+ chord, diberi label dengan gaya. Ada empat gaya secara total: Pop Standard, Pop Complex, Dark dan R&B.
- Dataset Musik Onair -? Dataset STEM baru untuk Penelitian Musik Demixing, dari Proyek Musik Bebas Royalti Onair.
- Opencpop - Opencpop , sebuah corpus bernyanyi mandarin berkualitas tinggi yang tersedia untuk umum, dirancang untuk sistem sintesis suara (SVS) yang bernyanyi. Corpus ini terdiri dari 100 lagu Mandarin yang unik , yang direkam oleh penyanyi wanita profesional. Semua file audio direkam dengan kualitas studio pada tingkat pengambilan sampel 44.100 Hz di lingkungan studio perekaman profesional .
- OpenGufeng - Dataset progresi melodi dan akor untuk musik Gufeng Cina.
- PBSCSR - Dataset Pengenalan Gaya Komposer Piano Bootleg. Tujuan menyeluruh kami adalah membuat dataset untuk mempelajari pengenalan gaya komposer yang "dapat diakses seperti MNIST dan sama menantangnya dengan ImageNet." Untuk mencapai tujuan ini, kami mencicipi fragmen skor bootleg tetap dari gambar musik piano di IMSLP. Dataset itu sendiri berisi 40.000 62x64 gambar skor bootleg untuk tugas klasifikasi 9 arah, 100.000 62x64 gambar skor bootleg untuk tugas klasifikasi 100 arah, dan 29.310 gambar skor bootleg panjang variabel yang tidak berlabel untuk pretraining.
- POP909 - POP909 adalah dataset yang berisi beberapa versi pengaturan piano 909 lagu populer yang dibuat oleh musisi profesional. Tubuh utama dataset berisi melodi vokal, melodi instrumen utama, dan iringan piano untuk setiap lagu dalam format MIDI, yang selaras dengan file audio asli. Selain itu, anotasi disediakan dari tempo, beat, kunci, dan akord, di mana kurva tempo berlabel tangan dan lainnya dilakukan oleh algoritma mir.
- ProgGP - Dataset 173 lagu metal progresif, baik dalam format gitar dan token, sesuai spesifikasi dalam DADAGP.
- RWC (Real World Computing Music Database) - Database Musik RWC (Real World Computing) adalah database musik cipta yang jelas (DB) yang tersedia bagi para peneliti sebagai fondasi umum untuk penelitian. Ini berisi sekitar 100 lagu lengkap dengan batasan bagian berlabel manual. Untuk 50 instrumen, suara individu pada interval setengah nada ditangkap dengan beberapa variasi gaya bermain, dinamika, produsen instrumen dan musisi.
- Sangeet - Dataset XML untuk musik klasik Hindustan. Sangeet melestarikan semua informasi yang diperlukan dari setiap komposisi yang diberikan termasuk metadata, struktural, notasi, ritme, dan informasi melodi dengan cara standar untuk penyimpanan yang mudah dan efisien dan ekstraksi informasi musik. Dataset dimaksudkan untuk memberikan informasi kebenaran dasar untuk tugas penelitian informasi musik, sehingga mendukung beberapa analisis berbasis data dari perspektif pembelajaran mesin.
- SINGKT -DATASET - SINGKT adalah dataset penilaian kinerja musik di bidang KT, yang berupaya memanfaatkan metode penelusuran pengetahuan untuk menangkap perubahan dinamis dalam kemampuan penglihatan peserta didik. Dataset mengumpulkan data dari platform praktik penglihatan cerdas publik, Singmaster. Dataset SINGKT berisi tabel data catatan penjawab utama (RecordDS) dan dua tabel data informasi tambahan (userds, opernds). Tabel userds mencatat informasi penglihatan untuk peserta didik 1074 yang terkandung dalam dataset, dan Opernds Table merekam informasi lembar musik.
- SLAKH2100-Dataset Lakh (SLAKH) yang disintesis adalah dataset untuk pemisahan sumber audio yang disintesis dari dataset Lakh MIDI v0.1 menggunakan instrumen virtual berbasis sampel tingkat profesional. Rilis pertama SLAKH, yang disebut SLAKH2100, berisi 2100 trek campuran otomatis dan file MIDI yang disintesis yang disintesis menggunakan mesin pengambilan sampel tingkat profesional. Trek di SLAKH2100 dibagi menjadi pelatihan (1500 trek), validasi (375 trek), dan uji (225 trek) subset, dengan total 145 jam campuran.
- SymphonyNet-SymponyNet adalah proyek open-source yang bertujuan untuk menghasilkan musik multi-track dan multi-instrumen yang kompleks seperti Symphony. Metode kami sepenuhnya kompatibel dengan jenis musik lain seperti pop, piano, musik solo..etc.
- Dataset Solo Tabla - Dataset Tabla Solo adalah koleksi transkripsikan rekaman audio solo tabla yang mencakup komposisi dari enam gharana tabla yang berbeda, dimainkan oleh Pt. Arvind Mulgaonkar. Dataset terdiri dari transkripsi BOL audio dan waktu yang selaras.
- Dataset MIDI Tegridy - Dataset MIDI Tegridy untuk Pembuatan Model AI Musik yang Tepat dan Efektif.
- Dataset Lakh MIDI - Dataset Lakh Midi adalah kumpulan 176.581 file MIDI unik, 45.129 di antaranya telah dicocokkan dan disejajarkan dengan entri dalam dataset lagu juta. Tujuannya adalah untuk memfasilitasi pengambilan informasi musik skala besar, baik simbolik (menggunakan file MIDI saja) dan berbasis konten audio (menggunakan informasi yang diekstraksi dari file MIDI sebagai anotasi untuk file audio yang cocok).
- Dataset Musik Italia - Dataset dibangun dengan mengeksploitasi API Spotify dan Soundcloud. Ini terdiri dari lebih dari 14.500 lagu berbeda dari musisi Italia yang terkenal dan kurang terkenal. Setiap lagu dalam dataset diidentifikasi oleh ID Spotify dan judulnya. Metadata trek termasuk juga lirik yang lemmatisasi dan ditandai dan, dalam sebagian besar kasus, sepuluh fitur musik yang langsung dikumpulkan dari Spotify. Fitur musikal termasuk akustik (float), dancanceability (float), durasi_ms (int), energi (float), instrumentalness (float), livene (float), loudness (float), wicara (float), tempo (float) dan valensi ( mengambang).
- Persia Piano Corpus - Persia Piano Corpus adalah koleksi komprehensif musik piano Persia, yang mencakup dari komposer awal hingga tokoh kontemporer. Ini telah disusun dengan cermat dan dibuat dapat diakses secara publik, bertujuan untuk memungkinkan para peneliti untuk mengeksplorasi investigasi khusus dan berkontribusi pada penemuan baru. Pendekatan berbasis instrumen menyediakan korpus lengkap yang terkait dengan piano Persia, termasuk label yang relevan dan metadata komprehensif.
- Dataset Song Delcriber-Dataset Song Delcressur: A Corpus of Audio Captions untuk evaluasi musik-dan-bahasa. Dataset Song Rescawang adalah dataset evaluasi yang terbuat dari ~ 1,1k teks untuk 706 rekaman musik berlisensi secara permisif.
- Universal Music Symbol Classifier - Proyek Python yang melatih jaringan saraf yang dalam untuk membedakan antara simbol musik.
- URMP (Performa Musik Multi-Modal Universitas Rochester)-URMP (Performa Musik Multi-Modal Universitas Rochester) adalah dataset untuk memfasilitasi analisis audio-visual dari pertunjukan musik. Dataset terdiri dari 44 karya musik multi-instrumen sederhana yang dikumpulkan dari pertunjukan trek individu yang terkoordinasi tetapi direkam secara terpisah. Untuk setiap bagian, dataset memberikan skor musik dalam format MIDI, rekaman audio instrumen individu berkualitas tinggi dan video karya yang dirakit.
- Dataset VGMIDI - VGMIDI adalah dataset pengaturan piano dari soundtrack video game. Ini berisi 200 potongan MIDI berlabel sesuai dengan emosi dan 3.850 karya yang tidak berlabel. Setiap bagian berlabel dianotasi oleh 30 subjek manusia sesuai dengan model emosi sirkumplex (valence-arousal).
- String Virtuoso - String Virtuoso adalah dataset untuk deteksi onsets lunak untuk instrumen string. Ini terdiri dari lebih dari 144 rekaman kinerja profesional kutipan dari string kuartet OP Haydn. 74 Finale No. 1, masing -masing dengan anotasi onset instrumental individu yang sesuai.
- Wikimute - Wikimute: Dataset Web -Sourced dari deskripsi semantik untuk audio musik. Dalam penelitian ini, kami menyajikan Wikimute, dataset baru dan terbuka yang berisi deskripsi musik semantik yang kaya. Data ini bersumber dari katalog kaya artikel Wikipedia yang mencakup karya -karya musik. Menggunakan pipa penambangan teks khusus, kami mengekstrak deskripsi bentuk panjang dan pendek yang mencakup berbagai topik yang terkait dengan konten musik seperti genre, gaya, suasana hati, instrumentasi, dan tempo.
- YM2413-MDB- YM2413-MDB adalah dataset musik video game FM 80-an dengan anotasi emosi multi-label. Ini termasuk 669 file audio dan midi musik dari game SEGA dan MSX PC di tahun 80 -an menggunakan YM2413, generator suara yang dapat diprogram berdasarkan FM. Musik game yang dikumpulkan diatur dengan subset dari 15 instrumen monofonik dan satu instrumen drum.
^ Kembali ke Isi ^
Efek suara
- Dataset Suara Hewan - Data ini yang terdiri dari 875 suara hewan berisi 10 jenis suara hewan. Dataset Hewan ini terdiri dari 200 kucing, 200 anjing, 200 burung, 75 sapi, 45 singa, 40 domba, 35 katak, 30 ayam, 25 keledai, 25 suara monyet.
- AudioSet-Audioset adalah dataset acara audio, yang terdiri dari lebih dari 2m klip video 10 detik yang dianotasi manusia. Klip-klip ini dikumpulkan dari YouTube, oleh karena itu banyak di antaranya dalam kualitas buruk dan mengandung banyak sumber suara. Ontologi hierarkis dari 632 kelas acara digunakan untuk membuat anotasi data ini, yang berarti bahwa suara yang sama dapat dijelaskan sebagai label yang berbeda. Misalnya, suara gonggongan dijelaskan sebagai hewan, hewan peliharaan, dan anjing. Semua video dibagi menjadi set evaluasi/balanced-train/tidak seimbang.
- AudioCaps - AudioCaps adalah dataset suara dengan deskripsi acara yang diperkenalkan untuk tugas captioning audio, dengan suara yang bersumber dari dataset audioset. Annotator disediakan trek audio bersama dengan petunjuk kategori (dan dengan petunjuk video tambahan jika diperlukan).
- Auto-ACD-Kami menyajikan pipa generasi caption audio inovatif dan otomatis, membangun dataset skala besar, berkualitas tinggi, berbahasa audio, dinamai Auto-ACD, terdiri lebih dari 1,9 juta pasangan teks audio. Deskripsi teks dalam AUTO-ACD berisi teks panjang (18 kata) dan beragam kosa kata (23k), dan memberikan informasi tentang lingkungan pendengaran di sekitarnya (titik data dengan bayangan) di mana suara terjadi.
- Efek Suara BBC - Ada 33.066 efek suara dalam dataset efek suara BBC, dengan deskripsi teks. Genre: terutama suara ambien. Setiap audio memiliki deskripsi tekstual alami.
- DCase 2016 - DCase 2016 adalah dataset untuk deteksi acara suara. Ini terdiri dari 20 file suara mono pendek untuk masing -masing dari 11 kelas suara (dari lingkungan kantor, seperti clearthroat, laci, atau keyboard), setiap file yang berisi satu instance acara suara. File suara dianotasi dengan waktu pada dan waktu offset, namun diam antara suara fisik yang sebenarnya (seperti dengan dering telepon) tidak ditandai dan karenanya “disertakan” dalam acara tersebut.
- Dataset Audio Lingkungan - Halaman ini mencoba memelihara daftar set data yang cocok untuk penelitian audio lingkungan. Selain dataset yang tersedia secara bebas, juga set data hak milik dan komersial tercantum di sini untuk kelengkapan. Selain dataset, juga beberapa layanan suara online terdaftar di akhir halaman.
- ESC-50-Dataset ESC-50 adalah koleksi berlabel 2000 rekaman audio lingkungan yang cocok untuk metode pembandingan klasifikasi suara lingkungan. Ini terdiri dari 2000 klip 5s dari 50 kelas berbeda di seluruh suara alami, manusia dan domestik, sekali lagi, diambil dari freesound.org.
- Fair-Play-Fair-Play adalah dataset video-audio yang terdiri dari 1.871 klip video dan rekaman klip audio binaural yang sesuai di ruang musik. Klip video dan klip binaural dari indeks yang sama secara kasar disejajarkan.
- FSD50K (basis data freesound 50k) - Dataset Freesound 50K (atau FSD50K singkatnya) adalah dataset terbuka dari peristiwa suara berlabel manusia yang berisi 51.197 klip freesound yang didistribusikan secara tidak adil di 200 kelas yang diambil dari ontologi audioset. FSD50K telah dibuat di Grup Teknologi Musik Universitat Pompeu Fabra. Ini terutama terdiri dari peristiwa suara yang diproduksi oleh sumber suara fisik dan mekanisme produksi, termasuk suara manusia, suara, hewan, suara alami, alat musik dan banyak lagi.
- FSDNOISY18K-Dataset FSDNOISY18K adalah dataset terbuka yang berisi 42,5 jam audio di 20 kelas acara suara, termasuk sejumlah kecil data berlabel manual dan sejumlah besar data berisik dunia nyata. Konten audio diambil dari freesound, dan dataset dikuratori menggunakan annotator freesound. Kumpulan fsdnoisy18K yang berisik terdiri dari 15.813 klip audio (38.8H), dan set tes terdiri dari 947 klip audio (1.4H) dengan label yang benar. Dataset fitur dua jenis utama noise label: in-vocabulary (IV) dan out-of-vocabulary (OOV). IV berlaku ketika, diberi label yang diamati yang salah atau tidak lengkap, label yang benar atau hilang adalah bagian dari set kelas target. Secara analog, OOV berarti bahwa label yang benar atau hilang tidak dicakup oleh 20 kelas tersebut.
- FUSS (Dataset Pemisahan Suara Universal) - Dataset Pemisahan Suara Universal Gratis (FUSS) adalah database campuran suara sewenang -wenang dan referensi tingkat sumber, untuk digunakan dalam percobaan pada pemisahan suara yang sewenang -wenang. Ribuan didasarkan pada corpus FSD50K.
- Inaturalist Sounds Dataset - Kami menyajikan dataset suara inaturalis (inatsounds), koleksi 230.000 file audio yang menangkap suara dari lebih dari 5.500 spesies, disumbangkan oleh lebih dari 27.000 perekam di seluruh dunia.
- Mengetuk efek suara dengan niat emosional - Dataset direkam oleh seniman foley profesional Ulf Olausson di Foleyworks Studios di Stockholm pada 15 Oktober 2019. Terinspirasi oleh pekerjaan sebelumnya tentang Knocking Sounds. Kami memilih lima jenis emosi untuk digambarkan dalam dataset: kemarahan, ketakutan, kebahagiaan, netral dan kesedihan.
- MIMII - Dataset Suara untuk Malfunctioning Industrial Machine Investigation and Inspection (MIMII) adalah dataset suara suara mesin industri.
- MIVIA Audio Events Dataset - Set data acara audio MIVIA terdiri dari total 6000 acara untuk aplikasi pengawasan, yaitu pecahnya kaca, tembakan senjata dan teriakan. Acara 6000 dibagi menjadi satu set pelatihan (terdiri dari 4200 acara) dan satu set tes (Compose of 1800 Acara).
- Dataset Audio Pitch (Surge Synthesizer) - 3,4 jam audio disintesis menggunakan Sumber Sumber Sumber Terbuka, berdasarkan 2084 preset yang termasuk dalam paket Surge. Ini mewakili suara sintesis `alami '---- iepreset yang dirancang oleh manusia. Kami menghasilkan sampel 4 detik yang diputar di Velocity 64 dengan durasi note-on 3 detik. Untuk setiap preset, kami hanya memvariasikan nada, dari MIDI 21--108, kisaran grand piano. Setiap suara dalam dataset adalah RMS-level dinormalisasi menggunakan paket Normalize. Tidak ada cara elegan untuk mendedup dataset ini; Namun hanya sebagian kecil dari preset (seperti drum dan efek suara) tidak memiliki variasi pitch atau pemesanan persepsi.
- REMFX - REMFX: Dataset Evaluasi. Kumpulan data ini awalnya bersumber dari vokal, gitarset, dsd100, dan dataset IDMT-SMT-drums sebelum diproses dalam skrip pembuatan dataset kami. Dataset dinamai sesuai dengan jumlah efek yang diterapkan (0-5). Misalnya, 2-2.zip berisi 2 efek yang diterapkan pada setiap contoh audio input. Target dibiarkan tidak tersentuh. Efek audio yang diterapkan berasal dari set (distorsi, penundaan, kompresor rentang dinamis, fasor, reverb) dan sampel secara acak tanpa penggantian untuk setiap contoh.
- SoundCam-SoundCam, dataset RIRS unik terbesar dari kamar-kamar di tempat yang dipublikasikan hingga saat ini. Ini mencakup 5.000 10-saluran pengukuran dunia nyata dari respons impuls kamar dan 2.000 rekaman musik 10-saluran di tiga kamar yang berbeda, termasuk lab akustik yang terkontrol, ruang tamu di bawah tanah, dan ruang konferensi, dengan manusia yang berbeda dalam posisi di setiap kamar.
- Soundingearth - Soundingearth terdiri dari citra udara dan sampel audio yang berlokasi bersama di seluruh dunia.
- Spasial Librispeech-Librispeech spasial, adalah dataset audio spasial dengan lebih dari 650 jam ambisonics orde pertama, dan kebisingan distraktor opsional (dengan audio 19-saluran mentah segera hadir). Spasial Librispeech dirancang untuk pelatihan model pembelajaran mesin, dan itu termasuk label untuk posisi sumber, arah berbicara, akustik kamar dan geometri. Librispeech spasial dihasilkan dengan menambah sampel librispeech dengan kondisi akustik 200k+ simulasi di ruang sintetis 8K+.
- Starss22 (sony-tau realistis spasial soundscapes 2022)-Sony-tau realistis spasial soundscapes 2022 (Starss22) Dataset terdiri dari rekaman adegan nyata yang ditangkap dengan array mikrofon spherical channel high-count (SMA). Rekaman dilakukan dari dua tim yang berbeda di dua situs yang berbeda, Tampere University di Tammere, Finlandia, dan fasilitas Sony di Tokyo, Jepang. Rekaman di kedua situs memiliki proses penangkapan dan anotasi yang sama, dan organisasi serupa.
- Toyadmos - Dataset Toyadmos adalah dataset suara pengoperasian mesin sekitar 540 jam suara pengoperasian mesin normal dan lebih dari 12.000 sampel suara anomali yang dikumpulkan dengan empat mikrofon pada tingkat pengambilan sampel 48kHz, disiapkan oleh Yuma Koizumi dan anggota di laboratori intelijen media NTT.
- Tut Sound Events 2017 - Dataset Tut Sound Events 2017 berisi 24 rekaman audio di lingkungan jalanan dan berisi 6 kelas yang berbeda. Kelas -kelas ini adalah: rem mencicit, mobil, anak -anak, kendaraan besar, orang yang berbicara, dan orang -orang berjalan.
- Urbansound8K - Urban Sound 8K adalah dataset audio yang berisi 8732 kutipan suara berlabel (<= 4s) dari suara perkotaan dari 10 kelas: Air_conditioner, Car_horn, Children_playing, dog_bark, drilling, enginge_idling, gun_shot, jackhammer, siren, dan street_music. Kelas -kelas diambil dari taksonomi suara perkotaan. Semua kutipan diambil dari rekaman lapangan yang diunggah ke www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^