AI 오디오 데이터세트(AI-ADS) ?
AI 오디오 데이터세트(AI-ADS) - 음성, 음악 및 음향 효과를 포함하며 생성 AI, AIGC, AI 모델 교육, 지능형 오디오 도구 개발 및 오디오 애플리케이션을 위한 교육 데이터를 제공할 수 있습니다.
목차
프로젝트 목록
연설
- AISHELL-1 - AISHELL-1은 중국어 음성 인식 연구 및 구축용 음성 인식 시스템을 위한 코퍼스입니다.
- AISHELL-3 - AISHELL-3은 Beijing Shell Shell Technology Co.,Ltd에서 출판한 대규모 및 충실도가 높은 다중 스피커 중국어 음성 자료입니다. 다중 화자 TTS(텍스트 음성 변환) 시스템을 훈련하는 데 사용할 수 있습니다. 이 말뭉치에는 중국어 원어민 218명이 말하는 감정 중립 녹음과 총 88,035개의 발언이 포함되어 있습니다.
- 아랍어 음성 코퍼스 - 아랍어 음성 코퍼스(1.5GB)는 음성 합성을 위한 MSA(현대 표준 아랍어) 음성 코퍼스입니다. 이 말뭉치에는 음소 수준에서 녹음된 음성과 정렬된 3.7시간 이상의 MSA 음성에 대한 음성 및 철자 표기가 포함되어 있습니다. 주석에는 개별 음소에 단어 강세 표시가 포함됩니다.
- AudioMNIST - 데이터 세트는 60명의 화자가 말하는 숫자(0-9)의 30000개 오디오 샘플로 구성됩니다.
- AVSpeech - AVSpeech는 간섭하는 배경 신호가 없는 음성 클립으로 구성된 대규모 시청각 데이터세트입니다. 세그먼트의 길이는 3초에서 10초 사이로 다양하며, 각 클립에서 비디오에서 유일하게 보이는 얼굴과 사운드트랙에서 들리는 사운드는 말하는 사람 한 사람의 것입니다. 전체적으로 데이터 세트에는 다양한 사람, 언어 및 얼굴 포즈에 걸쳐 약 150,000명의 개별 화자가 포함된 약 4700시간의 비디오 세그먼트가 포함되어 있습니다.
- ATIS(항공 여행 정보 시스템) - ATIS(항공 여행 정보 시스템)는 자동화된 항공 여행 조회 시스템에서 항공편 정보를 요청하는 사람에 대한 오디오 녹음 및 해당 수동 기록으로 구성된 데이터세트입니다. 데이터는 17개의 고유한 의도 카테고리로 구성됩니다. 원래 분할에는 각각 학습, 개발 및 테스트 세트의 4478, 500 및 893개의 의도 레이블이 지정된 참조 발언이 포함되어 있습니다.
- Carnatic Varnam 데이터세트 - Carnatic varnam 데이터세트는 Carnatic ragas의 억양 분석에 대한 연구를 위해 녹음된 28개의 솔로 보컬 녹음 모음입니다. 컬렉션은 기계가 읽을 수 있는 형식의 오디오 녹음, 시간 정렬 탈라 주기 주석 및 스와라 표기법으로 구성됩니다.
- 캐주얼 대화(Casual Conversations) - 캐주얼 대화 데이터세트는 연구자가 다양한 연령, 성별, 명백한 피부색 및 주변 조명 조건에 걸쳐 컴퓨터 비전 및 오디오 모델의 정확성을 평가하는 데 도움을 주기 위해 설계되었습니다.
- CN-Celeb - CN-Celeb은 '야생'에서 수집된 대규모 화자 인식 데이터 세트입니다. 이 데이터 세트에는 1,000명의 중국 유명 인사의 130,000개 이상의 발언이 포함되어 있으며 실제 세계의 11가지 다양한 장르를 다루고 있습니다.
- Clotho - Clotho는 4981개의 오디오 샘플로 구성된 오디오 캡션 데이터 세트이며, 각 오디오 샘플에는 5개의 캡션(총 24,905개의 캡션)이 있습니다. 오디오 샘플의 길이는 15~30초이고 캡션의 길이는 8~20단어입니다.
- Common Voice - Common Voice는 고유한 MP3와 해당 텍스트 파일로 구성된 오디오 데이터세트입니다. 데이터 세트에는 9,283시간의 기록 시간이 있습니다. 데이터세트에는 연령, 성별, 억양과 같은 인구통계학적 메타데이터도 포함되어 있습니다. 데이터 세트는 60개 언어로 된 7,335개의 검증된 시간으로 구성됩니다.
- CoVoST - CoVoST는 대규모 다국어 음성-텍스트 번역 코퍼스입니다. 최신 두 번째 버전은 21개 언어를 영어로, 영어를 15개 언어로 번역합니다. 총 2880시간의 음성을 제공하며 78K 스피커와 66개 악센트로 다양합니다.
- CVSS - CVSS는 21개 언어의 문장 수준 병렬 S2ST 쌍을 영어로 다루는 대규모 다국어-영어 음성 번역(S2ST) 코퍼스입니다. CVSS는 최첨단 TTS 시스템을 사용하여 CoVoST 2의 번역 텍스트를 음성으로 합성함으로써 Common Voice 음성 코퍼스와 CoVoST 2 음성-텍스트 변환(ST) 코퍼스에서 파생됩니다.
- EasyCom - Easy Communications(EasyCom) 데이터세트는 증강 현실(AR) 기반 다중 센서 자기중심적 세계관에서 칵테일 파티 효과를 완화하는 데 도움이 되도록 설계된 세계 최초의 데이터세트입니다. 데이터 세트에는 AR 안경 자기중심적 다중 채널 마이크 배열 오디오, 넓은 시야 RGB 비디오, 음성 소스 포즈, 헤드셋 마이크 오디오, 주석이 달린 음성 활동, 음성 전사, 머리 및 얼굴 경계 상자 및 소스 식별 라벨이 포함되어 있습니다. 우리는 칵테일 파티 문제에 대한 다중 모드 AR 솔루션에 대한 연구를 촉진하기 위해 이 데이터 세트를 생성하여 공개하고 있습니다.
- Emilia - Emilia 데이터 세트는 영어(En), 중국어(Zh), 독일어(De), 프랑스어(Fr), 일본어(Ja) 및 한국어의 6개 언어로 된 101,000시간 이상의 음성 데이터를 포함하는 포괄적인 다국어 리소스입니다. (코). 토크쇼, 인터뷰, 토론, 스포츠 해설, 오디오북 등 광범위한 콘텐츠 장르를 포괄하는 인터넷상의 수많은 비디오 플랫폼 및 팟캐스트에서 다양한 말하기 스타일을 나타내는 다양한 음성 데이터를 제공합니다.
- ESD(Emotional Speech Database) - ESD는 음성 변환 연구를 위한 감성 음성 데이터베이스입니다. ESD 데이터베이스는 영어 원어민 10명과 중국어 원어민 10명이 사용하는 350개의 동시 발언으로 구성되어 있으며 5가지 감정 범주(중립, 행복, 분노, 슬픔, 놀라움)를 다루고 있습니다. 29시간 이상의 음성 데이터가 통제된 음향 환경에서 녹음되었습니다. 데이터베이스는 다중 화자 및 교차 언어 감정 음성 변환 연구에 적합합니다.
- FPT Open Speech Dataset(FOSD) - 이 데이터 세트는 2018년에 공개된 3개의 하위 데이터 세트(총 약 30시간)에서 수동으로 편집한 25,921개의 녹음된 베트남어 연설(대본 및 각 연설의 시작 및 종료 시간 표시)로 구성됩니다. FPT 주식회사.
- 무료 음성 숫자 데이터 세트(FSDD) - 음성 숫자의 무료 오디오 데이터 세트입니다. 오디오는 MNIST를 생각해 보세요. 8kHz의 wav 파일에 음성 숫자 녹음으로 구성된 간단한 오디오/음성 데이터 세트입니다. 녹음은 시작과 끝 부분에서 거의 무음이 최소화되도록 잘립니다.
- Fluent Speech Commands - Fluent Speech Commands는 SLU(음성 언어 이해) 실험을 위한 오픈 소스 오디오 데이터세트입니다. 각 발화에는 "작업", "객체" 및 "위치" 값으로 레이블이 지정됩니다. 예를 들어, "부엌에서 조명을 켜세요"에는 {"action": "activate", "object": "lights", "location": "kitchen"} 라벨이 있습니다. 모델은 이러한 각 값을 예측해야 하며, 발화에 대한 예측은 모든 값이 올바른 경우에만 올바른 것으로 간주됩니다.
- Genshin 데이터세트 - SVC/SVS/TTS용 Genshin 데이터세트.
- GenshinVoice - Genshin Impact의 음성 데이터 세트
- GigaSpeech - GigaSpeech는 지도 교육에 적합한 10,000시간의 고품질 라벨링 오디오와 준지도 및 비지도 교육에 적합한 총 40,000시간의 오디오를 갖춘 진화하는 다중 도메인 영어 음성 인식 코퍼스입니다.
- GigaSpeech 2 - 자동화된 크롤링, 전사 및 개선 기능을 갖춘 저자원 언어를 위한 진화하는 대규모 다중 도메인 ASR 코퍼스입니다.
- How2 - How2 데이터 세트에는 13,500개의 비디오 또는 300시간의 음성이 포함되어 있으며 훈련 185,187개, 개발(dev) 2022개, 테스트 발언 2,361개로 나뉩니다. 영어 자막과 크라우드소싱 포르투갈어 번역이 있습니다.
- inaGVAD - 비음성 이벤트 유형, 화자 특성 및 음성 품질을 자세히 설명하는 평가 스크립트와 상세한 주석 구성표를 사용하여 VAD(음성 활동 감지) 및 SGS(화자 성별 세분화)에 대한 주석이 달린 까다로운 프랑스 TV 및 라디오 데이터세트
- KdConv - KdConv는 중국의 다중 도메인 지식 중심 전환 데이터 세트로, 다단계 대화의 주제를 지식 그래프에 기반을 두고 있습니다. KdConv에는 세 가지 도메인(영화, 음악, 여행)의 4.5K 대화와 평균 회전 횟수가 19.0인 86K 발언이 포함되어 있습니다. 이러한 대화에는 관련 주제에 대한 심층적인 토론과 여러 주제 간의 자연스러운 전환이 포함되며, 코퍼스는 전이 학습 및 도메인 적응 탐색에도 사용될 수 있습니다.
- Libriheavy - Libriheavy: 구두점 대소문자 및 컨텍스트가 포함된 50,000시간 ASR 코퍼스입니다.
- LibriSpeech - LibriSpeech 코퍼스는 LibriVox 프로젝트의 일부인 약 1,000시간 분량의 오디오북 모음입니다. 대부분의 오디오북은 구텐베르크 프로젝트에서 나왔습니다. 훈련 데이터는 100시간, 360시간, 500시간 세트의 3개 파티션으로 분할되며, 개발 및 테스트 데이터는 자동 음성 인식 시스템이 얼마나 잘 수행되는지에 따라 각각 '깨끗함' 및 '기타' 범주로 분할됩니다. . 각 개발 및 테스트 세트의 오디오 길이는 약 5시간입니다.
- LibriTTS - LibriTTS 는 Heiga Zen이 Google Speech 및 Google Brain 팀원의 도움을 받아 준비한 24kHz 샘플링 속도로 약 585시간 분량의 영어 음성 읽기로 구성된 다중 화자 영어 자료입니다. LibriTTS 코퍼스는 TTS 연구를 위해 설계되었습니다. 이는 LibriSpeech 말뭉치의 원본 자료(LibriVox의 mp3 오디오 파일 및 Project Gutenberg의 텍스트 파일)에서 파생되었습니다.
- LibriTTS-R - LibriTTS-R: 복원된 다중 화자 텍스트 음성 변환 코퍼스. 이는 2,456명의 화자와 해당 텍스트에서 24kHz 샘플링 속도로 585시간의 음성 데이터로 구성된 LibriTTS 코퍼스에 음성 복원을 적용하여 파생됩니다. LibriTTS-R의 구성 샘플은 LibriTTS와 동일하지만 음질만 향상되었습니다.
- LJSpeech(The LJ Speech Dataset) - 이는 7권의 논픽션 도서에서 단일 화자가 읽는 구절을 담은 13,100개의 짧은 오디오 클립으로 구성된 공개 도메인 음성 데이터 세트입니다. 각 클립에 대한 전사본이 제공됩니다. 클립의 길이는 1초에서 10초까지 다양하며 총 길이는 약 24시간입니다. 이 텍스트는 1884년에서 1964년 사이에 출판되었으며 공개 도메인에 있습니다. 오디오는 LibriVox 프로젝트에 의해 2016-17년에 녹음되었으며 공개 도메인에도 있습니다.
- LRS2(입술 읽기 문장 2) - Oxford-BBC 입술 읽기 문장 2(LRS2) 데이터 세트는 실제 입술 읽기 문장에 대해 공개적으로 사용 가능한 최대 규모의 데이터 세트 중 하나입니다. 데이터베이스는 주로 BBC 프로그램의 뉴스와 토크쇼로 구성됩니다. 각 문장의 길이는 최대 100자입니다.
- LRW(야생 입술 읽기) - LRW(야생 입술 읽기) 데이터 세트는 1,000명이 넘는 화자의 500개 단어가 포함된 대규모 시청각 데이터베이스입니다. 각 발화에는 29개의 프레임이 있으며 그 경계는 대상 단어를 중심으로 합니다. 데이터베이스는 훈련, 검증, 테스트 세트로 구분됩니다. 훈련 세트에는 각 클래스에 대해 최소 800개의 발언이 포함되어 있고 검증 및 테스트 세트에는 50개의 발언이 포함되어 있습니다.
- MuAViC - 강력한 음성 인식 및 강력한 음성-텍스트 번역을 위한 다국어 시청각 자료입니다.
- MuST-C - MuST-C는 현재 음성 번역을 위해 공개적으로 사용 가능한 최대 규모의 다국어 코퍼스(일대다)를 나타냅니다. 영어부터 독일어, 스페인어, 프랑스어, 이탈리아어, 네덜란드어, 포르투갈어, 루마니아어, 러시아어까지 8개 언어 방향을 다루고 있습니다. 코퍼스는 영어 TED 강연의 오디오, 필사본 및 번역으로 구성되며 사전 정의된 교육, 검증 및 테스트 분할이 함께 제공됩니다.
- MetaQA(MoviE Text Audio QA) - MetaQA 데이터 세트는 WikiMovies 데이터 세트에서 파생된 영화 온톨로지와 자연어로 작성된 세 가지 질문-답변 쌍 세트(1-홉, 2-홉, 3-홉 쿼리)로 구성됩니다.
- MELD(Multimodal EmotionLines 데이터 세트) - MELD(Multimodal EmotionLines 데이터 세트)는 EmotionLines 데이터 세트를 강화하고 확장하여 생성되었습니다. MELD에는 EmotionLines에서 사용할 수 있는 동일한 대화 인스턴스가 포함되어 있지만 텍스트와 함께 오디오 및 시각적 양식도 포함됩니다. MELD에는 Friends TV 시리즈의 1400개 이상의 대화와 13000개 이상의 발언이 있습니다. 여러 연사가 대화에 참여했습니다. 대화의 각 발화에는 분노, 혐오, 슬픔, 기쁨, 중립, 놀라움, 두려움이라는 7가지 감정 중 하나로 표시되어 있습니다. MELD에는 각 발화에 대한 감정(긍정적, 부정적 및 중립적) 주석도 있습니다.
- Microsoft Speech Corpus(인도 언어) - Microsoft Speech Corpus(인도 언어) 릴리스에는 텔루구어, 타밀어 및 구자라트어에 대한 대화 및 구문 음성 훈련과 테스트 데이터가 포함되어 있습니다. 데이터 패키지에는 오디오 및 해당 스크립트가 포함되어 있습니다. 본 데이터세트에 제공된 데이터는 상업적 목적으로 사용되어서는 안 됩니다. 귀하는 연구 목적으로만 데이터를 사용할 수 있습니다. 조사 결과를 게시하는 경우 "Microsoft 및 SpeechOcean.com에서 제공한 데이터"라는 속성을 제공해야 합니다.
- PATS(포즈 오디오 대본 스타일) - PATS 데이터 세트는 다양하고 많은 양의 정렬된 포즈, 오디오 및 대본으로 구성됩니다. 이 데이터 세트를 통해 자연스럽고 관련성 있는 제스처를 생성하는 가상 에이전트용 기술을 개발하는 데 도움이 되는 벤치마크를 제공하고자 합니다.
- RealMAN - RealMAN: 동적 음성 향상 및 현지화를 위한 실제 녹음 및 주석이 달린 마이크 배열 데이터 세트입니다.
- SAVEE(Surrey Audio-Visual Expressed Emotion) - SAVEE(Surrey Audio-Visual Expressed Emotion) 데이터 세트는 자동 감정 인식 시스템 개발을 위한 전제 조건으로 기록되었습니다. 데이터베이스는 4명의 남자 배우가 7가지 감정으로 녹음한 총 480개의 영국 영어 발화로 구성되어 있습니다. 문장은 표준 TIMIT 말뭉치에서 선택되었으며 각 감정에 대해 음성학적으로 균형을 이루었습니다.
- SoS_Dataset - 스토리의 사운드: 오디오를 사용한 다중 모드 스토리텔링. 스토리텔링은 현실 세계에서 다양한 방식으로 이루어집니다. 이야기를 할 때 이야기 자체와 함께 모든 시각화와 소리를 사용할 수 있습니다. 그러나 스토리텔링 데이터 세트 및 작업에 대한 이전 연구에서는 소리가 스토리의 의미 있는 의미를 전달함에도 불구하고 소리에 거의 관심을 기울이지 않았습니다. 따라서 우리는 언어적 정보가 없는 이야기 맥락 기반 오디오인 "배경음"이라는 새로운 구성 요소를 확립하여 이야기 이해와 전달 영역을 확장할 것을 제안합니다.
- 음성 데이터 세트 컬렉션 - 음성 관련 연구(주로 자동 음성 인식용)를 위해 엄선된 개방형 음성 데이터 세트 목록입니다. 이 저장소에는 110개 이상의 음성 데이터세트가 수집되어 있으며, 추가 신청이나 등록 없이 70개 이상의 데이터세트를 직접 다운로드할 수 있습니다.
- 음성 데이터 세트 생성기 - 음성 데이터 세트 생성기는 텍스트 음성 변환 또는 음성 텍스트 변환 모델 훈련에 적합한 데이터 세트를 생성하는 데 전념합니다. 주요 기능에는 오디오 파일 복사, 필요한 경우 오디오 품질 향상, 데이터 세트 생성이 포함됩니다.
- 3D-Speaker-Datasets - 인간 음성의 대규모 다중 장치, 다중 거리 및 다중 방언 오디오 데이터 세트입니다.
- TED-LIUM - TED 강연의 오디오 필사본입니다. LIUM(Laboratoire d'Informatique de l'Université du Maine)에서 제작한 1495개의 TED 토크 오디오 녹음과 해당 녹음의 전체 텍스트 필사본.
- Flickr 오디오 캡션 코퍼스 - Flickr 8k 오디오 캡션 코퍼스에는 8,000개의 자연 이미지에 대한 40,000개의 음성 캡션이 포함되어 있습니다. 감독되지 않은 음성 패턴 발견을 위한 다중 모달 학습 방식을 조사하기 위해 2015년에 수집되었습니다.
- The People's Speech - The People's Speech 는 CC-BY-SA(CC-BY 하위 집합 포함)에 따라 학술 및 상업적 사용이 허가된 무료 다운로드 30,000시간의 지도형 대화 영어 음성 인식 데이터 세트입니다. 데이터는 기존 녹음본이 포함된 적절한 라이선스가 부여된 오디오 데이터를 인터넷에서 검색하여 수집됩니다.
- Spoken Wikipedia Corpora - Spoken Wikipedia 프로젝트는 Wikipedia 기사의 자원 봉사 독자를 통합합니다. 어떤 이유로든 기사의 쓰기 버전을 사용할 수 없거나 사용할 의사가 없는 사용자는 여러 언어로 된 수백 개의 음성 기사를 사용할 수 있습니다.
- TIMIT - DARPA TIMIT 음향-음성 연속 음성 코퍼스입니다.
- tts-frontend-dataset - TTS 프런트엔드 데이터 세트: Polyphone / Prosody / TextNormalization.
- VoxCeleb2 - VoxCeleb2는 오픈 소스 미디어에서 자동으로 얻은 대규모 화자 인식 데이터 세트입니다. VoxCeleb2는 6,000명이 넘는 연사의 백만 개가 넘는 발언으로 구성됩니다. 데이터 세트는 '야생'에서 수집되므로 음성 세그먼트는 웃음, 누화, 채널 효과, 음악 및 기타 소리를 포함한 실제 소음으로 손상됩니다. 또한 이 데이터 세트는 다양한 억양, 연령, 민족 및 언어를 포괄하는 145개 국적의 사용자가 말하는 다국어 데이터입니다.
- VoxConverse - VoxConverse는 YouTube 동영상에서 추출한 인간 음성의 다중 화자 클립으로 구성된 시청각 분할 데이터세트입니다.
- VoxLingua107 - VoxLingua107은 6628시간(언어당 평균 62시간)의 음성 언어 인식을 위한 데이터 세트이며 1609개의 검증된 발언으로 구성된 평가 세트가 함께 제공됩니다.
- VoxPopuli - VoxPopuli는 23개 언어로 10만 시간의 라벨이 지정되지 않은 음성 데이터를 제공하는 대규모 다국어 코퍼스입니다. 비지도 표현 학습은 물론 준지도 학습에 대해서도 현재까지 공개된 데이터 중 최대 규모입니다. VoxPopuli에는 16개 언어로 녹음된 1.8K 시간의 음성과 5개 언어로 정렬된 구두 통역(총 5.1K 시간)도 포함되어 있습니다.
- VoxForge - VoxForge는 무료 및 오픈 소스 음성 인식 엔진(Linux, Windows 및 Mac)과 함께 사용하기 위해 전사된 음성을 수집하도록 설정된 개방형 음성 데이터세트입니다.
- VocalSound - VocalSound는 3,365명의 고유한 주제에서 나온 웃음, 한숨, 기침, 목 가무침, 재채기 및 냄새에 대한 21,024개의 크라우드소싱 녹음으로 구성된 무료 데이터 세트입니다. VocalSound 데이터 세트에는 화자 연령, 성별, 모국어, 국가 및 건강 상태와 같은 메타 정보도 포함되어 있습니다.
- VoiceBank + DEMAND - VoiceBank+DEMAND는 음성 향상 알고리즘 및 TTS 모델을 훈련하기 위한 시끄러운 음성 데이터베이스입니다. 데이터베이스는 48kHz에서 작동하는 음성 향상 방법을 훈련하고 테스트하도록 설계되었습니다. 더 자세한 설명은 데이터베이스와 관련된 논문에서 찾을 수 있습니다.
- WaveFake - WaveFake는 오디오 딥페이크 탐지를 위한 데이터 세트입니다. 데이터 세트는 100,000개가 넘는 생성된 오디오 클립의 대규모 데이터 세트로 구성됩니다.
- WenetSpeech - WenetSpeech는 10,000시간 이상의 고품질 레이블 지정 음성, 2,400시간 이상의 약한 레이블 지정 음성, 약 10,000시간의 레이블 없는 음성으로 구성된 다중 도메인 중국어 코퍼스로 총 22,400시간 이상입니다. 저자는 다양한 말하기 스타일, 시나리오, 도메인, 주제 및 시끄러운 조건을 다루는 데이터를 YouTube 및 Podcast에서 수집했습니다. 해당 비디오 캡션에 대한 YouTube 데이터에 대한 오디오/텍스트 분할 후보를 생성하기 위해 광학 문자 인식(OCR) 기반 방법이 도입되었습니다.
- WSJ0-2mix - WSJ0-2mix 는 WSJ0(Wall Street Journal) 코퍼스의 발화를 사용하는 음성 혼합 음성 인식 코퍼스입니다.
- 왱! (WSJ0 Hipster Ambient Mixtures) - WSJ0 Hipster Ambient Mixtures ( WHAM! ) 데이터 세트는 wsj0-2mix 데이터 세트의 각 2-스피커 혼합물을 고유한 소음 배경 장면과 쌍을 이룹니다. 소음 오디오는 2018년 말 샌프란시스코 베이 지역 전역의 다양한 도시 위치에서 수집되었습니다. 환경은 주로 레스토랑, 카페, 바, 공원으로 구성됩니다. 오디오는 지상에서 1.0~1.5m 높이에 삼각대에 장착된 Apogee Sennheiser 바이노럴 마이크를 사용하여 녹음되었습니다.
- YODAS - YODAS 데이터세트의 YODAS 수동/자동 하위 집합으로, 음성 길이는 369,510시간입니다. 이 데이터 세트에는 YouTube의 오디오 발언과 해당 캡션(수동 또는 자동)이 포함되어 있습니다. 수동 캡션은 사용자가 업로드했음을 나타낼 뿐이지 반드시 사람이 복사한 것은 아닙니다.
- YODAS2 - YODAS2는 YODAS 데이터세트의 긴 형식 데이터세트입니다. espnet/yodas와 동일한 데이터 세트를 제공하지만 YODAS2에는 다음과 같은 새로운 기능이 있습니다. 1. 오디오가 분할되지 않는 긴 형식(비디오 수준)으로 형식화됩니다. 2. 오디오는 더 높은 샘플링 속도(예: 24k)를 사용하여 인코딩됩니다.
- YTTTS - YouTube TTS(텍스트 음성 변환) 데이터 세트는 영어 텍스트 변환과 함께 YouTube 동영상에서 추출한 파형 오디오로 구성됩니다.
^ 목차로 돌아가기 ^
음악
- AAM: 인공 오디오 멀티트랙 데이터 세트 - 이 데이터 세트에는 풍부한 주석이 포함된 3,000개의 인공 음악 오디오 트랙이 포함되어 있습니다. 실제 악기 샘플을 기반으로 하며 음악 이론과 관련한 알고리즘 구성을 통해 생성됩니다. 단일 악기 트랙뿐만 아니라 노래의 전체 믹스도 제공합니다. 제너레이션에 사용되는 미디스도 준비되어 있습니다. 주석 파일에는 온셋, 피치, 악기, 키, 템포, 세그먼트, 멜로디 악기, 비트 및 코드가 포함됩니다.
- 아카펠라(Acappella) - 아카펠라는 다양한 가수와 언어로 샘플링된 YouTbe에서 가져온 약 46시간 분량의 아카펠라 솔로 노래 동영상으로 구성됩니다. 영어, 스페인어, 힌디어 등 4가지 언어가 고려됩니다.
- 추가: audio-dataset-downloader - 음악 장르 목록을 기반으로 Youtube에서 N시간 분량의 오디오를 다운로드하기 위한 간단한 Python CLI 스크립트입니다.
- ADL 피아노 MIDI - ADL 피아노 MIDI는 다양한 장르의 11,086개 피아노 곡으로 구성된 데이터세트입니다. 이 데이터 세트는 Million Song 데이터 세트의 항목과 일치하는 45,129개의 고유한 MIDI 파일 모음인 Lakh MIDI 데이터 세트를 기반으로 합니다.
- ASAP(Aligned Scores and Performances) - ASAP는 정렬된 악보(MIDI 및 MusicXML 모두)와 연주(오디오 및 MIDI)의 데이터 세트이며 모두 강박, 비트, 박자 기호 및 조표 주석이 포함되어 있습니다.
- Annotated Jingju Arias 데이터세트 - Annotated Jingju Arias 데이터세트는 Praat 소프트웨어를 사용하여 다양한 수준에서 수동으로 분할된 34개의 Jingju Arias 모음입니다. 선정된 아리아에는 징주의 두 가지 주요 성강인 서비(xipi)와 얼황(erhuang)과 노래 측면에서 다섯 가지 주요 역할 유형인 단(dan), 징(jing), 노단(laodan), 노성(laosheng) 및 샤오성(xiaosheng)의 샘플이 포함되어 있습니다. 데이터 세트는 아리아, MusicBrainz ID, 아티스트, 학교, 역할 유형, shengqiang, banshi, 가사 줄, 음절 및 타악기 패턴에 대한 계층을 포함하는 각 아리아에 대한 Praat TextGrid 파일로 구성됩니다.
- Bach Doodle - Bach Doodle 데이터 세트는 Bach Doodle에서 제출된 2,160만 개의 조화로 구성됩니다. 데이터 세트에는 작곡에 대한 메타데이터(원산지 및 피드백 등)는 물론 사용자가 입력한 멜로디의 MIDI와 생성된 하모니제이션의 MIDI가 모두 포함되어 있습니다. 데이터 세트에는 약 6년간의 사용자 입력 음악이 포함되어 있습니다.
- 바흐 바이올린 데이터세트(Bach Violin Dataset) - 바흐의 솔로 바이올린을 위한 소나타와 파르티타(BWV 1001-1006)에 대한 고품질 공개 녹음 모음입니다.
- Batik-plays-Mozart 데이터 세트 - Batik-plays-Mozart 데이터 세트는 비엔나 콘서트 피아니스트 Roland Batik이 컴퓨터 모니터링을 통해 Bösendorfer 그랜드 피아노로 연주한 12개의 완전한 모차르트 피아노 소나타(36개 악장)가 포함된 피아노 연주 데이터 세트입니다. 연주는 MIDI 형식(해당 오디오 파일은 시중에서 구입 가능)으로 제공되며 MusicXML의 New Mozart Edition 악보와 이전에 The Annotated Mozart Sonatas에 게시된 음악학적 하모니, 종지 및 구문 주석에 맞춰 음표 수준으로 정렬됩니다.
- 베이징 오페라 타악기 데이터세트 - 베이징 오페라 타악기 데이터세트는 베이징 오페라에서 사용되는 4개의 타악기 클래스에 걸쳐 격리된 스트로크의 236개 예제 모음입니다. 각 타악기에 대한 스트로크 모델을 구축하는 데 사용할 수 있습니다.
- 베이징 오페라 타악기 패턴 데이터세트 - BOPP(Beijing Opera Percussion Pattern) 데이터세트는 5가지 패턴 클래스를 포함하는 133개의 오디오 타악기 패턴 모음입니다. 데이터 세트에는 패턴에 대한 오디오 및 음절 수준 전사가 포함됩니다(시간 정렬되지 않음). 타악기 녹음 및 분류 작업에 유용합니다. 패턴은 아리아 오디오 녹음에서 추출되었으며 음악학자가 라벨을 붙였습니다.
- BiMMuDa - BiMMuDa(Billboard Melodic Music Dataset)는 1950년부터 2022년까지 매년 빌보드 연말 싱글 차트 상위 5개 싱글의 주요 멜로디에 대한 MIDI 데이터세트입니다. 이 저장소는 데이터세트와 메타데이터를 저장합니다. 그리고 부록.
- CAL500(Computer Audition Lab 500) - CAL500(Computer Audition Lab 500)은 음악 정보 검색 시스템 평가를 위한 데이터 세트입니다. 서양 대중음악에서 선별한 502곡으로 구성되어 있습니다. 오디오는 각 노래의 파형 위에 12ms의 반 중첩 단시간 창을 밀어서 추출한 처음 13개의 Mel-주파수 셉스트럴 계수(및 해당 첫 번째 및 두 번째 파생물)의 시계열로 표시됩니다.
- Carnatic Music Rhythm 데이터 세트 - Carnatic Music Rhythm 데이터 세트는 오디오, 관련 탈라 관련 메타데이터 및 탈라 주기의 진행을 나타내는 시간 정렬 마커가 포함된 Carnatic 음악의 4개 탈라에서 발췌한 176개(16.6시간)의 하위 컬렉션입니다. Carnatic 음악의 많은 자동 리듬 분석 작업에 대한 테스트 코퍼스로 유용합니다.
- CCMixter - CCMixter는 다양한 음악 장르를 특징으로 하는 ccMixter의 전체 길이 스테레오 트랙 50개로 구성된 노래하는 음성 분리 데이터 세트입니다. 각 노래에는 배경 음악, 음성 신호 및 그 합이라는 세 가지 WAV 파일을 사용할 수 있습니다.
- ChMusic - ChMusic 은 악기 인식의 훈련 모델 및 성능 평가를 위한 중국 전통 음악 데이터세트입니다. 이 데이터 세트는 Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin 및 Sheng으로 구성된 11개의 악기를 다루고 있습니다.
- chongchong-free - 총총 피아노 다운로더는 총총 피아노 악보를 무료로 다운로드할 수 있는 소프트웨어로 악보의 링크를 얻고, 악보의 내용을 분석하고, 파일을 내보낼 수 있습니다.
- ComMU - ComMU에는 전문 작곡가가 해당 12개의 메타데이터를 사용하여 만든 짧은 음표 시퀀스로 구성된 11,144개의 MIDI 샘플이 있습니다. 이 데이터 세트는 자동 회귀 언어 모델을 통해 메타데이터만으로 다양하고 고품질의 음악을 생성하는 새로운 작업인 조합 음악 생성을 위해 설계되었습니다.
- CoSoD - CoSoD는 2010년부터 2019년 사이에 게시된 빌보드 "핫 100" 연말 차트의 모든 멀티 아티스트 협업으로 구성된 331곡 코퍼스의 메타데이터 및 분석 데이터로 구성됩니다. 데이터 세트의 각 노래는 두 개의 CSV 파일과 연결됩니다. 하나는 메타데이터용이고 다른 하나는 분석 데이터용입니다.
- DALI - DALI: 동기화된 오디오, 가사 및 보컬 노트의 대규모 데이터 세트입니다.
- DadaGP - DadaGP는 Transformer와 같은 생성 시퀀스 모델에 적합한 토큰화된 형식과 함께 739개 음악 장르를 포괄하는 GuitarPro 형식의 26,181곡 악보로 구성된 새로운 상징적 음악 데이터세트입니다. 토큰화된 형식은 상징적인 음악 생성 모델에서 자주 사용되는 이벤트 기반 MIDI 인코딩에서 영감을 받았습니다. 데이터세트는 GuitarPro 파일을 토큰으로 변환하거나 그 반대로 변환하는 인코더/디코더와 함께 출시됩니다.
- DeepScores - 객체 분류, 의미론적 분할 및 객체 감지를 위해 작곡된 음악의 주석이 달린 이미지 300,000개의 합성 데이터세트입니다. MuseScore에서 얻은 대규모 MusicXML 문서 세트를 기반으로 정교한 파이프라인을 사용하여 소스를 LilyPond 파일로 변환하고, LilyPond를 사용하여 이미지를 조각하고 주석을 달았습니다.
- dMelodies - dMelodies는 9개의 독립적인 잠재 변이 요인을 사용하여 생성된 간단한 2마디 멜로디의 데이터세트입니다. 여기서 각 데이터 포인트는 다음 제약 조건에 따라 고유한 멜로디를 나타냅니다. - 각 멜로디는 고유한 음계(메이저, 마이너, 블루스 등)에 해당합니다. .). - 각 멜로디는 표준 I-IV-VI 케이던스 코드 패턴을 사용하여 아르페지오를 연주합니다. - 마디 1은 처음 2개의 코드(6개 음표)를 연주하고, 마디 2는 두 번째 2개의 코드(6개 음표)를 연주합니다. - 연주되는 각 음표는 8분 음표입니다.
- DISCO-10M - DISCO-10M은 음악에 대한 대규모 기계 학습 모델에 대한 연구를 민주화하기 위해 만들어진 음악 데이터 세트입니다.
- Dizi - Dizi는 북파와 남파의 음악 스타일에 대한 데이터 세트입니다. 두 가지 서로 다른 음악 스타일의 멜로디와 연주기법이 해체된 것이 특징이다.
- DreamSound - 최근 텍스트-음악 생성 모델은 주어진 텍스트 프롬프트에서 고품질의 다양한 음악 샘플을 합성하는 데 있어서 전례 없는 결과를 달성했습니다. 이러한 발전에도 불구하고 어떻게 개인화된 사용자별 음악적 개념을 생성하고 조작하며 기존 개념과 결합할 수 있는지는 여전히 불분명합니다. 컴퓨터 비전 문헌에 영감을 받아 우리는 Textual Inversion과 Dreambooth라는 두 가지 확립된 방법을 탐색하여 텍스트를 음악으로 변환하는 방법을 조사합니다. 정량적 지표와 사용자 연구를 사용하여 몇 가지 샘플만 제공하여 새로운 음악 개념을 재구성하고 수정하는 능력을 평가합니다. 마지막으로, 우리는 새로운 데이터 세트를 제공하고 이 새로운 작업에 대한 평가 프로토콜을 제안합니다.
- EMOPIA - 감정 인식 및 감정 기반 음악 생성을 위한 다중 모드 팝 피아노 데이터 세트입니다. EMOPIA('yee-mò-pi-uh'로 발음) 데이터 세트는 음악 감정과 관련된 다양한 작업에 대한 연구를 용이하게 하기 위해 팝 피아노 음악에서 인지된 감정에 초점을 맞춘 공유 다중 모드(오디오 및 MIDI) 데이터베이스입니다. 데이터 세트에는 387개 노래의 1,087개 음악 클립과 4명의 전용 주석자가 주석을 추가한 클립 수준 감정 레이블이 포함되어 있습니다.
- ErhuPT(Erhu Playing Technique Dataset) - 이 데이터세트는 여러 프로 선수가 녹음한 약 1500개의 오디오 클립이 포함된 오디오 데이터세트입니다.
- FiloBass - 재즈 베이스라인에 대한 데이터 세트 및 코퍼스 기반 연구. FiloBass: 재즈 반주에서 중요하지만 종종 간과되는 더블 베이스의 역할에 초점을 맞춘 새로운 악보 및 주석 자료입니다. 솔리스트의 역할을 조명한 최근 작업에서 영감을 받아 우리는 FiloSax 데이터 세트에 사용된 백킹 트랙을 기반으로 하는 50,000개 이상의 노트 이벤트로 구성된 전문 재즈 베이시스트의 수동으로 검증된 48개의 필사본 컬렉션을 제공합니다. 각 녹음에 대해 오디오 스템, 악보, 연주에 맞춰진 MIDI 및 비트, 다운비트, 코드 기호 및 음악 형식 마커에 대한 관련 메타데이터를 제공합니다.
- 토리 찾기 - 토리 찾기: 한국 민요 분석을 위한 자기주도 학습. 1980~90년대에 녹음된 한국 민요 약 700시간 분량의 현장 녹음 데이터 세트에 대한 전산 분석을 소개한다.
- FMA - FMA(Free Music Archive)는 음악 정보 검색의 여러 작업을 평가하기 위한 대규모 데이터 세트입니다. 이는 161개 장르의 계층적 분류로 배열된 16,341명의 아티스트와 14,854개의 앨범의 106,574개 트랙의 343일 분량의 오디오로 구성됩니다. 트랙 및 사용자 수준 메타데이터, 태그, 전기와 같은 자유 형식 텍스트와 함께 전체 길이의 고품질 오디오, 사전 계산된 기능을 제공합니다.
- GiantMIDI-Piano - GiantMIDI-Piano는 클래식 피아노 MIDI 데이터세트로 2,786명의 작곡가의 10,855개 MIDI 파일이 포함되어 있습니다. 작곡가 성을 제한하여 선별된 하위 집합에는 작곡가 1,787명의 MIDI 파일 7,236개가 포함되어 있습니다.
- Groove(Groove MIDI 데이터 세트) - GMD(Groove MIDI 데이터 세트)는 13.6시간 분량의 정렬된 MIDI와 사람이 연주하고 템포에 맞춰 정렬된 표현 드럼 연주의 (합성) 오디오로 구성됩니다. 데이터 세트에는 1,150 개의 MIDI 파일과 22,000 개가 넘는 드럼 연주가 포함되어 있습니다.
- Gtsinger -Gtsinger : 모든 노래 작업에 대한 현실적인 음악 점수를 가진 글로벌 멀티 기술 노래 코퍼스. 우리는 Gtsinger 인 Gtsinger, 대규모, 멀티 테크니크, 무료, 무료, 고품질의 노래 코퍼스를 현실적인 음악 점수로 모든 노래 작업을 위해 설계된 벤치 마크와 함께 소개합니다.
- 기타 세트 - 기타 세트 : 기타 전사를위한 데이터 세트.
- Hindustani 음악 리듬 데이터 세트 - Hindustani Music Rhythm Dataset는 오디오, 관련도 관련 메타 데이터 및 시간 정렬 된 마커를 가진 4 개의 Hindustani 음악도에서 151 (5 시간)의 하위 수집입니다. 이 데이터 세트는 Hindustani 음악의 많은 자동 리듬 분석 작업에 대한 테스트 코퍼스로 유용합니다.
- HUMTRANS- 데이터 세트는 또한 멜로디 기반 음악 생성과 같은 다운 스트림 작업의 기초가 될 수 있습니다. 그것은 각기 다른 장르와 언어의 500 개의 음악 구성으로 구성되며 각 구성은 여러 세그먼트로 나뉩니다. 전체적으로 데이터 세트는 1000 개의 음악 세그먼트로 구성됩니다. 이 허밍 데이터 세트를 수집하기 위해 우리는 10 명의 대학생을 고용했으며, 모두 음악 전공이거나 적어도 하나의 악기를 연주하는 데 능숙합니다. 그들 각각은 설계된 웹 사이트에서 제공 한 웹 녹화 인터페이스를 사용하여 모든 세그먼트를 두 번 윙윙 혔습니다. 허밍 기록은 44,100Hz의 빈도로 샘플링되었다.
- 인도 아트 음악 토닉 데이터 세트 -이 데이터 세트는 인도 예술 음악 (Hindustani 및 Carnatic Music)의 597 개의 시판 가능한 오디오 음악 녹음으로 구성되며, 각각의 리드 아티스트의 강장제와 수동으로 주석이 달린다. 이 데이터 세트는 토닉 식별 접근법 개발을위한 테스트 코퍼스로 사용됩니다.
- Jazz Harmony TreeBank-이 저장소에는 Zenodo에 발표 된 Irealpro 코퍼스에서 선택한 재즈 코드 시퀀스의 코퍼스 인 Jazz Harmony TreeBank가 포함되어 있습니다.
- Jazznet -Jazznet : 음악 오디오 기계 학습 연구를위한 기본 피아노 패턴 데이터 세트. 이 논문은 음악 정보 검색 (MIR)에서 머신 러닝 (ML) 알고리즘 개발을위한 기본 재즈 피아노 음악 패턴의 데이터 세트 인 JazzNet 데이터 세트를 소개합니다. 이 데이터 세트에는 코드, 아르페지오, 스케일 및 반전으로 코드 진행을 포함한 162520 개의 피아노 패턴이 포함되어있어 26k 시간 이상의 오디오와 총 크기 95GB가 생깁니다.
- 징주 카펠라 노래 피치 컨투어 데이터 세트 - 징주 카펠라 노래 피치 윤곽 데이터 세트는 39 jingju 카펠라 노래 녹음에 대한 피치 윤곽 세그먼트지면 진실의 모음입니다. 데이터 세트에는 (1) 멜로디 전사, (2) 피치 윤곽 분할에 대한 지상 진실이 포함됩니다. 멜로디 전사 및 피치 윤곽 분할 작업에 유용합니다. 피치 윤곽은 오디오 녹음에서 추출되었으며 음악 학자에 의해 수동으로 수정 및 세분화되었습니다.
- Jingju Music Scores Collection- 음악 시스템 측면에서 Jingju 노래 분석을 위해 수집 된 92 개의 Jingju 음악 점수 모음입니다. 그들은 원래 인쇄 소스에서 Musescore를 사용하여 MuseScore를 사용하여 MusicXML로 내보내는 기계 읽기 가능한 형식으로 기록되었습니다.
- JS 가짜 합창 - KS_Chorus 알고리즘에 의해 생성 된 500 개의 4 부 코랄 레스의 MIDI 데이터 세트는 수백 개의 청취 테스트 참가자의 결과로 주석이 달렸으며 300 개의 추가로 주석화되지 않은 합창이 있습니다.
- LAION-DISCO-12M-LAION-DISCO-12M 데이터 세트에는 디스코 -10M의 방법론에서 영감을 얻은 YouTube의 음악에 대한 12m 링크가 포함되어 있습니다. 초기 예술가 목록에서 시작하여, 우리는 "팬들도 좋아할 수도 있습니다"섹션에 나열된 아티스트를 재귀 적으로 탐구함으로써 새로운 예술가를 발견 할 수 있습니다. 우리는 새로운 아티스트를 찾을 수있는 한 관련 아티스트 그래프를 탐구합니다.
- Lakh Musenet MIDI 데이터 세트 - 전체 lakh MIDI 데이터 세트 Musenet MIDI 출력 형식 (9 계측기 + 드럼)으로 변환되었습니다.
- 로스 앤젤레스 MIDI 데이터 세트 -MIR 및 음악 AI 목적을위한 Sota Kilo -Scale MIDI 데이터 세트.
- LP-Musiccaps-LP-Musiccaps : LLM 기반 의사 음악 캡션.
- LYRA 데이터 세트 -Lyra는 1570 개의 조각을 포함하는 그리스 전통 및 민속 음악을위한 데이터 세트로 약 80 시간의 데이터로 합산합니다. 이 데이터 세트에는 오디오 및 비디오를 검색하기위한 YouTube 타임 스탬프 링크와 기기, 지리 및 장르와 관련된 풍부한 메타 데이터 정보가 포함되어 있습니다.
- MAESTRO- MAESTRO 데이터 세트에는 10 년의 국제 피아노 E 경쟁에서 200 시간 이상의 짝을 이루는 오디오와 MIDI 녹음이 포함되어 있습니다. MIDI 데이터에는 주요 스트라이크 속도 및 Sustain/Sostenuto/Una Corda 페달 위치가 포함됩니다. 오디오 및 MIDI 파일은 ~ 3ms 정확도와 정렬되며 개별 뮤지컬 작품에 얇게 썬다. 압축되지 않은 오디오는 CD 품질 이상입니다 (44.1–48 kHz 16 비트 PCM 스테레오).
- Magnatagatune -Magnatagatune 데이터 세트에는 25,863 개의 음악 클립이 포함되어 있습니다. 각 클립은 5223 곡, 445 개의 앨범 및 230 명의 아티스트 중 하나에 속하는 29 초 길이의 발췌입니다. 클립은 클래식, 뉴 에이지, 전자, 록, 팝, 팝, 세계, 재즈, 블루스, 금속, 펑크 등과 같은 광범위한 장르에 걸쳐 있습니다. 각 오디오 클립에는 188 개의 태그의 이진 주석 벡터가 제공됩니다.
- "대중 음악의 진화 : USA 1960–2010"에 대한 주요 데이터 세트 - 이것은 열 헤더가있는 쉼표로 분리 된 데이터 형식의 evolutionpopusa_maindata.csv라는 큰 파일 (~ 20MB)입니다. 각 행은 녹음에 해당합니다. 이 파일은 모든 텍스트 편집기에서 볼 수 있으며 Excel에서 열리거나 다른 데이터 처리 프로그램으로 가져올 수도 있습니다.
- Metamidi 데이터 세트 - 우리는 436,631 개의 MIDI 파일 및 메타 데이터의 대규모 컬렉션 인 METAMIDI DATASET (MMD)을 소개합니다. MIDI 파일 외에도, 우리는 사용 가능한 경우 스크래핑 프로세스 중에 수집 된 아티스트, 제목 및 장르 메타 데이터를 제공합니다. MIDIS (MMD)는 Spotify에서 검색된 32,000,000 30 초 오디오 클립의 컬렉션과 일치하여 10,796,557 개 이상의 오디오 미디 경기가 발생했습니다.
- 백만 곡 데이터 세트 -이 데이터 세트에는 1922-2011 년부터 백만 곡의 곡이 포함되어 있으며, 아티스트 태그 정보와 함께 오디오 측정 및 기타 관련 정보와 함께 아티스트 태그 정보가 포함되어 있습니다.
- miR-1K-miR-1K (멀티미디어 정보 검색 연구소, 1000 곡 클립)는 음성 분리를 노래하도록 설계된 데이터 세트입니다.
- Mridangam 스트로크 데이터 세트 - Mridangam 스트로크 데이터 세트는 다양한 강장제에서 Mridangam의 개별 스트로크의 7162 오디오 예제입니다. 이 데이터 세트는 6 가지 토닉 값을 가진 Mridangams에서 연주 된 10 개의 다른 스트로크로 구성됩니다. 데이터 세트는 각 Mridangam 뇌졸중에 대한 교육 모델에 사용될 수 있습니다.
- Mridangam Tani-Avarthanam Dataset- Mridangam Tani-Avarthanam Dataset는 유명한 Mridangam Maestro Padmavibhushan Umayalpuram K. Sivaraman이 연기 한 두 개의 Tani-Avarthanams의 전사 된 모음입니다. 오디오는 인도의 IIT Madras에서 녹음되었으며 전문적인 카르 나틱 타악기 연주자가 주석을 달았습니다. 그것은 약 24 분의 오디오와 8800 스트로크로 구성됩니다.
- mirmlpop- 1) miR-mlpop 데이터 세트의 주석, 2) DataSet의 오디오를 얻기위한 소스 코드, 3) 소스 코드 miR-mlpop에서 미세 조정하는 데 사용한 소스 코드 (두 가사 정렬 및 가사 전사). 및 4) 평가를위한 소스 코드.
- MSD (Million Song DataSet) - 백만 개의 노래 데이터 세트는 백만 개의 현대적인 인기 음악 트랙을위한 오디오 기능 및 메타 데이터 컬렉션입니다. 데이터 세트의 핵심은 Echo Nest에서 제공하는 백만 곡의 기능 분석 및 메타 데이터입니다.
- MTG-JAMENDO DATASET- 음악 자동 태깅을위한 새로운 오픈 데이터 세트 인 MTG-Jamendo DataSet을 제시합니다. Creative Commons 라이센스 및 컨텐츠 업 로더가 제공하는 태그 아래 Jamendo에서 제공되는 음악을 사용하여 제작되었습니다. 이 데이터 세트에는 장르, 악기 및 분위기/테마 카테고리의 195 개의 태그가있는 55,000 개가 넘는 전체 오디오 트랙이 포함되어 있습니다. 우리는 연구자들에게 정교한 데이터 스플릿을 제공하고 장르, 악기, 분위기/테마, 상위 50 개 및 전반적인 5 가지 태그 세트에서 간단한 기준 접근 방식의 성능을보고합니다.
- MTG-JAMENDO- MTG-JAMENDO 데이터 세트는 음악 자동 태깅을위한 열린 데이터 세트입니다. 이 데이터 세트에는 195 개의 태그 카테고리 (87 개의 장르 태그, 40 개의 악기 태그 및 56 개의 분위기/테마 태그)가있는 55,000 개가 넘는 전체 오디오 트랙이 포함되어 있습니다. Creative Commons 라이센스 및 컨텐츠 업 로더가 제공하는 태그 아래 Jamendo에서 제공되는 음악을 사용하여 제작되었습니다. 모든 오디오는 320kbps mp3 형식으로 배포됩니다.
- 컴퓨터 음악 연구를위한 음악 데이터 공유 플랫폼 (CCMUSIC DATASET) -이 플랫폼은 계산 음악 연구를위한 다기능 음악 데이터 공유 플랫폼입니다. 여기에는 중국 전통 악기의 사운드 정보 및 중국 팝 음악의 라벨링 정보와 같은 많은 음악 데이터가 포함되어 있으며, 이는 계산 음악 연구자들이 무료로 사용할 수 있습니다.
- 음악 감정 인식 (MER) - 우리는 개인화 된 음악 감정 인식 (MER) 시스템 분석을위한 데이터 세트를 제시합니다. 우리는 그러한 시스템에 대한 입력으로 필요한 소위 "지상 진실"의 수집 및 분석을 개선하기 위해 음악 애호가 플랫폼을 개발했습니다.
- Musan -Musan 은 음악, 연설 및 소음의 코퍼스입니다. 이 데이터 세트는 음성 활동 감지 (VAD) 및 음악/음성 차별을위한 교육 모델에 적합합니다. 데이터 세트는 여러 장르의 음악, 12 개 언어의 연설 및 광범위한 기술 및 비 기술적 소음으로 구성됩니다.
- MUSDB-XL- 트레인-MUSDB-XL- 트레인 데이터 세트는 4-SEC 오디오 세그먼트의 리미터 적용 300,000 세그먼트와 100 개의 오리지널 곡으로 구성됩니다. 각 세그먼트에 대해, 우리는 MUSDB-HQ 훈련 서브 세트의 4 개의 줄기 (보컬,베이스, 드럼, 기타)에서 임의의 세그먼트를 무작위로 선택하고 무작위로 혼합했습니다. 그런 다음 각 스템에 상용 리미터 플러그인을 적용했습니다.
- Musicbench- Musicbench 데이터 세트는 텍스트-음악 생성을 위해 설계되었으며 머스탱고 텍스트-음악 모델로 출시 된 Music-Text 쌍의 모음입니다. MusicCaps 데이터 세트는 5,521 개의 샘플에서 52,768 개의 교육 및 400 개의 테스트 샘플로 확장되어 음악 벤치를 만듭니다!
- Musicnet -Musicnet은 모든 녹음에서 각 음표의 정확한 시간, 각 음표를 재생하는 계측기 및 메모의 위치에서 메모의 위치를 나타내는 1 백만 개가 넘는 주석이 달린 레이블과 함께 330 개 이상의 자유로운 클래식 음악 녹음 모음입니다. 구성. 이 레이블은 동적 시간 뒤틀림으로 녹음에 맞는 악보에서 획득됩니다. 라벨은 훈련 된 음악가들에 의해 확인됩니다. 우리는 4%의 라벨링 오류율을 추정합니다. 우리는 교육 모델의 리소스로서 기계 학습 및 음악 커뮤니티에 Musicnet 레이블을 제공하고 결과를 비교하기위한 일반적인 벤치 마크를 제공합니다.
- MusicCaps- MusicCaps는 5.5K 음악 텍스트 쌍으로 구성된 데이터 세트이며, 인간 전문가가 제공하는 풍부한 텍스트 설명이 제공됩니다.
- Musedata -Musedata는 Ccarh의 오케스트라 및 피아노 클래식 음악의 전자 도서관입니다. 약 3MB의 783 파일로 구성됩니다.
- MUSDB18- MUSDB18은 고립 된 드럼,베이스, 보컬 및 기타 줄기와 함께 다른 장르의 150 개의 전체 길이의 음악 트랙 (~ 10H 지속 시간)의 데이터 세트입니다. 데이터 세트는 각각 100 곡과 50 곡의 교육 및 테스트 세트로 나뉩니다. 모든 신호는 스테레오 포닉이며 44.1kHz에서 인코딩됩니다.
- 음악 주제 및 메타 데이터 -이 데이터 세트는 1950 년부터 2019 년까지 음악 메타 데이터를 슬픔, 무용 성, 음량, 음향 등으로 설명하는 가사 목록을 제공합니다. 또한 자연 언어 처리에 사용할 수있는 가사로서 정보를 제공합니다.
- 음악 장르 데이터 세트 - 각각 200 곡을 포함하는 1494 장르의 데이터 세트.
- 멀티 모달 악보 데이터 세트 -MSMD는 세분화 된 레벨 (344,742 쌍의 오디오/MIDI 상대방에 정렬 된 344,742 쌍의 노트 헤드)을 포함하는 497 개의 (클래식) 음악의 합성 데이터 세트입니다.
- Muvi-Sync- Muvi-Sync 데이터 세트는 음악 기능 (코드, 키, 음량 및 노트 밀도)과 총 748에서 추출 된 비디오 기능 (장면 오프셋, 감정, 모션 및 시맨틱)을 모두 포함하는 멀티 모델 데이터 세트입니다. 뮤직 비디오.
- Nlakh -Nlakh 는 악기 검색을위한 데이터 세트입니다. 많은 수의 악기를 제공하는 NSynth 데이터 세트와 멀티 트랙 미디 데이터를 제공하는 lakh 데이터 세트의 조합입니다.
- NSYNTH -NSYNTH 는 독특한 피치, 음색 및 봉투를 가진 305,979 개의 악기를 포함하는 한 샷 악기 노트의 데이터 세트입니다. 사운드는 상업용 샘플 라이브러리의 1006 개 기기에서 수집되었으며 소스 (음향, 전자 또는 합성), 악기 패밀리 및 Sonic 품질을 기반으로 주석이 달라집니다. 주석에 사용되는 악기 패밀리는 저음, 황동, 플루트, 기타, 키보드, 망치, 오르간, 리드, 끈, 신디 리드 및 보컬입니다. 기기에 대해 4 초의 Monophonic 16kHz 오디오 스 니펫이 생성되었습니다 (참고).
- NES-MDB (Nintendo Entertainment System Music Database) -Nintendo Entertainment System Music Database (NES-MDB)는 NES 오디오 합성기를위한 자동 음악 구성 시스템을 구축하기위한 데이터 세트입니다. 397 NES 게임의 사운드 트랙에서 5278 곡으로 구성됩니다. 이 데이터 세트는 296 개의 고유 한 작곡가를 나타내며 노래에는 2 백만 개가 넘는 음표가 결합되어 있습니다. MIDI, Score 및 NLM (NES Language Modeling)에 대한 파일 형식 옵션이 있습니다.
- Niko Chord Progression Dataset- Niko Chord 진행 데이터 세트는 Accomontage2에 사용됩니다. 스타일로 표시된 5k+ 코드 진행 조각이 포함되어 있습니다. 총 4 가지 스타일이 있습니다 : Pop Standard, Pop Complex, Dark 및 R & B.
- onair 음악 데이터 세트 -? Onair Royalty-Free Music Project의 음악 감동 연구를위한 새로운 STEM 데이터 세트.
- Opencpop- 공개적으로 이용할 수있는 고품질 만다린 노래 코퍼스 인 Opencpop 은 노래 음성 합성 (SVS) 시스템을 위해 설계되었습니다. 이 코퍼스는 100 개의 독특한 만다린 노래 로 구성되며, 전문 여성 가수가 녹음했습니다. 모든 오디오 파일은 전문 레코딩 스튜디오 환경 에서 44,100Hz 의 샘플링 속도로 스튜디오 품질로 녹화되었습니다.
- OpenGufeng- 중국 gufeng 음악을위한 멜로디 및 코드 진행 데이터 세트.
- PBSCSR- 피아노 부트 레그 스코어 작곡가 스타일 인식 데이터 세트. 우리의 가장 중요한 목표는 "MNIST처럼 접근 할 수 있고 Imagenet처럼 도전적인"작곡가 스타일 인식을 연구하기위한 데이터 세트를 만드는 것이 었습니다. 이 목표를 달성하기 위해 IMSLP의 피아노 악보 이미지의 고정 길이 부트 레그 스코어 조각을 샘플링합니다. 데이터 세트 자체에는 9 방향 분류 작업에 대한 40,000 62x64 Bootleg 점수 이미지가 포함되어 있습니다. 10062x64 Bootleg 점수 이미지는 100- 방향 분류 작업 및 29,310 개의 가변 길이 부트 레그 스코어 이미지 이미지가 포함되어 있습니다.
- POP909 -POP909는 전문 음악가가 만든 909 개의 인기 노래의 여러 버전의 피아노 배열을 포함하는 데이터 세트입니다. 데이터 세트의 본체에는 보컬 멜로디, 리드 악기 멜로디 및 각 곡의 피아노 반주가 포함되어 있으며, 이는 MIDI 형식으로 원래 오디오 파일에 맞 춥니 다. 또한, 템포, 비트, 키 및 코드에는 주석이 제공되며, 여기서 템포 곡선은 손으로 표시되고 다른 사람들은 miR 알고리즘에 의해 수행됩니다.
- ProgGP- DADAGP의 사양에 따라 GuitarPro 및 토큰 형식 모두에서 173 개의 Progressive Metal Songs의 데이터 세트.
- RWC (Real World Computing Music Database) - RWC (Real World Computing) Music Database는 연구원들이 공통 연구 기반으로 제공하는 저작권이 정한 음악 데이터베이스 (DB)입니다. 수동으로 레이블이 붙은 섹션 경계가있는 약 100 개의 완전한 노래가 포함되어 있습니다. 50 개의 악기의 경우, 반음 간격의 개별 사운드를 연주 스타일, 역학, 악기 제조업체 및 음악가의 몇 가지 변형으로 캡처했습니다.
- Sangeet- Hindustani 클래식 음악을위한 XML 데이터 세트. Sangeet은 메타 데이터, 구조적, 표기법, 리듬 및 멜로디 정보를 포함하여 주어진 구성의 모든 필요한 정보를 표준화 된 방식으로 음악 정보의 쉽고 효율적인 저장 및 추출을 보존합니다. 데이터 세트는 음악 정보 연구 작업에 대한 근거 진실 정보를 제공하기위한 것이며, 따라서 기계 학습 관점에서 여러 데이터 중심 분석을 지원합니다.
- Singkt -Dataset -Singkt는 KT 분야의 음악 공연 평가 데이터 세트로, 지식 추적 방법을 활용하여 학습자의 시력 기능의 역동적 인 변화를 포착하려고 시도합니다. 데이터 세트는 공개 지능형 시력 연습 플랫폼 인 Singmaster에서 데이터를 수집합니다. Singkt 데이터 세트에는 메인 응답 레코드 데이터 테이블 (레코드)과 2 개의 보충 정보 데이터 테이블 (userds, orpernds)이 포함되어 있습니다. userds 테이블은 데이터 세트에 포함 된 1074 학습자에 대한 시력 정보를 기록하고 Opernds 테이블은 음악 시트 정보를 기록합니다.
- SLAKH2100- 합성 된 lakh (SLAKH) 데이터 세트는 전문가 등급 샘플 기반 가상 악기를 사용하여 Lakh MIDI 데이터 세트 V0.1에서 합성 된 오디오 소스 분리를위한 데이터 세트입니다. SLAKH2100이라는 SLAKH의 첫 번째 릴리스에는 2100 개의 자동 혼합 트랙이 포함되어 있으며 전문가 등급 샘플링 엔진을 사용하여 합성 된 MIDI 파일이 포함됩니다. SLAKH2100의 트랙은 훈련 (1500 트랙), 검증 (375 트랙) 및 테스트 (225 트랙) 서브 세트로 분할되어 총 145 시간의 혼합물입니다.
- Symphonynet-Symponynet은 Symphony와 같은 복잡한 멀티 트랙 및 멀티 스트루먼트 음악을 생성하기위한 오픈 소스 프로젝트입니다. 우리의 방법은 팝, 피아노, 솔로 음악과 같은 다른 유형의 음악과 완전히 호환됩니다.
- Tabla Solo Dataset- Tabla Solo 데이터 세트는 Pt가 연주 한 Tabla의 6 가지 가라 나 (Gharanas)의 구성에 걸친 Tabla 솔로 오디오 녹음의 전사 컬렉션입니다. Arvind Mulgaonkar. 데이터 세트는 오디오 및 시간 정렬 된 BOL 전사로 구성됩니다.
- Tegridy MIDI 데이터 세트 - 정확하고 효과적인 음악 AI 모델 생성을위한 Tegridy MIDI 데이터 세트.
- Lakh MIDI 데이터 세트 - Lakh MIDI 데이터 세트는 176,581 개의 고유 한 MIDI 파일의 모음으로 45,129 개가 백만 곡 데이터 세트의 항목과 일치하고 정렬되었습니다. 그 목표는 대규모 음악 정보 검색 (MIDI 파일 만 사용) 및 오디오 컨텐츠 기반 (MIDI 파일에서 추출한 정보를 일치 오디오 파일의 주석으로 사용)을 용이하게하는 것입니다.
- 이탈리아 음악 데이터 세트 - 데이터 세트는 Spotify 및 SoundCloud API를 활용하여 구축되었습니다. 유명하고 덜 유명한 이탈리아 음악가의 14,500 개가 넘는 노래로 구성되어 있습니다. 데이터 세트의 각 노래는 Spotify ID와 제목으로 식별됩니다. 트랙의 메타 데이터에는 lemmatized 및 pos-tagged 가사도 포함되며 대부분의 경우 Spotify에서 직접 수집 된 10 가지 음악적 기능이 포함됩니다. 음악적 특징은 음향 (플로트), 댄스 성 (플로트), duration_ms (int), 에너지 (플로트), 도구 (플로트), 라이벌 (플로트), 음량 (플로트), 음성 (플로트), 템포 (플로트) 및 용인이 포함됩니다. 뜨다).
- 페르시아 피아노 코퍼스 - 페르시아 피아노 코퍼스는 초기 작곡가에서 현대 인물에 이르기까지 페르시아 피아노 음악의 포괄적 인 컬렉션입니다. 연구원들이 특수 조사를 탐색하고 새로운 발견에 기여할 수 있도록 세 심하게 편집되고 공개적으로 접근 할 수있게되었습니다. 악기 기반 접근 방식은 관련 레이블 및 포괄적 인 메타 데이터를 포함하여 페르시아 피아노와 관련된 완벽한 코퍼스를 제공합니다.
- 이 노래는 DataSet-The Song Destioner DataSet : 음악 및 언어 평가를위한 오디오 캡션 코퍼스입니다. 이 노래 설명 자 데이터 세트는 706 개의 허가 된 음악 녹음을위한 ~ 1.1k 캡션으로 만든 평가 데이터 세트입니다.
- Universal Music Symbol Classifier- 음악 상징을 구별하기 위해 깊은 신경망을 훈련시키는 파이썬 프로젝트.
- URMP (로체스터 대학교 멀티 모달 뮤지컬 공연)-URMP (University of Rochester Multi-Modal Musical Performance)는 음악 공연의 시청각 분석을 용이하게하기위한 데이터 세트입니다. 이 데이터 세트는 개별 트랙의 조정되었지만 별도로 녹음 된 공연에서 조립 된 44 개의 간단한 멀티 스트리트 뮤지컬 작품으로 구성됩니다. 각 작품에 대해 데이터 세트는 MIDI 형식, 고품질 개별 악기 오디오 녹음 및 조립 된 작품의 비디오를 제공했습니다.
- VGMIDI DATASET -VGMIDI는 비디오 게임 사운드 트랙의 피아노 배열 데이터 세트입니다. 감정에 따라 라벨이 붙은 200 개의 미디 조각과 3,850 개의 표지되지 않은 조각이 들어 있습니다. 각각의 표지 된 조각은 감정의 서프 럼 플렉스 (kalence-arousal) 모델에 따라 30 명의 인간 피험자에 의해 주석을 달았다.
- Virtuoso Strings- Virtuoso Strings는 문자열 기기에 대한 소프트 온 세트 감지를위한 데이터 세트입니다. Haydn 's String Quartet Op의 발췌 한 전문 공연 144 개가 넘는 녹음으로 구성됩니다. 74 No. 1 Finale, 각각 해당 개별 도구 발병 주석이 있습니다.
- Wikimute -Wikimute : 음악 오디오를위한 시맨틱 설명의 웹 소스 데이터 세트. 이 연구에서, 우리는 음악에 대한 풍부한 의미 론적 설명을 포함하는 새롭고 개방형 데이터 세트 인 Wikimute를 제시합니다. 이 데이터는 뮤지컬 작품을 다루는 Wikipedia의 풍부한 기사 카탈로그에서 제공됩니다. 전용 텍스트 마이닝 파이프 라인을 사용하여 장르, 스타일, 기분, 악기 및 템포와 같은 음악 컨텐츠와 관련된 다양한 주제를 다루는 길고 짧은 형태의 설명을 모두 추출합니다.
- YM2413-MDB- YM2413-MDB 는 다 레이블 감정 주석이있는 80 년대 FM 비디오 게임 음악 데이터 세트입니다. 여기에는 FM을 기반으로 한 프로그래밍 가능한 사운드 생성기 인 YM2413을 사용하여 80 년대 SEGA 및 MSX PC 게임의 669 개의 오디오 및 MIDI 음악 파일이 포함됩니다. 수집 된 게임 음악은 15 개의 Monophonic 악기와 하나의 드럼 악기의 하위 집합으로 배열됩니다.
^ 내용으로 돌아 가기 ^
음향 효과
- 동물 사운드 데이터 세트 - 875 개의 동물 사운드로 구성된이 데이터에는 10 가지 종류의 동물 사운드가 포함되어 있습니다. 이 동물 사운드 데이터 세트는 200 마리의 고양이, 200 개의 개, 200 개의 새, 75 마리의 암소, 45 사자, 40 마리의 양, 35 개, 닭고기, 25 개의 당나귀, 25 개의 원숭이 사운드로 구성됩니다.
- Audioset-Audioset은 오디오 이벤트 데이터 세트로 2m 이상의 인간이 주석화 된 10 초 비디오 클립으로 구성됩니다. 이 클립은 YouTube에서 수집되므로 많은 것이 품질이 좋지 않으며 여러 사운드 소스가 포함되어 있습니다. 632 개의 이벤트 클래스의 계층 적 온톨로지가 이러한 데이터에 주석을 달기 위해 사용되며, 이는 동일한 사운드에 다른 레이블로 주석을 달 수 있음을 의미합니다. 예를 들어, 짖는 소리는 동물, 애완 동물 및 개로 주석이 달린다. 모든 비디오는 평가/균형 트레인/불균형 트레인 세트로 나뉩니다.
- AudioCaps -AudioCaps 는 오디오 캡션 작업을 위해 도입 된 이벤트 설명이있는 사운드 데이터 세트로 오디오 세트 데이터 세트에서 소개 된 사운드가 있습니다. 주석기에는 카테고리 힌트와 함께 오디오 트랙이 제공되었습니다 (필요한 경우 추가 비디오 힌트).
- 자동 ACD- 혁신적이고 자동 오디오 캡션 생성 파이프 라인을 제시하고, 1.9m 이상의 오디오 텍스트 쌍으로 구성된 Auto-ACD로 명명 된 대규모 고품질 오디오 언어 데이터 세트를 구성합니다. 자동 ACD의 텍스트 설명에는 긴 텍스트 (18 단어)와 다양한 어휘 (23k)가 포함되어 있으며 소리가 발생하는 주변 청각 환경 (그림자가있는 데이터 포인트)에 대한 정보를 제공합니다.
- BBC 음향 효과 - BBC 음향 효과 데이터 세트에는 33,066 개의 음향 효과가 있으며 텍스트 설명이 있습니다. 장르 : 주로 주변 사운드. 모든 오디오에는 자연스러운 텍스트 설명이 있습니다.
- DCASE 2016 -DCASE 2016은 사운드 이벤트 감지를위한 데이터 세트입니다. 11 개의 사운드 클래스 (Clearthroat, 서랍 또는 키보드와 같은 사무실 환경)에 대한 20 개의 짧은 모노 사운드 파일로 구성되어 있으며 각 파일에는 하나의 사운드 이벤트 인스턴스가 포함됩니다. 사운드 파일은 이벤트 온 및 오프셋 시간으로 주석이 달리지 만 실제 물리적 사운드 (전화 울림과 같은) 사이의 침묵은 표시되지 않으므로 이벤트에 "포함"됩니다.
- 환경 오디오 데이터 세트 -이 페이지는 환경 오디오 연구에 적합한 데이터 세트 목록을 유지하려고합니다. 자유롭게 사용 가능한 데이터 세트 외에도 독점 및 상용 데이터 세트도 완전성을 위해 나열되어 있습니다. 데이터 세트 외에도 일부 온라인 사운드 서비스가 페이지 끝에 나열되어 있습니다.
- ESC-50- ESC-50 데이터 세트는 환경 사운드 분류의 벤치마킹 방법에 적합한 2000 개 환경 오디오 녹음의 라벨이 붙은 컬렉션입니다. 그것은 Freesound.org에서 그려진 자연, 인간 및 국내 사운드에 걸쳐 50 개의 50 개의 다른 클래스로 구성된 2000 5S 클립으로 구성됩니다.
- Fair-Play-Fair-Play는 1,871 개의 비디오 클립과 음악 룸에서 녹음하는 해당 바이노 럴 오디오 클립으로 구성된 비디오 오우 디오 데이터 세트입니다. 동일한 인덱스의 비디오 클립과 바이노 럴 클립이 거의 정렬됩니다.
- FSD50K (Freesound Database 50K) - Freesound DataSet 50K (또는 짧은 FSD50K )는 오디오 세트 온톨로지에서 도출 된 200 개의 클래스로 불평등하게 분포 된 51,197 개의 Freesound 클립을 포함하는 인간 레이블링 된 사운드 이벤트의 개방형 데이터 세트입니다. FSD50K는 Universitat Pompeu Fabra의 음악 기술 그룹에서 만들어졌습니다. 그것은 주로 인간의 소리, 사물의 소리, 동물, 자연 사운드, 악기 등을 포함하여 물리적 사운드 소스 및 제작 메커니즘에 의해 제작 된 사운드 이벤트로 구성됩니다.
- FSDNOISY18K- FSDNOISY18K 데이터 세트는 소량의 수동으로 표지 된 데이터와 대량의 실제 노이즈 데이터를 포함하여 20 개의 사운드 이벤트 클래스에서 42.5 시간의 오디오를 포함하는 열린 데이터 세트입니다. 오디오 컨텐츠는 Freesound에서 가져 왔으며 Freesound 주석기를 사용하여 데이터 세트가 선별되었습니다. FSDNOISY18K의 시끄러운 세트는 15,813 개의 오디오 클립 (38.8H)으로 구성되며 테스트 세트는 올바른 레이블이있는 947 오디오 클립 (1.4H)으로 구성됩니다. 이 데이터 세트에는 두 가지 주요 유형의 라벨 노이즈가 특징입니다 : vocabulary (IV) 및 비실리 외 (OOV). IV가 잘못되거나 불완전한 관찰 된 레이블이 주어지면 True 또는 Missing 레이블이 대상 클래스 세트의 일부일 때 적용됩니다. 동시에 OOV는 True 또는 Missing 레이블이 20 개의 클래스로 덮여 있지 않음을 의미합니다.
- FUSS (Free Universal Sound Separation) - Fuss (Free Universal Sound Separation) 데이터 세트는 임의의 사운드 분리에 대한 실험에 사용하기위한 임의의 사운드 믹스 및 소스 수준 참조의 데이터베이스입니다. Fuss는 FSD50K 코퍼스를 기반으로합니다.
- INATURALIST SOUNDS 데이터 세트 - 우리는 전 세계 27,000 명 이상의 레코더리스트가 기여한 5,500 종 이상의 사운드를 캡처하는 230,000 개의 오디오 파일 모음 인 Inaturalist Sounds DataSet (Inatsounds)을 제시합니다.
- 감정적 의도로 음향 효과 - 데이터 세트는 2019 년 10 월 15 일 스톡홀름의 Foleyworks Studios에서 프로 폴리 아티스트 Ulf Olausson에 의해 녹음되었습니다. 우리는 분노, 두려움, 행복, 중립 및 슬픔의 데이터 세트에 묘사 될 5 가지 유형의 감정을 선택했습니다.
- MIMII- 산업 기계 조사 및 검사 오작동을위한 사운드 데이터 세트 (MIMII)는 산업용 기계 사운드의 사운드 데이터 세트입니다.
- Mivia 오디오 이벤트 데이터 세트 - Mivia 오디오 이벤트 데이터 세트는 감시 응용 프로그램, 즉 유리 파괴, 총 샷 및 비명을위한 총 6000 개의 이벤트로 구성됩니다. 6000 이벤트는 훈련 세트 (4200 이벤트 구성)와 테스트 세트 (1800 이벤트 구성)로 나뉩니다.
- 피치 오디오 데이터 세트 (Surge Synthesizer) - 서지 패키지에 포함 된 2084 년 사전 설정을 기반으로 오픈 소스 서지 신디사이저를 사용하여 3.4 시간의 오디오 합성. 이것들은``천연 ''합성 소리를 나타냅니다. 우리는 3 초의 노트 온 지속 시간으로 Velocity 64에서 재생되는 4 초 샘플을 생성했습니다. 각 사전 설정에 대해, 우리는 그랜드 피아노의 범위 인 MIDI 21-108에서 피치 만 다릅니다. 데이터 세트의 모든 사운드는 정규화 패키지를 사용하여 RMS 수준 정규화되었습니다. 이 데이터 세트를 버리는 우아한 방법은 없었습니다. 그러나 드럼 및 음향 효과와 같은 사전 설정의 적은 비율만이 지각적인 피치 변화 나 순서가 없었습니다.
- REMFX -REMFX : 평가 데이터 세트. 이 데이터 세트는 처음에 데이터 세트 생성 스크립트에서 처리되기 전에 Vocalset, Guitarset, DSD100 및 IDMT-SMT-DRUMS 데이터 세트에서 공급됩니다. 데이터 세트는 적용된 효과 수 (0-5)에 따라 명명됩니다. 예를 들어, 2-2.zip에는 각 입력 오디오 예제에 적용되는 2 개의 효과가 포함되어 있습니다. 대상은 손대지 않았습니다. 적용된 오디오 효과는 세트 (왜곡, 지연, 동적 범위 압축기, Phasor, Reverb)에서 나오고 각 예제를 대체하지 않고 무작위로 샘플링됩니다.
- Soundcam- 사운드 캠, 공개 된 공개 실에서 공개적으로 출시 된 시대의 독특한 데이터 세트입니다. 여기에는 객실 충동 응답의 5,000 개의 10 채널 실제 측정 및 통제 된 음향 실험실, 야생 거실, 회의실을 포함한 3 개의 다른 방에서 2,000 개의 10 채널 녹음이 포함되어 있습니다. 각 방 전체에 위치합니다.
- SoundingEarth- SoundingEarth는 전 세계의 공동 위치 공중 이미지 및 오디오 샘플로 구성됩니다.
- 공간 Librispeech-Spatial Librispeech는 650 시간이 넘는 1 차 앰비 닉과 선택적 산만 노이즈 (원시 19 채널 오디오가 곧 출시됨)를 가진 공간 오디오 데이터 세트입니다. 공간 Librispeech는 기계 학습 모델 교육을 위해 설계되었으며 소스 위치, 말하기 방향, 실내 음향 및 기하학에 대한 레이블이 포함되어 있습니다. 공간 라이브러리 피치는 8K+ 합성 실에 200K+ 시뮬레이션 된 음향 조건을 갖는 라이브러리 샘플을 증강시킴으로써 생성되었다.
- StarsSSS22 (Sony-Tau 현실적인 공간 사운드 스케이프 2022)-Sony-Tau 현실적인 공간 사운드 스케이프 2022 (StarsSSSS22) 데이터 세트는 높은 채널 카운트 구형 마이크 배열 (SMA)으로 캡처 한 실제 장면의 기록으로 구성됩니다. 이 녹음은 핀란드의 Tammere에있는 Tampere University와 일본 도쿄의 두 가지 다른 사이트의 두 팀에서 진행됩니다. 두 사이트의 녹음은 동일한 캡처 및 주석 프로세스와 유사한 조직을 공유합니다.
- Todmos -Todmos -Todmos 데이터 세트는 약 540 시간의 정상 기계 작동 사운드의 기계 작동 사운드 데이터 세트와 48kHz 샘플링 속도로 4 개의 마이크로 폰으로 수집 한 12,000 개가 넘는 비정규 사운드 샘플과 NTT 미디어 인텔리전스 연구소의 멤버입니다.
- Tut Sound Events 2017- Tut Sound Events 2017 데이터 세트에는 거리 환경에 24 개의 오디오 녹음이 포함되어 있으며 6 개의 다른 클래스가 포함되어 있습니다. 이 수업은 브레이크 삐걱 거리는 소리, 자동차, 어린이, 대형 차량, 말하기, 사람들이 걷는 사람들입니다.
- Urbansound8k -Urbansound 8K는 10 개의 클래스에서 8732 개의 라벨링 된 사운드 발췌문 (<= 4s)을 포함하는 오디오 데이터 세트입니다. air_conditioner, car_horn, children_playing, dog_bark, Drilling, Enginge_idling, Gun_shot, Siren 및 Street_music. 수업은 도시 음향 분류법에서 나온 것입니다. 모든 발췌문은 www.freesound.org에 업로드 된 필드 녹음에서 가져옵니다.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^