오디오 개발 도구(ADT)
이것은 기계 학습, 오디오 생성, 오디오 신호 처리, 사운드 합성, 게임 오디오, 디지털 오디오 워크스테이션, 공간 오디오, 음악 정보 검색, 음악 생성, 음성 인식, 음성 합성 등을 포함하는 사운드, 오디오 및 음악 개발 도구 목록입니다. 노래하는 음성 합성 등.
목차
- 기계 학습(ML)
- 오디오 생성(AG)
- 오디오 신호 처리(ASP)
- 소리 합성(SS)
- 게임 오디오(GA)
- 디지털 오디오 워크스테이션(DAW)
- 공간 오디오(SA)
- 웹 오디오 처리(WAP)
- 음악 정보 검색(MIR)
- 뮤직 제너레이션(MG)
- 음성 인식(ASR)
- 음성 합성(TTS)
- 노래하는 음성 합성(SVS)
프로젝트 목록
기계 학습(ML)
- librosa - Librosa는 음악 및 오디오 분석을 위한 Python 패키지입니다. 이는 음악 정보 검색 시스템을 만드는 데 필요한 빌딩 블록을 제공합니다.
- Essentia - Essentia는 Affero GPLv3 라이선스에 따라 출시된 오디오 분석 및 오디오 기반 음악 정보 검색을 위한 오픈 소스 C++ 라이브러리입니다. 여기에는 오디오 입력/출력 기능, 표준 디지털 신호 처리 블록, 데이터의 통계적 특성화, 대규모 스펙트럼, 시간, 음조 및 고급 음악 설명자를 구현하는 재사용 가능한 알고리즘의 광범위한 컬렉션이 포함되어 있습니다. Python 바인딩을 포함한 오디오 및 음악 분석, 설명 및 합성을 위한 C++ 라이브러리입니다.
- DDSP - DDSP: 미분 가능한 디지털 신호 처리. DDSP는 일반 DSP 기능(신디사이저, 웨이브쉐이퍼, 필터 등)의 차별화 가능한 버전 라이브러리입니다. 이를 통해 이러한 해석 가능한 요소를 딥 러닝 모델의 일부로, 특히 오디오 생성을 위한 출력 레이어로 사용할 수 있습니다.
- MIDI-DDSP - MIDI-DDSP: 계층적 모델링을 통한 음악 연주의 세부 제어. MIDI-DDSP는 DDSP에서 확장된 MIDI를 합성하기 위한 계층적 오디오 생성 모델입니다.
- DDSP-VST - 실시간 DDSP 신경 합성기 및 효과. JUCE 프레임워크 및 DDSP를 사용하여 구축된 VST3/AU 플러그인 및 데스크톱 애플리케이션입니다.
- torchsynth - 오디오 ML 연구자를 위한 실시간보다 16200배 빠른 pytorch의 GPU 옵션 모듈식 합성기입니다.
- aubio - aubio는 오디오 신호에서 주석을 추출하기 위해 설계된 도구입니다. 그 기능에는 각 공격 전에 사운드 파일 분할, 피치 감지 수행, 비트 탭핑 및 라이브 오디오에서 미디 스트림 생성이 포함됩니다.
- audioFlux - audioFlux는 오디오 및 음악 분석, 특징 추출을 위한 딥 러닝 도구 라이브러리입니다. 수십 가지의 시간-주파수 분석 변환 방법과 수백 가지의 해당 시간 영역 및 주파수 영역 기능 조합을 지원합니다. 훈련을 위해 딥러닝 네트워크에 제공할 수 있으며, 분류, 분리, 음악 정보 검색(MIR), ASR 등 오디오 분야의 다양한 작업을 연구하는 데 사용됩니다.
- Polymath - Polymath는 기계 학습을 사용하여 모든 음악 라이브러리(예: 하드 드라이브 또는 YouTube)를 음악 제작 샘플 라이브러리로 변환합니다. 이 도구는 자동으로 노래를 줄기(비트, 베이스 등)로 분리하고 동일한 템포와 비트 그리드(예: 120bpm)로 양자화하며 음악 구조(예: 절, 코러스 등), 키(예: C4, E3)를 분석합니다. 등) 및 기타 정보(음색, 음량 등)를 저장하고 오디오를 미디로 변환합니다. 그 결과 음악 제작자, DJ 및 ML 오디오 개발자의 워크플로를 간소화하는 검색 가능한 샘플 라이브러리가 탄생했습니다.
- IPython - IPython은 Python을 대화형으로 최대한 활용하는 데 도움이 되는 풍부한 도구 키트를 제공합니다.
- torchaudio - PyTorch용 오디오 라이브러리입니다. PyTorch를 기반으로 하는 오디오 신호 처리를 위한 데이터 조작 및 변환.
- TorchLibrosa - Librosa의 PyTorch 구현입니다.
- torch-audiomentations - PyTorch에서 빠른 오디오 데이터 확대. 오디오 해설에서 영감을 얻었습니다. 딥러닝에 유용합니다.
- PyTorch 오디오 증강 - 시간 영역의 오디오를 위한 PyTorch용 오디오 데이터 증강 라이브러리입니다.
- Asteroid - Asteroid는 일반적인 데이터 세트에 대한 빠른 실험을 가능하게 하는 Pytorch 기반 오디오 소스 분리 툴킷입니다. 광범위한 데이터세트와 아키텍처를 지원하는 소스 코드와 일부 중요한 논문을 재현하기 위한 레시피 세트가 함께 제공됩니다.
- Kapre - Kapre: Keras 오디오 전처리기. Keras 오디오 전처리기 - STFT, InverseSTFT, Melspectrogram 등을 GPU에서 실시간으로 계산합니다.
- paudio - 딥 러닝 오디오 애플리케이션을 위한 오디오 전처리 프레임워크입니다.
- automix-toolkit - 딥 러닝 자동 혼합 모델을 훈련하기 위한 모델 및 데이터세트입니다.
- DeepAFx - DeepAFx: 심층 오디오 효과. 오디오 신호 처리 효과(FX)는 다양한 미디어의 사운드 특성을 조작하는 데 사용됩니다. 그러나 많은 FX는 특히 초보 사용자의 경우 사용하기 어렵거나 지루할 수 있습니다. 우리 작업에서는 FX를 직접 사용하고 자동 오디오 제작 작업을 수행하도록 기계를 훈련시켜 오디오 FX가 사용되는 방식을 단순화하는 것을 목표로 합니다. 제어 매개변수를 처리하고 제안하는 데 익숙하고 기존 도구를 사용함으로써 우리는 AI의 힘과 인간의 창의적 제어를 결합하여 창작자에게 힘을 실어주는 고유한 패러다임을 만들 수 있습니다.
- nnAudio - nnAudio는 PyTorch 컨벌루션 신경망을 백엔드로 사용하는 오디오 처리 도구 상자입니다. 이를 통해 신경망 훈련 중에 오디오에서 즉석에서 스펙트로그램을 생성할 수 있으며 푸리에 커널(예: CQT 커널)을 훈련할 수 있습니다.
- WavEncoder - WavEncoder는 오디오 신호 인코딩, 오디오 증강을 위한 변환, PyTorch 백엔드를 사용한 오디오 분류 모델 교육을 위한 Python 라이브러리입니다.
- SciPy - SciPy("Sigh Pie"로 발음)는 수학, 과학 및 엔지니어링을 위한 오픈 소스 소프트웨어입니다. 여기에는 통계, 최적화, 적분, 선형 대수, 푸리에 변환, 신호 및 이미지 처리, ODE 솔버 등을 위한 모듈이 포함되어 있습니다.
- pyAudioAnalytic - Python 오디오 분석 라이브러리: 기능 추출, 분류, 분할 및 애플리케이션.
- Mutagen - Mutagen은 오디오 메타데이터를 처리하는 Python 모듈입니다. ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG 및 AIFF 오디오 파일을 지원합니다. 모든 버전의 ID3v2가 지원되며 모든 표준 ID3v2.4 프레임이 구문 분석됩니다. Xing 헤더를 읽어 MP3의 비트 전송률과 길이를 정확하게 계산할 수 있습니다. ID3 및 APEv2 태그는 오디오 형식에 관계없이 편집할 수 있습니다. 또한 개별 패킷/페이지 수준에서 Ogg 스트림을 조작할 수도 있습니다.
- LibXtract - LibXtract는 간단하고 휴대 가능하며 가벼운 오디오 기능 추출 기능 라이브러리입니다. 라이브러리의 목적은 추출 계층을 생성하기 위해 '계단식'으로 설계되는 비교적 철저한 특징 추출 기본 요소 세트를 제공하는 것입니다.
- dejavu - Python의 오디오 지문 인식 및 인식. Dejavu는 오디오를 한 번 듣고 지문을 채취하여 기억할 수 있습니다. 그런 다음 노래를 재생하고 마이크 입력을 녹음하거나 디스크에서 읽어 Dejavu는 데이터베이스에 있는 지문과 오디오를 일치시키고 재생 중인 노래를 반환합니다.
- 매칭 - ?️ 오픈 소스 오디오 매칭 및 마스터링. Matchering 2.0은 오디오 매칭 및 마스터링을 위한 새로운 컨테이너형 웹 애플리케이션 및 Python 라이브러리 입니다.
- TimeSide - TimeSide는 낮은 수준 및 높은 수준의 오디오 분석, 이미징, 트랜스코딩, 스트리밍 및 라벨링을 가능하게 하는 Python 프레임워크입니다. 높은 수준의 API는 플러그인 아키텍처, 안전하고 확장 가능한 백엔드 및 확장 가능한 동적 웹 프런트엔드를 통해 모든 오디오 또는 비디오 자산의 매우 큰 데이터 세트에 대한 복잡한 처리를 가능하게 하도록 설계되었습니다.
- Meyda - Meyda는 Javascript 오디오 기능 추출 라이브러리입니다. Meyda는 Web Audio API를 사용하여 오프라인 특징 추출과 실시간 특징 추출을 모두 지원합니다. 우리는 이에 관한 논문을 작성했으며 여기에서 볼 수 있습니다.
- Audiomentations - 오디오 데이터 증대를 위한 Python 라이브러리입니다. 앨범에서 영감을 얻었습니다. 딥러닝에 유용합니다. CPU에서 실행됩니다. 모노 오디오 및 다중 채널 오디오를 지원합니다. Tensorflow/Keras 또는 Pytorch와 같은 교육 파이프라인에 통합될 수 있습니다. 사람들이 Kaggle 대회에서 세계적 수준의 결과를 얻을 수 있도록 도왔습니다. 차세대 오디오 제품을 만드는 회사에서 사용됩니다.
- soundata - 사운드 데이터 세트를 다운로드, 로드 및 작업하기 위한 Python 라이브러리입니다.
- auraloss - PyTorch의 오디오 중심 손실 함수 모음입니다.
- Neutone - AI 오디오 플러그인 및 커뮤니티. AI 연구와 창의성 사이의 격차 해소
- Waveformer - 실시간 대상 사운드 추출을 위한 효율적인 아키텍처입니다.
- EfficientAT - 효율적인 대규모 오디오 태깅. 우리는 다운스트림 교육 및 오디오 임베딩 추출을 위해 준비된 AudioSet 사전 교육 모델을 제공합니다.
- EfficientAT_HEAR - 오디오 표현 벤치마크의 전체적인 평가에서 EfficientAT 모델을 평가합니다.
- VAD-python - Python의 음성 활동 감지기. 웨이브 파일에 음성 활동 감지기를 적용하는 Python 코드입니다. 음성 대역의 에너지와 전체 에너지 간의 비율을 기반으로 하는 음성 활동 감지기입니다.
- Diffsynth - PyTorch의 차별화 가능한 음악 신디사이저입니다.
- 실시간 DDSP - 중성자와 호환되는 PyTorch의 실시간(스트리밍) DDSP입니다.
- pc-ddsp - 피치 제어가 가능한 DDSP 보코더.
- SSSSM-DDSP - 미분 가능한 DSP를 사용한 반감시 신디사이저 사운드 매칭.
- GOLF - DDSP 기반 신경 보코더.
- audacitorch - 대담하게 모델을 사용하기 위한 PyTorch 래퍼입니다!
- Scyclone - Scyclone은 신경 음색 전송 기술을 활용하여 오디오 제작에 대한 새로운 접근 방식을 제공하는 오디오 플러그인입니다.
- Scyclone AI - Scyclone용 사전 설정 생성: 실시간 신경 음색 전송 플러그인.
- 멀티 태스크 자동 신디사이저 프로그래밍 - 멀티 VST 자동 신디사이저 프로그래밍 프로젝트를 위한 코드입니다.
- NeuralNote - 딥 러닝을 사용하여 오디오를 MIDI로 변환하는 오디오 플러그인입니다.
- AudioDec - 오픈 소스 스트리밍 고품질 신경 오디오 코덱입니다.
- PaSST - 패치아웃을 통한 효율적인 오디오 변환기 교육.
- speech_data_augment - 음성 데이터 증대 알고리즘의 요약입니다.
- AugLy - 오디오, 이미지, 텍스트 및 비디오를 위한 데이터 증대 라이브러리입니다.
- NeuraFuzz - 맞춤형 아날로그 퍼즈 회로 설계에 대해 훈련된 신경 오디오 플러그인입니다.
- Ultimate Vocal Remover GUI - 심층 신경망을 사용하는 보컬 리무버용 GUI입니다.
- Frechet Audio Distance - Frechet Audio Distance 계산을 위한 경량 라이브러리입니다.
- LAPE - 저자원 오디오 처리 및 평가(SSL 사전 훈련 및 다운스트림 미세 조정)를 위한 통합 프레임워크입니다.
- Python용 Azure SDK - 이 리포지토리는 Python용 Azure SDK의 적극적인 개발을 위한 것입니다.
- Panotti - Keras를 사용하는 다중 채널 신경망 오디오 분류기입니다.
- Allie - Allie는 오디오, 텍스트, 이미지, 비디오 또는 .CSV 파일에서 기계 학습 모델을 구축하기 위한 프레임워크입니다.
- Torchplugins - Pytorch 모델을 로드하는 Max/MSP, PureData 및 Unity 플러그인입니다.
- aeiou - (ML) 오디오 엔지니어링 i/o 유틸리티입니다.
- BirdNET-Analyzer - 과학적 오디오 데이터 처리를 위한 BirdNET 분석기입니다.
- spring-reverb-dl-models - 딥러닝을 사용한 Spring Reverb의 가상 아날로그 모델링.
- EVAR ~ - EVAR ~ 오디오 표현용 평가 패키지입니다.
- Julius - 오디오 및 1D 신호용 Fast PyTorch 기반 DSP.
- NeuralDX7 - 클래식 Yamaha DX7과 관련된 무작위 기계 학습 실험입니다.
- HANCE - HANCE는 머신러닝 전문가, 사운드 엔지니어, 오디오 처리 전문가가 함께 개발한 최고 품질의 신호 처리 기술을 제공합니다. 우리의 기술은 소음, 반향 및 기타 신호 장애를 제거하여 사용자에게 가능한 최고의 오디오 경험을 제공하도록 설계되었습니다.
- 아이디어 - 반전 가능한 듀얼 임베딩을 사용한 강력한 신경 오디오 워터마킹.
- SyNEThesia - SyNEThesia는 딥 러닝 기반의 음악 및 소리 시각화 도구로, 자극을 다양한 방식으로 인식하는 신경학적 상태인 공감각(예: 소리 보기)에 대한 단어 유희입니다.
- Voxaboxen - Voxaboxen은 녹음에서 (겹칠 수 있는) 사운드 이벤트의 시작 및 중지 시간을 찾도록 설계된 딥 러닝 프레임워크입니다.
- vocal-separate - 보컬과 배경 음악을 분리하기 위한 매우 간단한 도구로, 2stems/4stems/5stems 모델을 사용하여 웹 작업에 맞게 완전히 현지화되었습니다.
- 음성 향상 - 오디오 잡음 제거를 위한 딥 러닝.
- SNAC - SNAC(Multi-Scale Neural Audio Codec)는 44.1kHz 오디오를 낮은 비트 전송률의 개별 코드로 압축합니다.
- Supervoice GPT - 음성 합성기에 공급하기에 적합한 지속 시간을 사용하여 텍스트를 음소로 변환하는 GPT 모델입니다.
- AudioEditing - DDPM 반전을 사용한 제로샷 비감독 및 텍스트 기반 오디오 편집.
- MAX-Audio-Classifier - IBM 개발자 모델 자산 교환: 오디오 분류자.
- anira - 실시간 오디오 애플리케이션의 신경망 추론을 위한 아키텍처입니다.
- FakeSound - Deepfake 일반 오디오 감지.
- Audio Mamba - 오디오 표현 학습을 위한 양방향 상태 공간 모델.
- SSAMBA - SSAMBA: Mamba 상태 공간 모델을 사용한 자기 감독 오디오 표현 학습.
- SLAM-LLM - SLAM-LLM은 연구원과 개발자가 음성, 언어, 오디오, 음악 처리에 중점을 둔 맞춤형 다중 모드 대형 언어 모델(MLLM)을 훈련할 수 있는 딥 러닝 툴킷입니다.
- MIDI2vec - MIDI2vec: MIDI 벡터 공간 표현을 위한 학습 임베딩.
^ 목차로 돌아가기 ^
오디오 생성(AG)
- AudioLCM - 잠재 일관성 모델을 사용한 텍스트-오디오 생성.
- Auffusion - Auffusion: 텍스트-오디오 생성을 위한 확산 및 대규모 언어 모델의 힘을 활용합니다.
- Audiobox - Audiobox: 자연어 프롬프트를 통한 통합 오디오 생성.
- Amphion - Amphion: 오픈 소스 오디오, 음악 및 음성 생성 툴킷.
- Nendo - Nendo AI 오디오 도구 제품군.
- 안정적인 오디오 - 빠른 타이밍 조건의 잠재 오디오 확산.
- WavJourney - 대규모 언어 모델을 사용한 작곡 오디오 생성.
- Audiocraft - Audiocraft는 오디오 생성에 대한 딥 러닝 연구를 위한 PyTorch 라이브러리입니다.
- vschaos2 - vschaos2: 빈티지 신경 오디오 합성.
- 신경 공진기 - 미분 가능한 모달 공진기를 사용한 강체 사운드 합성.
- SoundStorm - SoundStorm: 효율적인 병렬 오디오 생성.
- SpeechGPT - SpeechGPT: 본질적인 교차 모달 대화 능력으로 대규모 언어 모델을 강화합니다.
- CLAPSpeech - CLAPSpeech: 대조 언어-오디오 사전 훈련을 통해 텍스트 컨텍스트에서 운율 학습.
- AudioGPT - AudioGPT: 음성, 음악, 소리 및 말하는 머리를 이해하고 생성합니다.
- Bark - Bark는 Suno가 만든 변환기 기반 텍스트-오디오 모델입니다. Bark는 매우 사실적인 다국어 음성은 물론 음악, 배경 소음 및 간단한 음향 효과를 포함한 기타 오디오를 생성할 수 있습니다.
- TANGO - TANGO는 TTA(텍스트-오디오) 생성을 위한 LDM(잠재 확산 모델)입니다. TANGO는 인간의 소리, 동물의 소리, 자연 및 인공 소리, 텍스트 프롬프트의 음향 효과를 포함한 사실적인 오디오를 생성할 수 있습니다.
- ArchiSound - PyTorch에서 확산 모델을 사용한 오디오 생성.
- WaveGAN - WaveGAN: 생성적 적대 네트워크를 사용하여 원시 오디오를 합성하는 방법을 알아보세요.
- NeuralSound - 음향 전달을 통한 학습 기반 모달 사운드 합성.
- RAVE - RAVE: 실시간 오디오 변주 자동 인코더. 빠르고 고품질의 신경 오디오 합성을 위한 변형 자동 인코더입니다.
- AudioLDM - AudioLDM: 잠재 확산 모델을 사용한 텍스트-오디오 생성.
- Make-An-Audio - Make-An-Audio: 즉각 강화된 확산 모델을 사용한 텍스트-오디오 생성.
- Make-An-Audio 3 - Make-An-Audio 3: 흐름 기반 대형 확산 변환기를 통해 텍스트를 오디오로 변환합니다.
- Moûsai - Moûsai: 장기 상황 잠재 확산을 통한 텍스트-오디오.
- Im2Wav - 이미지 가이드 오디오 생성. 우리는 이미지 기반 오픈 도메인 오디오 생성 시스템인 Im2Wav를 제안합니다. 입력 이미지 또는 일련의 이미지가 주어지면 Im2Wav는 의미상 관련된 사운드를 생성합니다.
- Oobleck - 다운스트림 신경 오디오 합성을 위한 개방형 사운드스트림 VAE 코덱입니다.
- USS - 약하게 레이블이 지정된 데이터를 사용하여 범용 소스 분리를 PyTorch로 구현한 것입니다. USS 시스템은 실제 녹음에서 사운드 클래스를 자동으로 감지하고 분리할 수 있습니다. USS 시스템은 계층적 온톨로지 구조에서 최대 수백 개의 사운드 클래스 사운드 클래스를 분리할 수 있습니다.
- 디퓨저 - ? Diffusers는 이미지, 오디오는 물론 분자의 3D 구조까지 생성하기 위한 최첨단 사전 훈련된 확산 모델을 위한 라이브러리입니다.
- ONE-PEACE - 시각, 오디오, 언어 양식 전반에 걸친 일반적인 표현 모달입니다.
- tiny-audio-diffusion - 2GB VRAM 미만의 GPU에서 짧은 오디오 샘플을 생성하고 파형 확산 모델을 교육하기 위한 저장소입니다.
- stable-audio-tools - 조건부 오디오 생성을 위한 생성 모델입니다.
- CTAG - 신디사이저 프로그래밍을 통한 창의적인 텍스트-오디오 생성.
- Audiogen 코덱 - 일반 오디오용 저압축 48khz 스테레오 신경 오디오 코덱으로 오디오 충실도를 최적화합니다.
- WavCraft - WavCraft는 오디오 생성 및 편집을 위한 AI 에이전트입니다.
- FoleyCrafter - FoleyCrafter: 생생하고 동기화된 사운드로 무음 비디오에 생기를 불어넣으세요.
^ 목차로 돌아가기 ^
오디오 신호 처리(ASP)
- SouPyX - SouPyX는 다양한 오디오 분야의 연구 및 탐색에 적합한 오디오 탐색을 위한 매우 다채로운 공간입니다. SouPyX에서는 오디오 처리, 사운드 합성, 오디오 효과, 공간 오디오, 오디오 시각화, AI 오디오 등에 대한 연구와 탐색을 수행할 수 있습니다.
- SoundFile - SoundFile은 libsndfile, CFFI 및 NumPy를 기반으로 하는 오디오 라이브러리입니다.
- 오디오 DSPy - audio_dspy는 오디오 신호 처리 도구용 Python 패키지입니다.
- pyAudioDspTools - pyAudioDspTools는 numpy를 사용하여 오디오를 조작하기 위한 Python 3 패키지입니다.
- wave - 웨이브 모듈은 WAV 사운드 형식에 대한 편리한 인터페이스를 제공합니다. 압축/압축 해제는 지원하지 않지만 모노/스테레오는 지원합니다.
- FFmpeg - FFmpeg는 오디오, 비디오, 자막 및 관련 메타데이터와 같은 멀티미디어 콘텐츠를 처리하는 라이브러리 및 도구 모음입니다.
- Opus - 인터넷을 위한 최신 오디오 압축입니다.
- Pedalboard - Pedalboard는 오디오 작업(읽기, 쓰기, 효과 추가 등)을 위한 Python 라이브러리입니다. 가장 널리 사용되는 오디오 파일 형식과 다양한 일반 오디오 효과를 기본적으로 지원하며 타사 플러그인에 VST3 및 Audio Unit 형식을 사용할 수도 있습니다.
- PyAudio - PyAudio는 크로스 플랫폼 오디오 I/O 라이브러리인 PortAudio v19에 대한 Python 바인딩을 제공합니다. PyAudio를 사용하면 Python을 사용하여 GNU/Linux, Microsoft Windows 및 Apple macOS와 같은 다양한 플랫폼에서 오디오를 쉽게 재생하고 녹음할 수 있습니다.
- PortAudio - PortAudio는 무료 크로스 플랫폼 오픈 소스 오디오 I/O 라이브러리입니다. Windows, Macintosh OS X 및 Unix(OSS/ALSA)를 포함한 많은 플랫폼에서 컴파일하고 실행되는 간단한 오디오 프로그램을 'C' 또는 C++로 작성할 수 있습니다. 이는 서로 다른 플랫폼의 개발자 간의 오디오 소프트웨어 교환을 촉진하기 위한 것입니다. 많은 애플리케이션은 오디오 I/O에 PortAudio를 사용합니다.
- 표표는 디지털 신호 처리 스크립트 생성을 돕기 위해 C로 작성된 Python 모듈입니다. Python DSP 모듈입니다. pyo를 사용하면 사용자는 Python 스크립트나 프로젝트에 신호 처리 체인을 직접 포함하고 인터프리터를 통해 실시간으로 조작할 수 있습니다.
- tinytag -tinytag는 순수 Python으로 가장 일반적인 오디오 파일의 음악 메타 데이터를 읽는 라이브러리입니다. Python 2 또는 3을 사용하여 MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave 및 AIFF 파일의 오디오 및 음악 메타 데이터와 재생 시간을 읽어보세요.
- Friture - Friture는 라이브 오디오 데이터를 실시간으로 시각화하고 분석하는 애플리케이션입니다. Friture는 스코프, 스펙트럼 분석기 또는 롤링 2D 스펙트로그램과 같은 여러 위젯에 오디오 데이터를 표시합니다.
- sounddevice - 이 Python 모듈은 PortAudio 라이브러리에 대한 바인딩과 오디오 신호가 포함된 NumPy 배열을 재생하고 녹음하기 위한 몇 가지 편의 기능을 제공합니다.
- Pydub - 간단하고 쉬운 고급 인터페이스로 오디오를 조작합니다.
- NAudio - .NET용 오디오 및 MIDI 라이브러리입니다.
- SoundCard - SoundCard는 CPython 확장을 사용하지 않고 오디오를 재생하고 녹음하기 위한 라이브러리입니다. 대신, 멋진 CFFI와 Linux, Windows 및 macOS의 기본 오디오 라이브러리를 사용하여 구현됩니다.
- TarsosDSP - TarsosDSP는 오디오 처리를 위한 Java 라이브러리입니다. 그 목적은 순수 Java로 다른 외부 종속성 없이 가능한 한 간단하게 구현된 실용적인 음악 처리 알고리즘에 사용하기 쉬운 인터페이스를 제공하는 것입니다.
- Maximilian - Maximilian은 크로스 플랫폼 및 다중 대상 오디오 합성 및 신호 처리 라이브러리입니다. C++로 작성되었으며 Javascript에 대한 바인딩을 제공합니다.
- C++ 합성 툴킷(STK) - C++ 합성 툴킷(STK)은 C++ 프로그래밍 언어로 작성된 오픈 소스 오디오 신호 처리 및 알고리즘 합성 클래스 세트입니다.
- JUCE - JUCE는 VST, VST3, AU, AUv3, AAX 및 LV2 오디오 플러그인과 플러그인 호스트를 포함한 고품질 데스크톱 및 모바일 애플리케이션을 만들기 위한 오픈 소스 크로스 플랫폼 C++ 애플리케이션 프레임워크입니다. JUCE는 CMake를 통해 기존 프로젝트와 쉽게 통합되거나 Xcode(macOS 및 iOS), Visual Studio, Android Studio, Code::Blocks 및 Linux Makefiles용 프로젝트 내보내기를 지원하는 Projucer를 통해 프로젝트 생성 도구로 사용할 수 있습니다. 소스 코드 편집기도 포함되어 있습니다.
- iPlug 2 - 데스크탑, 모바일 및 웹용 C++ 오디오 플러그인 프레임워크.
- CHOC - 최소한의 종속성으로 기본적인 유용한 작업을 제공하기 위해 허용된 라이선스가 부여된 헤더 전용 클래스 모음입니다.
- Q - Q는 오디오 디지털 신호 처리를 위한 크로스 플랫폼 C++ 라이브러리입니다. 공진 회로의 품질을 설명하는 무차원 매개변수인 "Q 팩터"의 이름을 따서 명명된 Q DSP 라이브러리는 이름에서 알 수 있듯이 단순하고 우아하며 소형 마이크로컨트롤러에서 실행하기에 충분히 효율적으로 설계되었습니다.
- BasicDSP - BasicDSP - 오디오 처리/신호 처리 실험용 도구입니다.
- DaisySP - C++로 작성된 강력한 오픈 소스 DSP 라이브러리입니다.
- SPTK(음성 신호 처리 도구 키트) - SPTK(음성 신호 처리 도구 키트)는 UNIX 환경을 위한 음성 신호 처리 도구 모음입니다(예: LPC 분석, PARCOR 분석, LSP 분석, PARCOR 합성 필터, LSP 합성 필터, 벡터 양자화 기술). 및 기타 확장 버전이 있습니다.
- eDSP - eDSP (쉬운 디지털 신호 처리)는 디지털 신호 처리, 오디오 엔지니어링 및 통신 시스템에서 자주 사용되는 일부 공통 기능 및 알고리즘을 구현하는 최신 C++로 작성된 디지털 신호 처리 프레임워크입니다.
- KFR - KFR은 고성능에 초점을 맞춘 오픈 소스 C++ DSP 프레임워크입니다. 빠르고 현대적인 C++ DSP 프레임워크, FFT, 샘플 속도 변환, FIR/IIR/바이쿼드 필터(SSE, AVX, AVX-512, ARM NEON).
- MWEngine - C++로 작성된 Android용 오디오 엔진 및 DSP는 음악적 맥락에서 낮은 지연 시간 성능을 제공하는 동시에 Java/Kotlin API를 제공합니다. OpenSL과 AAudio를 모두 지원합니다.
- LabSound - LabSound는 C++ 그래프 기반 오디오 엔진입니다. 엔진은 게임, 시각화 장치, 대화형 설치, 라이브 코딩 환경, VST 플러그인, 오디오 편집/시퀀싱 애플리케이션 등 다양한 유형의 소프트웨어에 통합할 수 있도록 배터리가 포함된 정적 라이브러리로 패키지되어 있습니다.
- Gist - Gist는 C++ 기반 오디오 분석 라이브러리입니다.
- Realtime_PyAudio_FFT - PyAudio 및 Numpy를 사용하여 스트리밍 오디오에서 FFT 기능을 추출하고 시각화하는 Python의 실시간 오디오 분석입니다.
- 스펙트럼 - Python의 스펙트럼 분석. Spectrum은 푸리에 변환, 파라메트릭 방법 또는 고유값 분석을 기반으로 전력 스펙트럼 밀도를 추정하는 도구가 포함된 Python 라이브러리입니다. 푸리에 방법은 상관도형, 주기도 및 Welch 추정을 기반으로 합니다. 표준 테이퍼링 창(Hann, Hamming, Blackman)과 보다 이국적인 창(DPSS, Taylor, …)을 사용할 수 있습니다.
- tidstream - 라이브 Vorbis 및 Opus 스트림을 생성하고 조작하기 위한 도구입니다.
- AudioTraits - AudioTraits는 오디오 처리 테스트를 보다 편리하고 읽기 쉽게 만들기 위해 설계된 추상화입니다. '오디오 특성'은 주어진 오디오 신호(해당 채널의 일부 또는 전체)를 분석하고 특정 속성을 확인합니다. 이 검사의 결과는 부울이므로 모든 단위 테스트 프레임워크에 쉽게 통합될 수 있습니다.
- genMDM Editor - Sega Mega Drive 및 Genesis용 MIDI 컨트롤러인 genMDM용 웹 기반 인터페이스입니다. Mega Drive MIDI 인터페이스도 지원합니다.
- 3DAudioVisualizers - 오디오 및 GUI용 JUCE를 사용하는 C++의 OpenGL 오디오 시각화 도구 모음입니다.
- AudioStretchy - AudioStretchy는 피치를 변경하지 않고 오디오 신호의 시간을 늘릴 수 있는 Python 라이브러리입니다.
- SwiftAudio - SwiftAudioEx는 Swift로 작성된 iOS 오디오 플레이어로, 스트림과 파일의 오디오 재생 작업을 더 간단하게 만듭니다.
- WaveTools - WaveTools는 오디오 파일을 조작하기 위한 프레임워크입니다. 특히 WAVE 파일(.wav)이 그렇습니다.
- SimplyCoreAudio - ? macOS에서 Core Audio 사용을 덜 지루하게 만드는 것을 목표로 하는 Swift 프레임워크입니다.
- DPF - DISTRHO 플러그인 프레임워크. DPF는 새로운 플러그인을 쉽고 즐겁게 개발할 수 있도록 설계되었습니다.
- Neural Amp Modeler 플러그인 - iPlug2로 구축된 Neural Amp Modeler용 VST3/AudioUnit 플러그인입니다.
- lsp-dsp-lib - 신호 처리를 위한 DSP 라이브러리입니다.
- 힙합 - 웹 보기에서 UI를 실행하는 오디오 플러그인을 작성하기 위한 라이브러리입니다. DPF를 기반으로 합니다.
- MGT-python - Python용 음악 제스처 도구 상자입니다.
- ASP - 오디오 신호 처리 Python 도구.
- TinyAudio - TinyAudio는 크로스 플랫폼 오디오 출력 라이브러리입니다.
- pymixconsole - Python의 헤드리스 멀티트랙 믹싱 콘솔입니다.
- 효과 플러그인 - Elementary 및 JUCE를 사용하는 오디오 효과 플러그인 템플릿입니다.
- miniaudio - 단일 소스 파일에 C로 작성된 오디오 재생 및 캡처 라이브러리입니다.
- AudioMass - 모든 기능을 갖춘 무료 웹 기반 오디오 및 파형 편집 도구입니다.
- 범용 Android 뮤직 플레이어 샘플 - Android용 샘플 오디오 앱입니다.
- jsfx - Reaper용 JS(JesuSonic) 플러그인 무료 컬렉션입니다.
- 푸리에(Fourier) - Rust의 고속 푸리에 변환(FFT)입니다.
- ProtoFaust - 모듈식 신디사이저 VCV Rack을 위한 Faust의 DSP 프로토타이핑입니다.
- Polar - CUDA 처리용 오디오 엔진(Windows/Linux).
- 오디오-MIDI 변환기 - wav 파일에서 피치를 감지하고 시간 양자화 MIDI에 쓰는 프로그램입니다.
- AudioTSM - AudioTSM은 실시간 오디오 시간 규모 수정 절차, 즉 피치를 변경하지 않고 오디오 신호의 속도를 변경하는 알고리즘을 위한 Python 라이브러리입니다.
- 다중 필터 지연 - Juce/C++를 통해 프로그래밍된 독창적인 디지털 오디오 효과입니다.
- convoLV2 - convoLV2는 대기 시간 없이 오디오 신호를 컨볼루션하는 LV2 플러그인입니다.
- Cloud Seed - Cloud Seed는 거대하고 끝없는 공간과 변조된 에코를 에뮬레이트하기 위해 C# 및 C++로 구축된 알고리즘 리버브 플러그인입니다.
- 배경 음악 - macOS 오디오 유틸리티인 배경 음악: 자동으로 음악을 일시 중지하고, 개별 앱의 볼륨을 설정하고, 시스템 오디오를 녹음합니다.
- audiowaveform - 오디오 파일에서 파형 데이터를 생성하고 파형 이미지를 렌더링하는 C++ 프로그램입니다.
- Mutagen - 오디오 메타데이터를 처리하기 위한 Python 모듈입니다.
- lewton - 순수 Rust로 작성된 Vorbis 디코더입니다.
- Hound - Rust의 wav 인코딩 및 디코딩 라이브러리입니다.
- rodio - Rust 오디오 재생 라이브러리.
- CPAL - 순수 Rust의 크로스 플랫폼 오디오 I/O 라이브러리입니다.
- CSCore - CSCore는 완전히 C#으로 작성된 무료 .NET 오디오 라이브러리입니다.
- TinyOSC - 바닐라 C로 작성된 최소 OSC(Open Sound Control) 라이브러리입니다.
- TinyWav - WAV 오디오 파일(16b-int 및 32b-float)을 읽고 쓰기 위한 최소 C 라이브러리입니다.
- JAsioHost - Java 기반(오디오 스트림 입력/출력) ASIO 호스트입니다.
- PyWavelets - PyWavelets는 Python의 웨이블릿 변환을 위한 무료 오픈 소스 라이브러리입니다. 웨이블릿은 시간과 주파수 모두에 국한된 수학적 기반 함수입니다.
- ChowMultiTool - 다중 도구 오디오 플러그인.
- RE201models - Roland RE201의 디지털 모델입니다. VST3, AU 플러그인 및 소스 코드.
- RtAudio - Linux(네이티브 ALSA, JACK, PulseAudio 및 OSS), Macintosh OS X(CoreAudio 및 JACK) 및 Windows(DirectSound, ASIO 및 WASAPI) 전반에서 실시간 오디오 입력/출력을 위한 공통 API를 제공하는 C++ 클래스 세트입니다. 운영 체제.
- RtAudio-rs - RtAudio에 대한 안전한 Rust 래퍼 및 바인딩입니다.
- PFFFT - PFFASTCONV를 사용한 매우 빠른 FFT 및 빠른 컨볼루션입니다.
- SHAART - SHAART는 교육 목적으로 사용되는 Python 기반 오디오 분석 도구 키트입니다.
- TD-JUCE - TouchDesigner의 JUCE 오디오 및 VST입니다.
- JIVE - JIVE는 UI 개발에 대한 보다 현대적인 접근 방식을 원하는 것을 중심으로 한 JUCE 모듈 번들입니다.
- Amplituda - Amplituda - 오디오 파일을 처리하고 샘플 배열을 제공하는 FFMPEG 기반 안드로이드 라이브러리입니다.
- TagLib - TagLib 오디오 메타데이터 라이브러리.
- speexdsp - Speex Echo Canceller Python 라이브러리.
- PyPam - 수동 음향 모니터링(PAM)을 위한 Python 수동 음향 분석 도구입니다.
- AudioTools - GPU 기반 기능 강화 등을 통해 오디오 데이터를 객체 지향적으로 처리합니다.
- Equalize It - 이 프로젝트는 이퀄라이제이션을 위한 VST 플러그인입니다. 사용자 인터페이스에는 스펙트럼 분석기, 필터 제어판, 주파수 응답 곡선 및 레벨 미터가 포함되어 있습니다.
- JDSP4Linux - PipeWire 및 PulseAudio 클라이언트용 오디오 효과 프로세서입니다.
- FIRconv - FIR(Finite Impulse Response) 필터의 Python 구현입니다.
- OpenDSP - 오디오 및 비디오 DSP용 헤드리스 Linux 임베디드 실시간 OS입니다.
- ultralight-juce - 더 아름다운 UI를 위해 Ultralight C++/HTML 렌더러를 JUCE와 통합합니다.
- Vult - Vult는 오디오 효과나 신디사이저와 같은 디지털 신호 처리(DSP) 알고리즘을 프로그래밍할 때 특히 유용합니다.
- CloudSeed [JUCE] - CloudSeed VST 플러그인용 JUCE 기반 UI입니다.
- TFliteTemplatePlugin - 딥 러닝 추론을 위해 TensorFlow 라이트를 사용하기 위한 JUCE 템플릿 플러그인입니다.
- DrumFixer - DrumFixer는 믹싱 엔지니어가 더 나은 드럼 사운드를 얻을 수 있도록 설계된 오디오 플러그인입니다.
- BasicAudioPlayer - AVAudioEngine 기반 오디오 플레이어를 더 쉽게 만들 수 있게 해주는 Swift 라이브러리입니다.
- PLAudioMixer - AVAudioEngine 오프라인 렌더링 모드를 기반으로 하는 간단한 오디오 믹서입니다.
- estratto - Estratto는 디지털 오디오 신호에서 풍부한 오디오 기능을 추출하도록 설계된 강력하고 사용자 친화적인 Rust 라이브러리입니다.
- vampy - Vamp 오디오 분석 플러그인을 Python으로 작성할 수 있는 래퍼입니다.
- SoundWave - SoundWave는 시간 경과에 따른 사운드를 나타내는 사용자 정의 가능한 보기입니다.
- PyAV - PyAV는 FFmpeg 라이브러리에 대한 Python 바인딩입니다.
- audio-dsp - 오디오 플러그인 개발 + DSP를 가지고 놀아보세요.
- openSMILE - openSMILE(대공간 추출에 의한 오픈 소스 Speech and Music Interpretation by Large-space Extraction)은 특히 음성 및 음악 애플리케이션을 대상으로 하는 오디오 분석, 처리 및 분류를 위한 완전한 오픈 소스 툴킷입니다.
- Carla - Carla는 다양한 오디오 드라이버와 플러그인 형식을 지원하는 모든 기능을 갖춘 오디오 플러그인 호스트입니다.
- JUCE-HEAVY - JUCE를 Heavy C++(HVCC) 생성 소스 파일과 연결하는 방법을 보여주는 템플릿 JUCE 프로젝트입니다.
- Dplug - 오디오 플러그인 프레임워크. Linux/macOS/Windows용 VST2/VST3/AU/AAX/LV2.
- DAWNet - DAWNet은 원격 Google Colab 또는 Script에 연결하는 DAW(digit audio workstation) 플러그인입니다.
- Fish 오디오 전처리기 - 훈련용 오디오를 전처리합니다.
- clap-validator - 자동 CLAP 검증 및 테스트 도구입니다.
- DSP 테스트벤치 - JUCE 프레임워크 사용자를 위한 DSP 테스트벤치입니다.
- 커플러(Coupler) - 커플러는 Rust에서 오디오 플러그인을 작성하기 위한 프레임워크입니다. 현재 VST3 및 CLAP API를 지원하며 가까운 시일 내에 AUv2 및 AAX를 지원할 계획입니다.
- PyOgg - PyOgg는 Xiph.org의 Opus, Vorbis 및 FLAC 오디오 파일 형식과 Ogg 컨테이너 형식에 대한 Python 바인딩을 제공합니다.
- streamlit-audiorecorder - streamlit용 오디오 레코더입니다.
- DtBlkFx - DtBlkFx는 FFT(Fast-Fourier-Transform) 기반 VST 플러그인입니다.
- Smartelectronix- 모든 Bram @ Smartelectronix 플러그인의 오픈 소스 버전.
- Cookiejuce- CMAKE를 사용하여 현대식 JUCE 프로젝트를 생성하기위한 명령 줄 도구.
- AugLib -AugLib은 오디오 신호 및 파일을 수정하기 위해 변환을 제공하는 증강 라이브러리입니다.
- Klang -Klang은 C ++의 실시간 오디오 프로세스의 설계 및 개발을위한 언어입니다.
^ 내용으로 돌아 가기 ^
사운드 합성 (SS)
- CSound -CSound는 1985 년 MIT Media Lab에서 Barry Vercoe가 원래 개발 한 사운드 및 음악 컴퓨팅 시스템입니다. 90 년대 이래로 핵심 개발자 그룹에 의해 개발되었습니다.
- PURE DATA -PURE DATA ( PD )은 대화식 컴퓨터 음악 및 멀티미디어 작품을 만들기 위해 1990 년대 Miller Puckette가 개발 한 시각적 프로그래밍 언어입니다. Puckette는이 프로그램의 주요 저자이지만 PD는 새로운 확장에 대한 대규모 개발자 기반이있는 오픈 소스 프로젝트입니다. BSD-3-Clause에 따라 출시됩니다. Linux, MacOS, iOS, Android "Android (운영 체제)"및 Windows에서 실행됩니다. FreeBSD 및 IRIX 용 포트가 있습니다.
- 플러그다타 - 오디오 실험, 프로토 타이핑 및 교육을위한 시각적 프로그래밍 환경.
- Max/MSP/Jitter -Max/MSP/Jitter라고도하는 Max 는 샌프란시스코 기반 소프트웨어 회사 Cycling '74에서 개발하고 관리하는 음악 및 멀티미디어를위한 시각적 프로그래밍 언어입니다. 30 년이 넘는 역사를 통해 작곡가, 공연자, 소프트웨어 디자이너, 연구원 및 아티스트가 녹음, 공연 및 설치를 만드는 데 사용되었습니다.
- KYMA (Sound Design Language) - Kyma 는 음악가, 연구원 및 사운드 디자이너가 사용하는 사운드 디자인을위한 시각적 프로그래밍 언어입니다. Kyma에서 사용자는 Macintosh 또는 Windows 컴퓨터 화면에 모듈을 그래픽으로 연결하여 멀티 프로세서 DSP를 프로그램합니다.
- SuperCollider -SuperCollider는 음악가, 아티스트 및 Sound와 함께 일하는 연구자들이 사용하는 오디오 합성 및 알고리즘 구성을위한 플랫폼입니다. 사운드 합성 및 알고리즘 구성을위한 오디오 서버, 프로그래밍 언어 및 IDE.
- Sonic Pi- 소닉 PI 기반.
- REAKTOR -REAKTOR는 NITER (Native Instruments)에서 개발 한 그래픽 모듈 식 소프트웨어 음악 스튜디오입니다. 음악가와 사운드 전문가는 자체 악기, 샘플러 "샘플러 (악기)"), 효과 및 사운드 디자인 도구를 디자인하고 구축 할 수 있습니다. 클래식 신시사이저의 에뮬레이션에서 미래의 사운드 디자인 도구에 이르기까지 많은 즉시 사용 가능한 악기와 효과가 제공됩니다.
- RTCMIX- RTCMIX는 디지털 사운드 합성 및 신호 처리를 수행하기위한 실시간 소프트웨어 "언어"입니다. C/C ++로 작성되었으며 무료로 오픈 소스입니다.
- 척 - 척은 실시간 사운드 합성 및 음악 제작을위한 프로그래밍 언어입니다. Chuck은 정확하고 표현력이있는 고유 한 시간 기반의 동시 프로그래밍 모델을 제공합니다 (우리는 이것을 강력하게 타이밍으로 부릅니다), 동적 제어 속도 및 날짜에서 코드를 추가하고 수정하는 능력. 또한 Chuck은 MIDI, OpenSoundControl, HID 장치 및 멀티 채널 오디오를 지원합니다. 오픈 소스이며 MacOS X, Windows 및 Linux에서 무료로 제공됩니다. 재미 있고 배우기 쉬우 며, 복잡한 오디오 합성/분석 프로그램, 실시간 대화 형 음악을 구축하고 실험 할 수있는 강력한 프로그래밍 도구를 작곡가, 연구원 및 공연자에게 제공합니다.
- Faust-Faust (기능 오디오 스트림)는 신디사이저, 악기, 오디오 효과 등의 설계에 중점을 둔 사운드 합성 및 오디오 처리를위한 기능적 프로그래밍 언어입니다. Faust는 고성능 신호 처리 응용 프로그램 및 오디오 플러그인을 대상으로합니다. 다양한 플랫폼 및 표준의 경우.
- 영혼 - 영혼 프로그래밍 언어와 API. Soul (Sound Language)은 고성능 저급 오디오 코드가 작성되고 실행되는 방식을 현대화하고 최적화하려는 시도입니다.
- CMAJOR -CMAJOR는 빠른 휴대용 오디오 소프트웨어를 작성하기위한 프로그래밍 언어입니다. C, C ++ , C#, Objective-C.
- VCV 랙 - 랙은 VCV 가상 Eurorack 모듈 식 신시사이저 플랫폼의 호스트 애플리케이션입니다.
- GWION -GWION은 음악 제작을 목표로하는 프로그래밍 언어입니다. Chuck에서 강력 하게 영감을 받았지만 높은 수준의 기능을 추가합니다. 템플릿, 일류 기능 등. 단순하고 작고 빠르며 확장 가능하며 임베드 가능합니다.
- Elementary Audio -Elementary는 JavaScript 프레임 워크 및 고성능 오디오 엔진으로 신속하게 구축하고 자신있게 배송하는 데 도움이됩니다. 웹 또는 기본 앱에서 오디오 소프트웨어를 작성하기위한 선언적이고 기능적인 프레임 워크.
- 초등학교 - 초등학교는 오디오 애플리케이션을 구축하기위한 JavaScript/C ++ 라이브러리입니다.
- Sound2Synth -Sound2Synth : FM 합성기 매개 변수 추정을 통한 사운드 해석.
- JSYN -JSYN은 Phil Burk의 Java를위한 모듈 식 오디오 신디사이저입니다. JSYN을 사용하면 Java에서 대화식 컴퓨터 음악 프로그램을 개발할 수 있습니다. 음향 효과, 오디오 환경 또는 음악을 생성하는 데 사용할 수 있습니다. JSYN은 복잡한 사운드를 형성하기 위해 함께 연결될 수있는 기존의 단위 생성기 모델을 기반으로합니다.
- Synthax- 실시간 속도를 초과하는 JAX ⚡️ Accelerating 오디오 합성의 빠른 모듈 식 신시사이저는 지능형 오디오 제작 기술을 발전시키는 데 중요한 역할을합니다. Synthax는 JAX로 작성된 빠른 가상 모듈 식 신시사이저입니다. Synthax는 절정에 달하는 실시간보다 60,000 배 이상 빠르고 가속화 된 사운드 합성의 최첨단보다 훨씬 빠릅니다.
- Midica -Midica는 음악 프로그래밍 언어의 통역사입니다. 소스 코드를 MIDI로 변환합니다. 그러나 MIDI 플레이어, MIDI 컴파일러 또는 디 컴파일러, 노래방 플레이어, ALDA 플레이어, ABC 플레이어, LilyPond Player 또는 MIDI 파일 분석기로도 사용할 수 있습니다. 지원되는 언어 중 하나 (Midicapl, Alda 또는 ABC)로 음악을 씁니다.
- MERCURY -MERCURY는 알고리즘 전자 음악의 라이브 코딩을위한 최소하고 인간적으로 읽을 수있는 언어입니다. 언어의 모든 요소는 코드에 더 액세스 가능하고 청중을 위해 덜 난독 화하는 것을 중심으로 설계되었습니다. 이 동기는 기능에 대한 명확한 설명 이름과 명확한 구문을 사용하는 코딩 스타일 자체로 확장됩니다.
- ALDA -ALDA는 음악 구성을위한 텍스트 기반 프로그래밍 언어입니다. 텍스트 편집기와 명령 줄만 사용하여 음악을 쓰고 재생할 수 있습니다. 언어의 디자인은 마찬가지로 미학, 유연성 및 사용 편의성을 선호합니다.
- Platonic Music Engine- 플라톤 음악 엔진은 창의적인 인간 문화, 과거, 현재 및 미래의 전체를 피상적으로 시뮬레이션하는 컴퓨터 알고리즘을 만드는 시도입니다. 인터랙티브 한 방식으로 사용자가 다양한 매개 변수 및 설정을 선택하여 최종 결과가 사용자에게 고유 할 수 있도록 작업에 영감을주는 문화적 아이디어를 유지합니다.
- PYO-TOOLS- 오디오 효과를 구축하기위한 즉시 사용 가능한 Python 클래스 및 PYO를 사용한 신디사이저의 저장소.
- Py -Modular- 파이썬에 대한 모듈 식 및 실험 오디오 프로그래밍 프레임 워크. Py-Modular는 Python을위한 작고 실험적인 오디오 프로그래밍 환경입니다. 새로운 오디오 기술 및 워크 플로를 탐색하기위한 기반이되었습니다. Py-Modular의 대부분의 모든 내용은 노드 기반 워크 플로우 주위에 제작되므로 작은 클래스는 작은 작업을 수행하고 전체 신디사이저 또는 더 큰 아이디어를 만들기 위해 함께 패치 할 수 있습니다.
- Bach : 자동화 된 작곡가의 도우미-Max의 크로스 플랫폼 패치 및 외부 세트는 컴퓨터 보조 구성의 풍부함을 실시간 세계로 가져 오는 것을 목표로했습니다.
- Audiokit -Audiokit은 iOS, MacOS (Catalyst 포함) 및 TVOS를위한 오디오 합성, 처리 및 분석 플랫폼입니다.
- Twang- 순수한 Rust Advanced 오디오 합성을위한 라이브러리.
- Gensound- Pythonic 오디오 처리 및 생성 프레임 워크. 오디오 처리 및 합성을위한 파이썬 방법.
- 오토 - 오토는 신디사이저, 샘플러, 효과 및 오디오 루퍼가있는 시퀀서가있는 디지털 하드웨어 그루브 박스입니다. 인터페이스는 평평하고 모듈 식이며 사용하기 쉽지만 무엇보다도 실험을 장려하는 것을 목표로합니다.
- Loris -Loris는 Cerl Sound Group의 Kelly Fitz와 Lippold Haken이 개발 한 사운드 분석, 합성 및 모핑을위한 도서관입니다. LORIS에는 C ++ 클래스 라이브러리, 파이썬 모듈, C- 링킹 가능한 인터페이스, 명령 줄 유틸리티 및 문서가 포함됩니다.
- Iannix -Iannix는 디지털 아트를위한 Iannis Xenakis 작품을 기반으로 한 그래픽 오픈 소스 시퀀서입니다. Iannix는 OSC (Open Sound Control) 이벤트 및 곡선을 통해 실시간 환경에 동기화합니다.
- 라이프 치히 - Clojure 및 Clojurescript를위한 음악 구성 라이브러리.
- NYQUIST -NYQUIST는 LISP 구문뿐만 아니라 명령적인 언어 구문 및 강력한 통합 개발 환경을 제공하는 사운드 합성 및 구성 언어입니다. Nyquist는 기능 프로그래밍을 기반으로 한 우아하고 강력한 시스템입니다.
- OpenMusic (OM) - OpenMusic (OM)은 LISP를 기반으로하는 시각적 프로그래밍 언어입니다. 시각적 프로그램은 기능 및 데이터 구조를 나타내는 아이콘을 조립하고 연결하여 만들어집니다. 대부분의 프로그래밍 및 작업은 특정 장소에서 아이콘을 드래그하여 다른 장소로 떨어 뜨려 수행됩니다. LISP와의 인터페이스가있는 내장 시각 제어 구조 (예 : 루프)가 제공됩니다. 기존 CommonLISP/Clos 코드는 OM에서 쉽게 사용할 수 있으며 새로운 코드를 시각적으로 개발할 수 있습니다.
- ORCλ- ORCA는 절차 시퀀서를 신속하게 생성하도록 설계된 난해한 프로그래밍 언어로, 알파벳의 모든 문자는 작전이며, 소문자가 Bang에서 작동하며 대문자는 각 프레임에서 작동합니다.
- Overtone- Overtone은 합성 및 샘플링에서 악기 건물, 라이브 코딩 및 공동 작업 재밍에 이르기까지 새로운 음악 아이디어를 탐색하도록 설계된 오픈 소스 오디오 환경입니다. 우리는 강력한 슈퍼 콜라이더 오디오 엔진과 ART 상태의 상태 인 Clojure를 결합하여 중독성 대화 형 음파 경험을 만듭니다.
- 이음새 - 지속적인 전기 음향 음악 -베이스. 지속적인 전기 음향 음악 은 Alvise Vidolin과 Nicola Bernardini에서 영감을 얻은 프로젝트입니다.
- Glicol -Glicol ( "그래프 지향 라이브 코딩 언어"의 약어)은 C/C ++의 현대적인 대안 인 Rust 프로그래밍 언어로 작성된 언어 및 오디오 엔진이 모두 작성된 컴퓨터 음악 언어입니다. 이러한 저수준 특성을 감안할 때 Glicol은 브라우저, VST 플러그인 및 Bela 보드와 같은 다양한 플랫폼에서 실행할 수 있습니다. Glicol의 신디사이저 유사 구문 및 강력한 오디오 엔진은 또한 높은 수준의 신디사이저 또는 시퀀서 제어와 저수준 샘플에 비해 오디오 합성을 결합 할 수 있습니다.
- PaperSynth- 손으로 쓴 텍스트에 신디사이저! PaperSynth는 종이에 작성한 키워드를 읽고 전화로 재생할 수있는 신디사이저로 변환하는 것을 목표로하는 프로젝트입니다.
- 신경 공진기 VST- 이것은 신경망을 사용하여 임의의 2D 모양 및 재료를 기반으로 필터를 생성하는 VST 플러그인입니다. MIDI를 사용하여 간단한 충동을 유발하여 이러한 필터를 자극 할 수 있습니다. 또한 모든 오디오 신호는 필터에 대한 입력으로 사용할 수 있습니다.
- Scyclone- Scyclone은 신경 음모 전송 기술을 사용하여 오디오 제작에 대한 새로운 접근 방식을 제공하는 오디오 플러그인입니다. 플러그인은 실시간 오디오 변형 자동 인코더 인 격렬한 방법론을 기반으로하여 단일 및 커플 추론 모드 모두에서 신경 음색 전송을 용이하게합니다.
- Mlinmax -ML Sound 생성 및 Cycling '74의 Max 프로그래밍 언어 처리를위한 ML.
- AdlPlug -FM Chip Synthesizer - OPL & OPN - VST/LV2/독립형.
- SURGE- 신디사이저 플러그인 (이전에 Vember Audio Surge로 출시).
- CSTOP -CSTOP는 MAC 용 AU & VST3에서 사용할 수있는 테이프 정지 오디오 효과 플러그인입니다 (Windows가 곧 출시 될).
- Compufart- CMAJor의 방귀 사운드 신디사이저 및 알고리즘.
- PY -JS -MAX / MSP 용 Python3 외부.
- PD -LUA- PD에 대한 LUA 바인딩, LUA 5.3+에 대한 업데이트.
- Live 4 Life -SuperCollider를위한 공간 성능 도구.
- CAESARLOOPER -CAESARLOOPER는 Expert Sleepers의 Augustus Loop VST 플러그인의 슈퍼 콜 라이더 클론입니다.
- Dexed -DX7 FM Multi Plaform/Multi Format 플러그인.
- Max를위한 Leapmotion -Cycling'74 Max의 외부.
- Kontakt -Public- 기본 악기를위한 리소스 Kontakt Builders.
- Pylive- Python에서 쿼리 및 제어 Ableton Live.
- ML -LIB- 최대 및 순수한 데이터를위한 머신 러닝 라이브러리.
- Zengarden -Zengarden은 순수한 데이터 패치를 실행하기위한 독립형 라이브러리입니다.
- Max -SDK- Cycling '74에 의한 Max 용 소프트웨어 개발 키트.
- PD-HVCC- 무거운 컴파일러를 기반으로 PD를위한 ~ 유사 환경 생성.
- Kuroscillators- 결합 된 발진기의 네트워크를 사용하여 오디오 및 리듬 합성을위한 최대/MSP 객체.
- Ascii -Audio- ASCII 문자열에서 PCM 오디오를 생성합니다. 텍스트는 스펙트로 그램 이미지에서 볼 수 있습니다.
- BELAMINIMOOGEMUTION- 항 - 알리 아스 파형 및 MOOG 사다리 필터의 레크리에이션을 갖춘 미니무 아날로그 합성기의 디지털 구현.
- Edisyn- 신디사이저 패치 편집기.
- 사운드 합성 및 음향 분석을위한 Soundgen -R 패키지.
- 추기경 - 가상 모듈 식 합성기 플러그인.
- 플러터 에코 모델링 -이 저장소는 플러터 에코의 합성을위한 Matlab 데모를 제시합니다.
- 죄송합니다 - 죄송합니다. 이제 잎입니다! 오디오 합성 및 처리를위한 AC 라이브러리, Semi-op 스타일을 사용하여 작성된 임베디드 애플리케이션 용 AC 라이브러리.
- Sonic Pi 도구 -? Python의 명령 줄에서 Sonic Pi를 제어합니다.
- Sonicpi.vim -Vim 용 Sonic Pi 플러그인.
- Controlled -Chaos -Max4Live 유클리드 리듬 생성기.
- KPSTRONG- 이것은 벨라 하드웨어에서 실시간으로 C ++로 실행되는 Strummed Karplus-Strong 신디사이저의 구현입니다.
- NN_TILDE- 실시간 AI 오디오 처리를위한 최대 / PD 외부.
- Grainbow- 피치 감지를 사용하여 세분화 합성 또는 샘플링 후보를 선택하는 신디사이저.
- SignalFlow- 복잡한 음악 아이디어의 명확하고 간결한 표현을 위해 설계된 Python의 음합 합성 프레임 워크.
- Syntheon- 사운드 디자인 프로세스를 단순화하기위한 음악 신디사이저의 매개 변수 추론. 활력과 덱스를 지원합니다.
- RNBOJUCETEMPLATE- MAXMSP의 RNBO ~로 만든 최소 신디사이저를 포함한 JUCE 템플릿으로, RNBoobject의 상태를 현대의 AudioProcessortreeValuestate Fashion을 사용하여 Juce의 AudioProcessor에 캡슐화합니다.
- fluidsynth.clap- Clap -plugin Bridge to Fluidsynth.
- LaunchPadx- Novation LaunchPadx 컨트롤러를위한 간단한 슈퍼 콜 라이더 인터페이스.
- FAUG- FAUST에 작성된 DSP 부분이있는 Minimoog 모델 D 에뮬레이션. moog + faust = faug.
- 블록 - 블록은 Windows 및 MacOS 용 독립형, VST3 및 AU로 사용할 수있는 모듈 식 신시사이저입니다.
- Bessel의 트릭 -Bessel의 트릭은 주파수 변조 (FM) 합성을 사용하여 악기 사운드의 빠른 라이브 톤 변환을위한 신경 오디오 플러그인입니다.
^ 내용으로 돌아 가기 ^
게임 오디오 (GA)
- Chunity -Chuck in Unity. Unity에서 Chuck을 사용하기위한 플러그인. Unity Asset Store에서 사용할 수 있습니다.
- Raveler -Rave 모델을 실행하는 Wwise 플러그인으로 게임 오디오 설정에서 신경 오디오 합성을 통해 실시간 음색 전송을 가능하게합니다.
- LASP- 유니티를위한 저도의 오디오 신호 처리 플러그인.
- 불꽃 - 사신을위한 파이썬 포장지.
- 사신 키-리퍼를위한 VIM 바인딩.
- 사신 도구 - 시청각 사신 도구 저장소. 사신을위한 확장, 스크립트 및 도구 모음.
- Reawwise- Reawwise는 사운드 디자이너가 오디오 파일을 Reaper에서 Wwise 프로젝트로 전송하는 데 사용할 수있는 Reaper 확장입니다.
- WWISER- WWISE .BNK 파서, WWISE 엔진을 사용하여 게임의 오디오 처리를 지원합니다.
- WAAPI-TEXT-TIERCEECH- 외부 편집기를 사용한 텍스트 음성 연사 통합.
- Wwise -JSFXR (SFXR로부터 포팅 된) 용 JSFXR (WWISE 연결이 추가되어 전자에 포함됩니다.
- Soloud -Soleoud는 사용하기 쉽고 무료이며 휴대용 C/C ++ 게임용 오디오 엔진입니다.
- Audiotoys -Unity를위한 DSP 낙서.
- Dolby.io Unity 용 가상 월드 플러그인 - Dolby.io 가상 월드 플러그인을위한 Unity를위한 Dolby.io 공간 오디오를 쉽게 통합 할 수 있습니다.
- Dolby.io Unreal Engine 용 가상 월드 플러그인 - Dolby.io Virtual Worlds 플러그인을위한 Dolby.io 공간 오디오를 쉽게 통합 할 수 있습니다.
- 엔진 시뮬레이터 - 현실적인 오디오를 생성하는 연소 엔진 시뮬레이터.
- Jack Audio for Unity-이 라이브러리/플러그인을 사용하면 Unity3D와 Jackaudio 간의 멀티 채널 오디오 라우팅이 가능합니다.
- 복셀 플러그인 - 복셀 플러그인을 사용하면 Unreal Engine에서 완전히 볼륨, 완전히 파괴 가능한 무한한 세계를 만들 수 있습니다. 4.24, 4.25, 4.26, 4.27 및 Unreal 5와 호환됩니다.
- Rev Unity -Rev Unity 타코미터 데모.
- Unity Audio Manager (UAM) -? 재생/변경/정지/음소거/... 특정 상황 또는 이벤트에서 2D 및 3D를 통해 하나 또는 여러 사운드를 사용하는 데 사용됩니다. 암호.
- Oudio-Manager-for-Unity- 노드 기반 편집기에서 오디오 동작을 Unity에서 오디오 동작을 정의하고 실행하는 도구입니다.
- Unity wwise 주소 -이 패키지는 Unity AddressBable 시스템을 사용하여 Wwise 자산을 배포하고로드하는 것을 지원합니다.
- RFXGEN- 간단하고 사용하기 쉬운 FX 사운드 생성기.
- ULIPSYNC- 작업 시스템 및 버스트 컴파일러를 사용하여 Unity 용 MFCC 기반 LipSync 플러그인.
- Godot-FMOD 통합 -FMOD Studio Middleware 통합 및 Godot Game Engine의 API 바인딩 스크립팅.
- FMOD 오디오 시스템 - FMOD를 사용한 Unity 오디오 시스템.
- WW2OGG- 오디오 오케이티 wwise riff/rifx vorbis를 표준 OGG Vorbis로 변환하십시오.
- Cavern- Dolby Atmos 렌더링, 룸 보정, HRTF, 원 클릭 유니티 오디오 인수 등이있는 객체 기반 오디오 엔진 및 코덱 팩.
- RNBO Unity 오디오 플러그인 - Unity의 기본 오디오 플러그인을위한 RNBO 어댑터.
- rnbo metasounds -metasound 노드를 구현하는 rnbo 어댑터.
^ 내용으로 돌아 가기 ^
디지털 오디오 워크스테이션(DAW)
- Audacity-Audacity는 사용하기 쉬운 멀티 트랙 오디오 편집기이며 Windows, MacOS, GNU/Linux 및 기타 운영 체제 용 레코더입니다.
- Tracktion -Tracktion은 직관적 인 사용자 인터페이스와 강력한 오디오 편집 및 믹싱 기능을 갖춘 크로스 플랫폼 기반 오픈 소스 오디오 워크 스테이션입니다.
- Pro Tools Scripting SDK- Pro Tools Scripting SDK를 사용하면 언어 독립적 인 API를 사용하여 Pro Tools를 스크립트하여 Pro Tools에서 새로운 자동화 된 워크 플로를 생성 할 수 있습니다.
- REAPY- 리퍼의 리 스크립트 파이썬 API를위한 피닉 래퍼.
- Reaper -SDK -Reaper C/C ++ Extension SDK.
- Reascripts -Cockos Reaper를위한 X -raym의 무료 및 오픈 소스 스크립트.
- 리스크립트 - Cockos Reaper 스크립트.
- ReaBlink -Ableton Link 세션에 대한 재구성 바인딩 및 Ableton Link Test Plan Compliant 구현을 제공하는 Reaper Plug -In Extension.
- Voodoohop-Ableton-Tools- Ableton Live Harmony 및 Tempo Tools. Ableton은 음악적 조화의 직관적 인 시각화로 라이브를 늘리고 트랙의 템포 역학이 마스터 템포를 실시간으로 제어 할 수 있도록합니다.
- Abletonparsing- 파이썬에서 Ableton ASD 클립 파일 (워프 마커 등)을 구문 분석합니다.
- Ableton Push- 브라우저에서 Ableton Push와 함께 작업하기위한 라이브러리.
- PYFLP -FL 스튜디오 프로젝트 파일 파서.
- VST3SDK -VST 3 플러그인 SDK.
- TuneFlow -?+ 차세대 DAW로 음악 알고리즘 및 AI 모델 구축
- TuneFlow-Py-TuneFlow-Py는 TuneFlow 플러그인의 Python SDK입니다.
- TuneFlow-So-Vits-SVC 용 So-Vits-SVC 플러그인.
- 라듐 - 그래픽 음악 편집기. 차세대 추적기.
- Bass Studio -Bass Studio는 C ++로 작성된 DAW (Digital Audio Workstation)입니다. Windows, MacOS 및 Linux 빌드가 제공됩니다. VST2 및 CLAP 플러그인 형식 모두 지원됩니다.
- GridSound-Gridsound는 HTML5로 개발 된 진행중인 오픈 소스 디지털 오디오 워크 스테이션으로 새로운 웹 오디오 API를 사용하여보다 정확합니다.
- Meadowlark -Meadowlark는 Linux, Mac 및 Windows를위한 무료 및 오픈 소스 DAW (Digital Audio Workstation)입니다. 전 세계 아티스트를위한 강력한 녹음, 작곡, 편집, 사운드 디자인, 믹싱 및 마스터 링 도구이며 직관적이고 사용자 정의 할 수있는 것을 목표로합니다.
- Mixxx -Mixxx는 라이브 믹스를 수행하는 데 필요한 모든 것을 제공하는 무료 DJ 소프트웨어입니다.
- Hybrid-DJ-Set- 라이브 성능에서 가상 악기를 레이어링하기위한 순수한 데이터와 DJ 소프트웨어를 동기화합니다.
- LV2 -LV2는 오디오 시스템의 플러그인 표준입니다. 플러그인의 경우 확장 가능한 C API와 플러그인, 메타 데이터 및 기타 리소스가 포함 된 자체 포함 된 "번들"디렉토리의 형식을 정의합니다.
- Ardor- Linux, MacOS 및 Windows에서 레코드, 편집 및 믹스.
- LMMS -LMMS는 FL Studio®와 같은 상업용 프로그램에 대한 무료 크로스 플랫폼 대안으로 컴퓨터로 음악을 제작할 수 있습니다. 여기에는 멜로디와 비트의 생성, 사운드의 합성 및 혼합, 샘플 배열이 포함됩니다.
- QTRANTOR -QTRANTOR는 QT 프레임 워크와 함께 C ++로 작성된 오디오/MIDI 멀티 트랙 시퀀서 응용 프로그램입니다. 대상 플랫폼은 오디오 용 잭 오디오 연결 키트 (Jack)와 MIDI의 ALSA (Advanced Linux 사운드 아키텍처)가 상당히 기능을 갖춘 Linux 데스크톱 오디오 워크 스테이션 GUI로 진화하는 주요 인프라 인 Linux입니다. 개인 홈 스튜디오.
- Smart-Audio-Mixer- C ++/Juce를 사용하는 최신 디지털 오디오 워크 스테이션 (DAW).
- OpenVino ™ AI Audacity 용 플러그인 - AI -ENABLED 효과, 발전기 및 AUDAICATION을위한 분석기 세트.
- JACKDAW-AVID와 같은 비선형 비디오 편집자로부터 일부 디자인 신호를받는 박탈 된 키보드 중심 디지털 오디오 워크 스테이션 (DAW).
- OSSIA 점수 - 비디오 및 하드웨어 컨트롤 (OSC, MIDI, DMX, NDI, MQTT, COAP 등)뿐만 아니라 오디오 (VST, VST3, LV2, JSFX 등)를 지원하는 중개 시퀀서
^ 내용으로 돌아 가기 ^
공간 오디오 (SA)
- Spaudiopy- 공간 오디오 파이썬 패키지. 초점 (지금까지)은 공간 오디오 인코더 및 디코더에 있습니다. 이 패키지에는 예를 들어 구형 고조파 처리 및 VBAP 및 Allrad와 같은 라우드 스피커 디코더의 바이노 링크 렌더링이 포함됩니다.
- spatial_audio_framework (SAF)-SAF (spatial_audio_framework)는 C/C ++의 공간 오디오 관련 알고리즘 및 소프트웨어를 개발하기위한 오픈 소스 및 크로스 플랫폼 프레임 워크입니다. 원래이 분야의 연구원을위한 자원으로 의도 된이 프레임 워크는 점차 다수의 별개의 모듈을 포함하는 다소 크고 잘 문서화 된 코드베이스로 성장했습니다. 각 모듈의 공간 오디오 (예 : 앰비 닉 인코딩/디코딩, 구형 어레이 프로세싱, 진폭 패닝, HRIR 처리, 룸 시뮬레이션 등)를 타겟팅합니다.
- HO-SIRR- 고차 공간 임펄스 응답 렌더링 (HO-SIRR)은 렌더링 방법으로, 입력 구형 고조파 (Ambisonic/B-Format) RIRS 임의 순서의 RIRS를 사용하여 출력 라우드 스피커 배열 임펄스 응답 (RIRS)을 합성 할 수 있습니다. 고차 공간 임펄스 응답 렌더링 (HO-SIRR) 알고리즘의 MATLAB 구현; 라우드 스피커를 통해 양손을 재현하기위한 대안적인 접근법.
- Spatgris -Spatgris는 실제 스피커 설정의 제약으로부터 작곡가와 사운드 디자이너를 해방시키는 사운드 공간화 소프트웨어입니다. SPATGRIS로 배포 된 ControlGris 플러그인을 사용하면 풍부한 공간 궤적을 DAW에서 직접 구성하고 모든 스피커 레이아웃에서 실시간으로 재현 할 수 있습니다. 빠르고 안정적이며 크로스 플랫폼이며 배우기 쉽고 이미 알고있는 도구와 함께 작동합니다. Spatgris는 Quad, 5.1 또는 Octophonic rings와 같은 2D 레이아웃 및 스피커 돔, 콘서트 홀, 극장 등과 같은 3D 레이아웃을 포함한 모든 스피커 설정을 지원합니다. 프로젝트는 바이노 럴 헤드 관련 전송 기능 또는 간단한 스테레오를 사용하여 스테레오와 혼합 할 수도 있습니다. 패닝.
- Steam Audio- Steam Audio는 환경 및 청취자 시뮬레이션을 통합하는 모든 기능을 갖춘 오디오 솔루션을 제공합니다. HRTF는 VR의 침지를 크게 향상시킨다; 물리 기반 사운드 전파는 사운드가 가상 환경과 어떻게 상호 작용하는지 지속적으로 재현함으로써 청각 적 몰입을 완료합니다.
- SPATIALAUDIOKIT -SPATIALAUDIOKIT는 Apple 플랫폼에서 공간 오디오 앱의 작성을 용이하게하는 신속한 패키지입니다.
- libmysofa- 더 나은 hrtfs를 얻을 수있는 AES 소파 파일의 리더.
- Omnitone -Omnitone : 웹에서 공간 오디오 렌더링. Omnitone은 웹 오디오 API에 작성된 Ambisonic Decoding 및 Binaural 렌더링의 강력한 구현입니다. 렌더링 프로세스는 Web Audio API (Gainnode 및 Convolver)의 빠른 기본 기능으로 구동되어 최적의 성능을 보장합니다. Omnitone의 구현은 Google Spatial Media Specification 및 Sadie의 바이노 럴 필터를 기반으로합니다. 또한 웹 용 공명 오디오 SDK에 전력을 공급합니다.
- Mach1 Spatial -Mach1 Spatial SDK에는 API가 포함되어있어 개발자에게 오디오 스트림 및/또는 재생에서 공간 오디오 렌더링을 인코딩하거나 PAN을 사용하여 애플리케이션을 디자인 할 수있는 응용 프로그램에 오디오 스트림 및/또는 재생 및 해독 할 수있는 응용 프로그램에 사용자의 올바른 스테레오 출력 합계를 디코딩하기 위해 Mach1spatial 8channel Spatial Audio Mix를 디코딩하고 Mach1spatial 8channel Spatial Audio Mix를 디코딩합니다. 현재 방향. 또한 MACH1 공간 SDK를 사용하면 Mach1spatial 또는 Mach1horizon VVBP 형식으로 서라운드/공간 오디오 믹스를 안전하게 변환 할 수 있습니다.
- 사운드 스페이스 - 사운드 스페이스는 시청각 구현 AI 연구를위한 현실적인 음향 시뮬레이션 플랫폼입니다. 시청각 탐색, 시청각 탐사에서 반향 탐사 및 시청각 바닥 계획 재건에 이르기 까지이 플랫폼은 구체화 된 비전 연구를 광범위한 주제로 확장합니다.
- Visual Acoustic Matching- 시각적 어쿠스틱 매칭 작업을 소개합니다. 여기서 오디오 클립은 대상 환경에서 기록 된 것처럼 소리가납니다. 대상 환경의 이미지와 소스 오디오의 파형이 주어지면, 목표는 가시 지오메트리 및 재료에 의해 제안 된 대상 룸 음향과 일치하도록 오디오를 재 합성하는 것입니다.
- 빠르게-이것은 주어진 음향 환경에 대한 실내 임펄스 응답 (RIRS)을 생성하기위한 신경망 기반 빠른 확산실 임펄스 응답 생성기 (빠른 RIR)의 공식적 구현입니다.
- Pygsound- 최첨단 기하학적 사운드 전파 엔진을 기반으로 한 임펄스 응답 생성.
- RIRIS -RIRIS는 빠른 전단 변환을 사용한 룸 임펄스 응답 보간의 MATLAB 구현입니다.
- Parallel-Reverb-Raytracer- 래스터 그래픽 조명 기술의 영향을받는 임펄스 응답 (리버브)을위한 광선 트레이서.
- 3D 공간에 배치 된 가상 발진기 객체가있는 신디 3D- VST 신디사이저.
- libbasicsofa- 음향 (SOFA) 파일에 대한 공간적으로 지향적 인 형식을 읽기위한 매우 기본적인 라이브러리, 쌍부경 오디오 재생산을위한 HRTF 및/또는 BRIRS를 저장하기위한 형식입니다.
- MESH2HRTF- 헤드 관련 전송 기능의 수치 계산을위한 열린 소프트웨어.
- Openal Soft -Openal Soft는 Openal 3D 오디오 API의 소프트웨어 구현입니다.
- soundscape_ir -soundscape_ir는 사운드 스케이프 레코딩 분석을 돕기 위해 사운드 스케이프 정보 검색의 파이썬 기반 도구 상자입니다.
- 사운드 바디 - 우리는 헤드셋 마이크와 바디 포즈에서 입력으로 인체의 정확한 3D 사운드 필드를 생성 할 수있는 모델을 제시합니다.
- Soundscapy- 사운드 스케이프 평가를 분석하고 시각화하기위한 파이썬 라이브러리.
- Ambix- 크로스 플랫폼 Ambisonic VST, LV2 플러그인, Reaper 또는 Ardor와 같은 디지털 오디오 워크 스테이션 또는 Jack 독립형 응용 프로그램에 사용할 수있는 가변 순서가 있습니다.
- HOAC- 공간 오디오 용 고차 앰비 닉 코드.
- OpenSoundLab -OpenSoundLab (OSL)은 Meta Quest의 패스 스루 모드를 사용하여 혼합 현실 경험에서 3 차원 패치를 만듭니다.
- 2- 사운드? -공간 공간에서 공간적 사운드 제로 샷.
^ 내용으로 돌아 가기 ^
웹 오디오 처리 (WAP)
- WEBRTC 오디오 처리 - WEBRTC 오디오 처리의 파이썬 바인딩.
- Webchuck -Webchuck은 강력하게 기소 된 오디오 프로그래밍 언어 인 Chuck을 웹에 가져옵니다! Chuck의 C ++ 소스 코드는 WEBASSEMBLY (WASM)로 컴파일되었으며 Web Audio API의 AudioworkletNode 인터페이스를 통해 실행됩니다.
- midi.js-? 웹에서 MIDI-APP을 쉽게 만들 수 있도록 인생을 쉽게 만들 수 있습니다. 메모리 인식 또는 트립 효과 생성을 위해 Synesthesia를 앱에 프로그램 할 수있는 라이브러리를 포함합니다. 기타,베이스, 드럼, ect의 사운드 폰트를 변환하십시오. 브라우저에서 읽을 수있는 코드로. Midi.js는 함께 연결되어 있으며 MIDI를 브라우저로 가져 오는 프레임 워크를 기반으로합니다. Jasmid와 결합 하여이 데모와 유사한 Web-Radio MIDI 스트림 또는 3.js, sparks.js 또는 GLSL과 비슷한 오디오/시각적 실험을 만듭니다.
- 웹 음성 프로세서 - 웹 브라우저에서 실시간 음성 처리를위한 라이브러리.
- Tone.js -Tone.js는 브라우저에서 대화식 음악을 만드는 웹 오디오 프레임 워크입니다. Tone.js의 아키텍처는 웹 기반 오디오 애플리케이션을 만드는 음악가와 오디오 프로그래머 모두에게 친숙한 것을 목표로합니다. 높은 수준에서 Tone은 이벤트를 동기화 및 일정화하기위한 글로벌 전송 및 사전 제작 신디사이저 및 효과와 같은 일반적인 DAW (Digital Audio Workstation) 기능을 제공합니다. 또한 Tone은 고성능 빌딩 블록을 제공하여 자체 신디사이저, 효과 및 복잡한 제어 신호를 만듭니다.
- Audio.js -Audiojs는 HTML5의
<audio>
태그를 어디서나 사용할 수있는 드롭 인 JavaScript 라이브러리입니다. 사용 가능한 경우 Native <audio>
사용하고 보이지 않는 플래시 플레이어로 돌아가 다른 브라우저를 모방합니다. 또한 중고 표준 CSS 스타일로 만들 수있는 모든 브라우저에 일관된 HTML 플레이어 UI를 제공합니다. - Peaks.js -Audio Waveforms와 상호 작용하기위한 JavaScript UI 구성 요소.
- Howler.js- 최신 웹용 JavaScript 오디오 라이브러리. Howler.js는 모든 플랫폼에서 JavaScript의 오디오 작업을 쉽고 신뢰할 수있게합니다. Howler.js는 최신 웹의 오디오 라이브러리입니다. 웹 오디오 API로 기본적으로 HTML5 오디오로 돌아갑니다. 이를 통해 JavaScript의 오디오 작업을 모든 플랫폼에서 쉽고 신뢰할 수 있습니다.
- Coffeecollider -Coffeecollider는 HTML5의 실시간 오디오 합성 및 알고리즘 구성을위한 언어입니다. 이 프로젝트의 개념은 "CoffeeScript 쓰기로 설계되었으며 SuperCollider로 처리됩니다."
- pico.js- 크로스 플랫폼의 오디오 프로세서.
- Timbre.js -Timbre.js는 jQuery 또는 node.js와 같은 최신 JavaScript의 방식으로 웹 앱에서 기능적 처리 및 오디오 합성을 제공합니다. 전체 오디오 렌더링을위한 그래프 기반 라우팅을 정의하기 위해 함께 연결된 많은 t-object (공식 : Timbre 객체)가 있습니다. 이 프로젝트의 목표는 웹의 차세대 오디오 처리에 접근하는 것이 목표입니다.
- Rythm.js- 페이지 춤을주는 JavaScript 라이브러리.
- p5.sound -p5.sound는 오디오 입력, 재생, 분석 및 합성을 포함한 웹 오디오 기능으로 P5를 확장합니다.
- WADJS- 오디오 조작을위한 JavaScript 라이브러리. 웹 오디오 DAW. 동적 사운드 합성을 위해 웹 오디오 API를 사용하십시오. 귀에 대한 jQuery와 같습니다.
- Ableton.js -Ableton.js는 node.js를 사용하여 인스턴스 또는 Ableton 인스턴스를 제어 할 수 있습니다. 가능한 한 많은 기능을 다루려고합니다.
- sound.js- "sound.js"는 미세 원자름으로 게임 및 대화식 응용 프로그램에 대한 음향 효과 및 음악을로드, 재생 및 생성 할 수 있습니다. 매우 작습니다 : 800 줄 미만의 코드 및 종속성이 없습니다. 대화식 데모를 시도하려면 여기를 클릭하십시오. You can use it as-as, or integrate it into your existing framework.
- tuna - An audio effects library for the Web Audio API.
- XSound - XSound gives Web Developers Powerful Audio Features Easily !
- Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
- AudioMass - Free full-featured web-based audio & waveform editing tool.
- WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
- DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
- WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
- web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
- Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
- Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
- WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
- Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
- JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
- tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
- wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
- Aurora.js - JavaScript audio decoding framework.
- Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
- Pitch detection - Pitch detection in Web Audio using autocorrelation.
- SAT - Streaming Audiotransformers for online Audio tagging.
- WebAudioXML - An XML syntax for building Web Audio API applications.
- FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
- ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
- wave-resampler - PCM audio resampler written entirely in JavaScript.
- useSound - A React Hook for playing sound effects.
- Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
- audio-worklet-loader - Audio Worklet loader for webpack.
^ Back to Contents ^
Music Information Retrieval (MIR)
- Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
- Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
- Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
- mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
- Partitura - A python package for handling modern staff notation of music.
- Midifile - C++ classes for reading/writing Standard MIDI Files.
- MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
- mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
- Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
- Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
- AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
- Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
- crema - convolutional and recurrent estimators for music analysis.
- MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
- MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
- Music Exploration - App to explore latent spaces of music collections.
- LooPy - A data framework for music information retrieval focusing on electronic music.
- Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
- carat - Computer-aided rhythm analysis toolbox.
- miditoolkit - A python package for working with MIDI data.
- Midly - A feature-complete MIDI parser and writer focused on speed.
- libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
- PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
- solfege.ai ? - Detect solfege hand signs using machine learning ?
- libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
- jams - A JSON Annotated Music Specification for Reproducible MIR Research.
- Piano Trainer - A music practice program with MIDI support.
- quickly - A LilyPond library for python (slated to become the successor of python-ly).
- ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
- Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
- Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
- Parangonar - Parangonar is a Python package for note alignment of symbolic music.
- musicparser - Deep learning based dependency parsing for music sequences.
- musif - Music Feature Extraction and Analysis.
- pycompmusic - Tools to help researchers work with Dunya and CompMusic.
- CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
- Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
- pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
- PyABC - Python package for parsing and analyzing ABC music notation.
- mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
- MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
- iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
- Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
- musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
- midi-db - ? Data concerning MIDI standards.
^ Back to Contents ^
Music Generation (MG)
- isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
- MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
- music21 - music21 is a Toolkit for Computational Musicology.
- Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
- MusicLM - MusicLM: Generating Music From Text.
- SingSong - SingSong: Generating musical accompaniments from singing.
- Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
- Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
- RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
- riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
- Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
- Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
- MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
- Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
- MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
- SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
- Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
- Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
- Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
- libatm -
libatm
is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli
project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here. - Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
- MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
- PyMusicLooper - A script for creating seamless music loops, with play/export support.
- ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
- linuxwave - Generate music from the entropy of Linux ??
- Chord2Melody - Automatic Music Generation AI.
- symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
- AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
- WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
- DeBussy - Solo Piano Music AI Implementation.
- Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
- Somax 2 - Somax 2 is an application for musical improvisation and composition.
- Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
- LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
- Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
- JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
- Anticipatory - Anticipatory Music Transformer.
- MIDI Language Model - Generative modeling of MIDI files.
- modulo - A Toolkit for Tinkering with Digital Musical Instruments.
- MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
- FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.
^ Back to Contents ^
Speech Recognition (ASR)
- Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
- PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
- NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
- Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
- WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
- Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
- Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
- Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
- audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
- Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
- SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
- ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
- Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
- Leon - ? Leon is your open-source personal assistant.
- DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
- SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
- annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
- PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
- Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
- Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
- 3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
- FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
- Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
- dejavu - Audio fingerprinting and recognition in Python.
- Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
- OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
- MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
- UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
- paasr - Privacy Aware Automatic Speech Recognition.
- whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
- DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
- pypinyin - A Python tool for converting Chinese character to Pinyin.
- PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
- KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
- Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
- SALMONN - Speech Audio Language Music Open Neural Network.
- PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
- WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
- Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
- PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
- Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
- TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
- Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
- SwiftSpeech - A speech recognition framework designed for SwiftUI.
- SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.
^ Back to Contents ^
Speech Synthesis (TTS)
- VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
- SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
- VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
- NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
- WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
- FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
- MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
- HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
- edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
- Vocode - Vocode is an open-source library for building voice-based LLM applications.
- TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
- Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
- TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
- libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
- SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
- Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
- Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
- YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
- ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
- WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
- Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
- Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
- Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
- TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
- xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
- PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
- GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (몇몇 샷 음성 복제).
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- RAD-MMM - A TTS model that makes a speaker speak new languages.
- BUD-E - A conversational and empathic AI Voice Assistant.
- Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
- lina-speech - linear attention based text-to-speech.
- ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
- RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
- StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
- ChatTTS - ChatTTS is a generative speech model for daily dialogue.
- StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
- Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
- MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
- MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
- OpenVoice - Instant voice cloning by MyShell.
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
- CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
- tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.
^ Back to Contents ^
Singing Voice Synthesis (SVS)
- NNSVS - Neural network-based singing voice synthesis library for research.
- Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
- OpenUtau - Open singing synthesis platform / Open source UTAU successor.
- so-vits-svc - SoftVC VITS Singing Voice Conversion.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
- Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
- Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
- DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
- lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
- Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
- VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
- midi2voice - Singing Synthesis from MIDI file.
- MoeGoe - Executable file for VITS inference.
- Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
- WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
- clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
- OpenVoice - Instant voice cloning by MyShell.
^ Back to Contents ^