Ferramentas de desenvolvimento de áudio (ADT)
Esta é uma lista de ferramentas de desenvolvimento de som, áudio e música que contém aprendizado de máquina, geração de áudio, processamento de sinal de áudio, síntese de som, áudio de jogos, estação de trabalho de áudio digital, áudio espacial, recuperação de informações musicais, geração de música, reconhecimento de fala, síntese de fala, cantando síntese de voz e muito mais.
Índice
- Aprendizado de máquina (ML)
- Geração de Áudio (AG)
- Processamento de sinal de áudio (ASP)
- Síntese Sonora (SS)
- Áudio do jogo (GA)
- Estação de trabalho de áudio digital (DAW)
- Áudio Espacial (SA)
- Processamento de áudio da Web (WAP)
- Recuperação de informações musicais (MIR)
- Geração Musical (MG)
- Reconhecimento de fala (ASR)
- Síntese de Fala (TTS)
- Síntese de Voz Cantada (SVS)
Lista de Projetos
Aprendizado de máquina (ML)
- librosa - Librosa é um pacote python para análise de música e áudio. Ele fornece os blocos de construção necessários para criar sistemas de recuperação de informações musicais.
- Essentia - Essentia é uma biblioteca C++ de código aberto para análise de áudio e recuperação de informações musicais baseadas em áudio, lançada sob a licença Affero GPLv3. Ele contém uma extensa coleção de algoritmos reutilizáveis que implementam funcionalidade de entrada/saída de áudio, blocos de processamento de sinal digital padrão, caracterização estatística de dados e um grande conjunto de descritores musicais espectrais, temporais, tonais e de alto nível. Biblioteca C++ para análise, descrição e síntese de áudio e música, incluindo ligações Python.
- DDSP - DDSP: Processamento de Sinais Digitais Diferenciados. DDSP é uma biblioteca de versões diferenciáveis de funções DSP comuns (como sintetizadores, modeladores de ondas e filtros). Isso permite que esses elementos interpretáveis sejam usados como parte de um modelo de aprendizagem profunda, especialmente como camadas de saída para geração de áudio.
- MIDI-DDSP - MIDI-DDSP: Controle Detalhado de Performance Musical via Modelagem Hierárquica. MIDI-DDSP é um modelo hierárquico de geração de áudio para sintetizar MIDI expandido de DDSP.
- DDSP-VST - Sintetizador e efeito neural DDSP em tempo real. Plug-ins VST3/AU e aplicativos de desktop desenvolvidos usando a estrutura JUCE e DDSP.
- torchsynth - Um sintetizador modular opcional para GPU em pytorch, 16200x mais rápido que em tempo real, para pesquisadores de ML de áudio.
- aubio - aubio é uma ferramenta desenvolvida para a extração de anotações de sinais de áudio. Seus recursos incluem segmentar um arquivo de som antes de cada um de seus ataques, realizar detecção de tom, tocar a batida e produzir fluxos midi de áudio ao vivo.
- audioFlux - audioFlux é uma biblioteca de ferramentas de aprendizado profundo para análise de áudio e música e extração de recursos. Ele suporta dezenas de métodos de transformação de análise de tempo-frequência e centenas de combinações correspondentes de recursos no domínio do tempo e no domínio da frequência. Ele pode ser fornecido para redes de aprendizagem profunda para treinamento e é usado para estudar diversas tarefas na área de áudio, como Classificação, Separação, Recuperação de Informação Musical (MIR) e ASR, etc.
- Polymath - Polymath usa aprendizado de máquina para converter qualquer biblioteca de música (por exemplo, do disco rígido ou do YouTube) em uma biblioteca de amostras de produção musical. A ferramenta separa automaticamente as músicas em hastes (batidas, baixo, etc.), quantiza-as no mesmo andamento e grade de batidas (por exemplo, 120bpm), analisa a estrutura musical (por exemplo, verso, refrão, etc.), tom (por exemplo, C4, E3 , etc.) e outras informações (timbre, volume, etc.) e converte áudio para midi. O resultado é uma biblioteca de amostras pesquisável que agiliza o fluxo de trabalho para produtores musicais, DJs e desenvolvedores de áudio de ML.
- IPython - IPython fornece um rico kit de ferramentas para ajudá-lo a aproveitar ao máximo o uso interativo do Python.
- torchaudio - uma biblioteca de áudio para PyTorch. Manipulação e transformação de dados para processamento de sinais de áudio, com tecnologia PyTorch.
- TorchLibrosa - implementação PyTorch do Librosa.
- torch-audiomentations - Aumento rápido de dados de áudio no PyTorch. Inspirado em audiomentações. Útil para aprendizado profundo.
- PyTorch Audio Augmentations - Biblioteca de aumento de dados de áudio para PyTorch para áudio no domínio do tempo.
- Asteroid - Asteroid é um kit de ferramentas de separação de fontes de áudio baseado em Pytorch que permite experimentação rápida em conjuntos de dados comuns. Ele vem com um código-fonte que suporta uma grande variedade de conjuntos de dados e arquiteturas, e um conjunto de receitas para reproduzir alguns artigos importantes.
- Kapre - Kapre: pré-processadores de áudio Keras. Pré-processadores de áudio Keras - calcula STFT, InverseSTFT, Melspectrogram e outros em GPU em tempo real.
- praudio - Estrutura de pré-processamento de áudio para aplicações de áudio de Deep Learning.
- automix-toolkit - Modelos e conjuntos de dados para treinar modelos de mixagem automática de aprendizado profundo.
- DeepAFx - DeepAFx: efeitos de áudio profundos. Os efeitos de processamento de sinal de áudio (FX) são usados para manipular as características do som em uma variedade de mídias. Muitos FX, entretanto, podem ser difíceis ou tediosos de usar, principalmente para usuários novatos. Em nosso trabalho, pretendemos simplificar a forma como os efeitos de áudio são usados, treinando uma máquina para usar o FX diretamente e realizar tarefas automáticas de produção de áudio. Ao utilizar ferramentas familiares e existentes para processar e sugerir parâmetros de controlo, podemos criar um paradigma único que combina o poder da IA com o controlo criativo humano para capacitar os criadores.
- nnAudio - nnAudio é uma caixa de ferramentas de processamento de áudio que usa a rede neural convolucional PyTorch como back-end. Ao fazer isso, espectrogramas podem ser gerados a partir de áudio em tempo real durante o treinamento da rede neural e os kernels de Fourier (por exemplo, ou kernels CQT) podem ser treinados.
- WavEncoder - WavEncoder é uma biblioteca Python para codificação de sinais de áudio, transformações para aumento de áudio e treinamento de modelos de classificação de áudio com backend PyTorch.
- SciPy - SciPy (pronuncia-se "Sigh Pie") é um software de código aberto para matemática, ciências e engenharia. Inclui módulos para estatística, otimização, integração, álgebra linear, transformadas de Fourier, processamento de sinais e imagens, solucionadores ODE e muito mais.
- pyAudioAnalysis - Biblioteca de análise de áudio Python: extração, classificação, segmentação e aplicações de recursos.
- Mutagen - Mutagen é um módulo Python para lidar com metadados de áudio. Suporta arquivos de áudio ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG e AIFF. Todas as versões do ID3v2 são suportadas e todos os quadros ID3v2.4 padrão são analisados. Ele pode ler cabeçalhos Xing para calcular com precisão a taxa de bits e o comprimento dos MP3s. As tags ID3 e APEv2 podem ser editadas independentemente do formato de áudio. Ele também pode manipular fluxos Ogg em nível de pacote/página individual.
- LibXtract - LibXtract é uma biblioteca simples, portátil e leve de funções de extração de recursos de áudio. O objetivo da biblioteca é fornecer um conjunto relativamente exaustivo de recursos primários de extração que são projetados para serem 'em cascata' para criar hierarquias de extração.
- dejavu - Impressão digital e reconhecimento de áudio em Python. Dejavu pode memorizar áudio ouvindo-o uma vez e tirando suas impressões digitais. Então, ao reproduzir uma música e gravar a entrada do microfone ou ler do disco, o Dejavu tenta comparar o áudio com as impressões digitais mantidas no banco de dados, retornando a música que está sendo tocada.
- Matchering - ?️ Correspondência e masterização de áudio de código aberto. Matchering 2.0 é um novo aplicativo da Web em contêiner e uma biblioteca Python para correspondência e masterização de áudio.
- TimeSide - TimeSide é uma estrutura python que permite análise de áudio de baixo e alto nível, imagem, transcodificação, streaming e rotulagem. Sua API de alto nível foi projetada para permitir processamento complexo em conjuntos de dados muito grandes de quaisquer ativos de áudio ou vídeo com uma arquitetura de plug-in, um back-end escalonável seguro e um front-end da web dinâmico e extensível.
- Meyda - Meyda é uma biblioteca de extração de recursos de áudio Javascript. Meyda suporta extração de recursos offline e extração de recursos em tempo real usando a API de áudio da Web. Escrevemos um artigo sobre isso, que está disponível aqui.
- Audiomentations - Uma biblioteca Python para aumento de dados de áudio. Inspirado em albumentações. Útil para aprendizado profundo. Funciona na CPU. Suporta áudio mono e áudio multicanal. Pode ser integrado em pipelines de treinamento, por exemplo, Tensorflow/Keras ou Pytorch. Ajudou pessoas a obter resultados de classe mundial em competições Kaggle. É usado por empresas que fabricam produtos de áudio de última geração.
- soundata - biblioteca Python para baixar, carregar e trabalhar com conjuntos de dados de som.
- auraloss – Uma coleção de funções de perda com foco em áudio no PyTorch.
- Neutone - plugin e comunidade de áudio AI. Preenchendo a lacuna entre a pesquisa em IA e a criatividade
- Waveformer - Uma arquitetura eficiente para extração de som alvo em tempo real.
- EfficientAT - Marcação de áudio eficiente em grande escala. Fornecemos modelos pré-treinados AudioSet prontos para treinamento downstream e extração de incorporações de áudio.
- EfficientAT_HEAR - Avalie modelos EfficientAT no benchmark de avaliação holística de representações de áudio.
- VAD-python - Detector de atividade de voz em Python. Código Python para aplicar detector de atividade de voz ao arquivo wave. Detector de atividade de voz baseado na relação entre a energia na banda de fala e a energia total.
- Diffsynth - Um sintetizador musical diferenciável em PyTorch.
- DDSP em tempo real - DDSP em tempo real (streaming) em PyTorch compatível com neutone.
- pc-ddsp - Vocoders DDSP controláveis de pitch.
- SSSSM-DDSP - Combinação de som de sintetizador semissupervisionado com DSP diferenciável.
- GOLF - Um vocoder neural baseado em DDSP.
- audacitorch - Wrappers PyTorch para usar seu modelo no Audacity!
- Scyclone - Scyclone é um plugin de áudio que utiliza tecnologia de transferência de timbre neural para oferecer uma nova abordagem à produção de áudio.
- Scyclone AI - Crie predefinições para Scyclone: um plug-in de transferência de timbre neural em tempo real.
- Programação de sintetizador automático multitarefa - Este é o código para o projeto de programação de sintetizador automático multi VST.
- NeuralNote - Plugin de áudio para transcrição de áudio para MIDI usando aprendizado profundo.
- AudioDec - um codec de áudio neural de alta fidelidade e streaming de código aberto.
- PaSST - Treinamento Eficiente de Transformadores de Áudio com Patchout.
- Speech_data_augment – Um resumo dos algoritmos de aumento de dados de fala.
- AugLy - Uma biblioteca de aumento de dados para áudio, imagem, texto e vídeo.
- NeuraFuzz - Plugin de áudio neural treinado em design de circuito fuzz analógico personalizado.
- Ultimate Vocal Remover GUI - GUI para um Vocal Remover que usa redes neurais profundas.
- Frechet Audio Distance - Uma biblioteca leve para cálculo de Frechet Audio Distance.
- LAPE - Uma estrutura unificada para processamento e avaliação de áudio de baixo recurso (pré-treinamento SSL e ajuste fino downstream).
- Azure SDK para Python – Este repositório destina-se ao desenvolvimento ativo do Azure SDK para Python.
- Panotti - Um classificador de áudio de rede neural multicanal usando Keras.
- Allie - Allie é uma estrutura para construir modelos de aprendizado de máquina a partir de arquivos de áudio, texto, imagem, vídeo ou .CSV.
- Torchplugins - Plugins Max/MSP, PureData e Unity para carregar modelos Pytorch.
- aeiou - (ML) utilitários de E/S de engenharia de áudio.
- BirdNET-Analyzer - Analisador BirdNET para processamento científico de dados de áudio.
- spring-reverb-dl-models - Modelagem Analógica Virtual do Spring Reverb com Deep Learning.
- EVAR ~ - EVAR ~ Pacote de avaliação para representações de áudio.
- Julius - DSP rápido baseado em PyTorch para sinais de áudio e 1D.
- NeuralDX7 - Experimentos aleatórios de aprendizado de máquina relacionados ao clássico Yamaha DX7.
- HANCE - HANCE oferece técnicas de processamento de sinal de alta qualidade desenvolvidas por especialistas em aprendizado de máquina, engenheiros de som e especialistas em processamento de áudio. Nossa tecnologia foi projetada para fornecer aos usuários a melhor experiência de áudio possível, removendo ruído, reverberação e outras deficiências de sinal.
- IDEAW - Marca d'água de áudio neural robusta com incorporação dupla invertível.
- SyNEThesia - SyNEThesia é um visualizador de música e som baseado em aprendizagem profunda e um jogo de palavras sobre Sinestesia, uma condição neurológica em que se percebe um estímulo de várias maneiras (por exemplo, vendo um som).
- Voxaboxen - Voxaboxen é uma estrutura de aprendizado profundo projetada para encontrar os horários de início e término de eventos sonoros (possivelmente sobrepostos) em uma gravação.
- vocal-separate - Uma ferramenta extremamente simples para separar vocais e música de fundo, completamente localizada para operação web, usando modelos de 2 hastes/4 hastes/5 hastes.
- Aprimoramento de fala - Aprendizado profundo para eliminação de ruído de áudio.
- SNAC - Multi-Scale Neural Audio Codec (SNAC) comprime áudio de 44,1 kHz em códigos discretos com uma taxa de bits baixa.
- Supervoice GPT - Um modelo GPT que converte texto em fonemas com durações adequadas para alimentar o sintetizador de voz.
- AudioEditing - Edição de áudio sem supervisão e baseada em texto Zero-Shot usando inversão DDPM.
- MAX-Audio-Classifier - IBM Developer Model Asset Exchange: Classificador de Áudio.
- anira - uma arquitetura para inferência de redes neurais em aplicações de áudio em tempo real.
- FakeSound - Detecção geral de áudio Deepfake.
- Audio Mamba - Modelo de Espaço de Estado Bidirecional para Aprendizagem de Representação de Áudio.
- SSAMBA - SSAMBA: Aprendizagem de representação de áudio auto-supervisionada com modelo de espaço de estado Mamba.
- SLAM-LLM - SLAM-LLM é um kit de ferramentas de aprendizado profundo que permite que pesquisadores e desenvolvedores treinem modelos multimodais de linguagem grande personalizados (MLLM), com foco no processamento de fala, linguagem, áudio e música.
- MIDI2vec - MIDI2vec: Aprendendo Embeddings para Representações de Espaço Vetorial MIDI.
^ Voltar ao conteúdo ^
Geração de Áudio (AG)
- AudioLCM - Geração de Texto para Áudio com Modelos de Consistência Latente.
- Auffusion - Auffusion: Aproveitando o poder da difusão e grandes modelos de linguagem para geração de texto para áudio.
- Audiobox - Audiobox: Geração de áudio unificada com prompts em linguagem natural.
- Amphion - Amphion: um kit de ferramentas de geração de áudio, música e fala de código aberto.
- Nendo - O conjunto de ferramentas de áudio Nendo AI.
- Áudio estável - Difusão de áudio latente condicionada por temporização rápida.
- WavJourney - Criação de Áudio Composicional com Grandes Modelos de Linguagem.
- Audiocraft - Audiocraft é uma biblioteca PyTorch para pesquisas de aprendizado profundo em geração de áudio.
- vschaos2 - vschaos2: síntese de áudio neural vintage.
- Ressonador Neural - Síntese Sonora de Corpo Rígido com Ressonadores Modais Diferenciados.
- SoundStorm - SoundStorm: Geração de áudio paralelo eficiente.
- SpeechGPT - SpeechGPT: Capacitando grandes modelos de linguagem com habilidades de conversação intermodais intrínsecas.
- CLAPSpeech - CLAPSpeech: Aprendendo Prosódia a partir do Contexto de Texto com Pré-Treinamento de Linguagem-Áudio Contrastivo.
- AudioGPT - AudioGPT: Compreendendo e gerando fala, música, som e Talking Head.
- Bark - Bark é um modelo de texto para áudio baseado em transformador criado por Suno. O Bark pode gerar fala multilíngue altamente realista, bem como outros tipos de áudio - incluindo música, ruído de fundo e efeitos sonoros simples.
- TANGO - TANGO é um modelo de difusão latente (LDM) para geração de texto para áudio (TTA). TANGO pode gerar áudios realistas, incluindo sons humanos, sons de animais, sons naturais e artificiais e efeitos sonoros a partir de instruções textuais.
- ArchiSound - Geração de áudio usando modelos de difusão, em PyTorch.
- WaveGAN - WaveGAN: Aprenda a sintetizar áudio bruto com redes adversárias generativas.
- NeuralSound - Síntese Sonora Modal Baseada em Aprendizagem com Transferência Acústica.
- RAVE - RAVE: AutoEncoder variacional de áudio em tempo real. Um autoencoder variacional para síntese de áudio neural rápida e de alta qualidade.
- AudioLDM - AudioLDM: Geração de texto para áudio com modelos de difusão latente.
- Make-An-Audio - Make-An-Audio: Geração de texto para áudio com modelos de difusão aprimorados por prompt.
- Make-An-Audio 3 - Make-An-Audio 3: Transformando texto em áudio por meio de transformadores de grande difusão baseados em fluxo.
- Moûsai - Moûsai: Texto para Áudio com Difusão Latente de Longo Contexto.
- Im2Wav - Geração de Áudio Guiada por Imagem. Propomos o Im2Wav, um sistema de geração de áudio de domínio aberto guiado por imagem. Dada uma imagem de entrada ou sequência de imagens, Im2Wav gera um som semanticamente relevante.
- Oobleck - codecs VAE abertos de fluxo de som para síntese de áudio neural downstream.
- USS - Esta é a implementação PyTorch da separação universal de fontes com dados fracamente rotulados. O sistema USS pode detectar e separar automaticamente as classes de som de uma gravação real. O sistema USS pode separar até centenas de classes de sons em uma estrutura ontológica hierárquica.
- Difusores - ? Difusores é a biblioteca ideal para modelos de difusão pré-treinados de última geração para gerar imagens, áudio e até estruturas 3D de moléculas.
- ONE-PEACE - Um modal de representação geral entre modalidades de visão, áudio e linguagem.
- tiny-audio-diffusion - Este é um repositório para gerar pequenas amostras de áudio e treinar modelos de difusão de forma de onda em uma GPU com menos de 2 GB de VRAM.
- stable-audio-tools - Modelos generativos para geração de áudio condicional.
- CTAG - Geração Criativa de Texto para Áudio via Programação de Sintetizador.
- Audiogen Codec - Um codec de áudio neural estéreo de baixa compressão de 48 kHz para áudio geral, otimizando a fidelidade de áudio.
- WavCraft - WavCraft é um agente de IA para criação e edição de áudio.
- FoleyCrafter - FoleyCrafter: Dê vida a vídeos silenciosos com sons realistas e sincronizados.
^ Voltar ao conteúdo ^
Processamento de sinal de áudio (ASP)
- SouPyX - SouPyX é um espaço muito colorido para exploração de áudio, adequado para pesquisa e exploração em diversos campos de áudio. No SouPyX você pode realizar pesquisas e exploração em processamento de áudio, síntese de som, efeitos de áudio, áudio espacial, visualização de áudio, áudio AI e muito mais.
- SoundFile - SoundFile é uma biblioteca de áudio baseada em libsndfile, CFFI e NumPy.
- Audio DSPy - audio_dspy é um pacote Python para ferramentas de processamento de sinal de áudio.
- pyAudioDspTools - pyAudioDspTools é um pacote python 3 para manipular áudio usando apenas numpy.
- wave - O módulo wave fornece uma interface conveniente para o formato de som WAV. Não suporta compressão/descompressão, mas suporta mono/estéreo.
- FFmpeg - FFmpeg é uma coleção de bibliotecas e ferramentas para processar conteúdo multimídia como áudio, vídeo, legendas e metadados relacionados.
- Opus - Compressão de áudio moderna para internet.
- Pedalboard - Pedalboard é uma biblioteca Python para trabalhar com áudio: leitura, escrita, adição de efeitos e muito mais. Ele suporta os formatos de arquivo de áudio mais populares e vários efeitos de áudio comuns prontos para uso, e também permite o uso de formatos VST3 e Audio Unit para plug-ins de terceiros.
- PyAudio - PyAudio fornece ligações Python para PortAudio v19, a biblioteca de E/S de áudio multiplataforma. Com PyAudio, você pode usar Python facilmente para reproduzir e gravar áudio em uma variedade de plataformas, como GNU/Linux, Microsoft Windows e Apple macOS.
- PortAudio - PortAudio é uma biblioteca de E/S de áudio gratuita, multiplataforma e de código aberto. Ele permite que você escreva programas de áudio simples em 'C' ou C++ que serão compilados e executados em muitas plataformas, incluindo Windows, Macintosh OS X e Unix (OSS/ALSA). Pretende-se promover a troca de software de áudio entre desenvolvedores em diferentes plataformas. Muitos aplicativos usam PortAudio para E/S de áudio.
- Pyo - pyo é um módulo Python escrito em C para ajudar na criação de scripts de processamento de sinais digitais.Módulo Python DSP. Com o pyo, o usuário poderá incluir cadeias de processamento de sinais diretamente em scripts ou projetos Python, e manipulá-los em tempo real através do interpretador
- tinytag - tinytag é uma biblioteca para leitura de metadados musicais dos arquivos de áudio mais comuns em python puro. Leia metadados de áudio e música e duração de arquivos MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave e AIFF com python 2 ou 3.
- Friture - Friture é um aplicativo para visualizar e analisar dados de áudio ao vivo em tempo real. Friture exibe dados de áudio em vários widgets, como um osciloscópio, um analisador de espectro ou um espectrograma 2D contínuo.
- sounddevice - Este módulo Python fornece ligações para a biblioteca PortAudio e algumas funções convenientes para reproduzir e gravar arrays NumPy contendo sinais de áudio.
- Pydub - Manipule áudio com uma interface simples e fácil de alto nível.
- NAudio - Biblioteca de áudio e MIDI para .NET.
- SoundCard - SoundCard é uma biblioteca para reproduzir e gravar áudio sem recorrer a uma extensão CPython. Em vez disso, ele é implementado usando o maravilhoso CFFI e as bibliotecas de áudio nativas do Linux, Windows e macOS.
- TarsosDSP - TarsosDSP é uma biblioteca Java para processamento de áudio. Seu objetivo é fornecer uma interface fácil de usar para algoritmos práticos de processamento de música implementados, da forma mais simples possível, em Java puro e sem quaisquer outras dependências externas.
- Maximilian - Maximilian é uma biblioteca de síntese de áudio e processamento de sinal multiplataforma e multi-alvo. Foi escrito em C++ e fornece ligações para Javascript.
- The Synthesis ToolKit em C++ (STK) - O Synthesis ToolKit em C++ (STK) é um conjunto de processamento de sinal de áudio de código aberto e classes de síntese algorítmica escritas na linguagem de programação C++.
- JUCE - JUCE é uma estrutura de aplicativo C++ de plataforma cruzada de código aberto para a criação de aplicativos móveis e de desktop de alta qualidade, incluindo plug-ins de áudio e hosts de plug-in VST, VST3, AU, AUv3, AAX e LV2. O JUCE pode ser facilmente integrado a projetos existentes via CMake, ou pode ser usado como uma ferramenta de geração de projetos através do Projucer, que suporta a exportação de projetos para Xcode (macOS e iOS), Visual Studio, Android Studio, Code::Blocks e Linux Makefiles como além de conter um editor de código-fonte.
- iPlug 2 - Estrutura de plug-in de áudio C++ para desktop, dispositivos móveis e web.
- CHOC - Uma coleção de classes somente de cabeçalho, licenciadas permissivamente, para fornecer tarefas úteis básicas com o mínimo de dependências.
- Q - Q é uma biblioteca C++ multiplataforma para processamento de sinais digitais de áudio. Apropriadamente chamada de “fator Q”, um parâmetro adimensional que descreve a qualidade de um circuito ressonante, a Biblioteca Q DSP foi projetada para ser simples e elegante, como a simplicidade de seu nome sugere, e eficiente o suficiente para ser executada em pequenos microcontroladores.
- BasicDSP - BasicDSP - Uma ferramenta para processar áudio/experimentar processamento de sinal.
- DaisySP - Uma biblioteca DSP poderosa e de código aberto em C++.
- Speech Signal Processing Toolkit (SPTK) - O Speech Signal Processing Toolkit (SPTK) é um conjunto de ferramentas de processamento de sinais de fala para ambientes UNIX, por exemplo, análise LPC, análise PARCOR, análise LSP, filtro de síntese PARCOR, filtro de síntese LSP, técnicas de quantização vetorial e outras versões estendidas deles.
- eDSP - eDSP (easy Digital Signal Processing) é uma estrutura de processamento de sinal digital escrita em C++ moderno que implementa algumas das funções e algoritmos comuns frequentemente usados em processamento de sinal digital, engenharia de áudio e sistemas de telecomunicações.
- KFR - KFR é uma estrutura C++ DSP de código aberto que se concentra em alto desempenho. Estrutura C++ DSP rápida e moderna, FFT, conversão de taxa de amostragem, filtros FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON).
- MWEngine - Motor de áudio e DSP para Android, escrito em C++ proporcionando desempenho de baixa latência em um contexto musical, ao mesmo tempo que fornece uma API Java/Kotlin. Suporta OpenSL e AAudio.
- LabSound - LabSound é um mecanismo de áudio baseado em gráfico C++. O mecanismo é empacotado como uma biblioteca estática incluída com baterias destinada à integração em muitos tipos de software: jogos, visualizadores, instalações interativas, ambientes de codificação ao vivo, plug-ins VST, aplicativos de edição/sequenciamento de áudio e muito mais.
- Gist - Gist é uma biblioteca de análise de áudio baseada em C++.
- Realtime_PyAudio_FFT – Análise de áudio em tempo real em Python, usando PyAudio e Numpy para extrair e visualizar recursos FFT de streaming de áudio.
- Spectrum - Análise Espectral em Python. Spectrum é uma biblioteca Python que contém ferramentas para estimar densidades espectrais de potência com base na transformada de Fourier, métodos paramétricos ou análise de autovalores. Os métodos de Fourier baseiam-se em correlograma, periodograma e estimativas de Welch. Janelas cônicas padrão (Hann, Hamming, Blackman) e outras mais exóticas estão disponíveis (DPSS, Taylor,…).
- tidstream - Ferramentas para gerar e manipular streams Vorbis e Opus ao vivo.
- AudioTraits - AudioTraits é uma abstração projetada para tornar os testes de processamento de áudio mais convenientes e legíveis. Uma 'característica de áudio' analisa um determinado sinal de áudio (alguns ou todos os seus canais) e verifica uma determinada propriedade. O resultado desta verificação é booleano, o que permite que seja facilmente integrado em qualquer estrutura de teste unitário.
- Editor genMDM - Uma interface baseada na web para genMDM, um controlador MIDI para Sega Mega Drive e Genesis. Também suporta interface MIDI do Mega Drive.
- 3DAudioVisualizers - Um conjunto OpenGL Audio Visualizer em C++ usando JUCE para áudio e GUI.
- AudioStretchy - AudioStretchy é uma biblioteca Python que permite esticar o tempo dos sinais de áudio sem alterar seu tom.
- SwiftAudio - SwiftAudioEx é um reprodutor de áudio iOS escrito em Swift, tornando mais simples trabalhar com reprodução de áudio de streams e arquivos.
- WaveTools - WaveTools é uma estrutura para manipulação de arquivos de áudio; Arquivos WAVE (.wav) em particular.
- SimplyCoreAudio - ? Uma estrutura Swift que visa tornar o uso do Core Audio menos tedioso no macOS.
- DPF - Estrutura de plug-ins DISTRHO. O DPF foi projetado para tornar o desenvolvimento de novos plugins uma tarefa fácil e agradável.
- Plug-in Neural Amp Modeler - Um plug-in VST3/AudioUnit para Neural Amp Modeler, desenvolvido com iPlug2.
- lsp-dsp-lib - biblioteca DSP para processamento de sinal.
- Hip-Hop – Biblioteca para escrever plug-ins de áudio que executam a UI em uma visualização web. Baseado em DPF.
- MGT-python - Caixa de ferramentas de gestos musicais para Python.
- ASP - Ferramentas Python para processamento de sinal de áudio.
- TinyAudio - TinyAudio é uma biblioteca de saída de áudio multiplataforma.
- pymixconsole - Console de mixagem multipista sem cabeça em Python.
- plugin de efeitos - Um modelo de plugin de efeitos de áudio usando Elementary e JUCE.
- miniaudio - Biblioteca de reprodução e captura de áudio escrita em C, em um único arquivo fonte.
- AudioMass - Ferramenta gratuita e completa de edição de áudio e forma de onda baseada na web.
- Amostra universal do Android Music Player - Um aplicativo de áudio de amostra para Android.
- jsfx – Uma coleção gratuita de plug-ins JS (JesuSonic) para Reaper.
- Fourier - Transformadas rápidas de Fourier (FFTs) em Rust.
- ProtoFaust - Prototipagem DSP em Faust para o sintetizador modular VCV Rack.
- Polar - Mecanismo de áudio para processamento CUDA (Windows/Linux).
- Conversor de áudio para MIDI - Programa para detectar afinação de arquivos wav e escrever MIDI quantizado no tempo.
- AudioTSM - AudioTSM é uma biblioteca python para procedimentos de modificação da escala de tempo de áudio em tempo real, ou seja, algoritmos que alteram a velocidade de um sinal de áudio sem alterar seu tom.
- Multi-Filter-Delay - Um efeito de áudio digital original programado através de Juce/C++.
- convoLV2 - convoLV2 é um plugin LV2 para convolver sinais de áudio com latência zero.
- Cloud Seed - Cloud Seed é um plugin de reverberação algorítmico construído em C# e C++ para emular espaços enormes e infinitos e ecos modulados.
- Música de fundo - Música de fundo, um utilitário de áudio do macOS: pause automaticamente sua música, defina o volume de aplicativos individuais e grave o áudio do sistema.
- audiowaveform - programa C++ para gerar dados de formas de onda e renderizar imagens de formas de onda a partir de arquivos de áudio.
- Mutagen - módulo Python para manipulação de metadados de áudio.
- lewton - decodificador Vorbis escrito em Rust puro.
- Hound - Uma biblioteca de codificação e decodificação wav em Rust.
- rodio - Biblioteca de reprodução de áudio Rust.
- CPAL - Biblioteca de E/S de áudio multiplataforma em Rust puro.
- CSCore - CSCore é uma biblioteca de áudio .NET gratuita totalmente escrita em C#.
- TinyOSC - Uma biblioteca mínima Open Sound Control (OSC) escrita em vanilla C.
- TinyWav - Uma biblioteca C mínima para leitura e gravação de arquivos de áudio WAV (16b-int e 32b-float).
- JAsioHost - Um host ASIO baseado em Java (entrada/saída de fluxo de áudio).
- PyWavelets - PyWavelets é uma biblioteca de código aberto gratuita para transformações wavelet em Python. Wavelets são funções de base matemática localizadas tanto no tempo quanto na frequência.
- ChowMultiTool - Plugin de áudio multiferramenta.
- RE201models - Modelos digitais do Roland RE201. VST3, plugins AU e código fonte.
- RtAudio - Um conjunto de classes C++ que fornece uma API comum para entrada/saída de áudio em tempo real em Linux (ALSA, JACK, PulseAudio e OSS nativos), Macintosh OS X (CoreAudio e JACK) e Windows (DirectSound, ASIO e WASAPI) sistemas operacionais.
- RtAudio-rs - Wrapper Safe Rust e ligações para RtAudio.
- PFFFT - Uma FFT bastante rápida e convolução rápida com PFFASTCONV.
- SHAART - SHAART é um kit de ferramentas de análise de áudio baseado em Python, para fins educacionais.
- TD-JUCE - Áudio JUCE e VSTs no TouchDesigner.
- JIVE - JIVE é um pacote de módulos JUCE centrado no desejo de ter uma abordagem mais moderna para o desenvolvimento de UI.
- Amplituda - Amplituda - uma biblioteca Android baseada em FFMPEG que processa arquivos de áudio e fornece uma variedade de amostras.
- TagLib - Biblioteca de metadados de áudio TagLib.
- speexdsp - Biblioteca Python do cancelador de eco Speex.
- PyPam - ferramenta Python de análise acústica passiva para monitoramento acústico passivo (PAM).
- AudioTools - Manipulação de dados de áudio orientada a objetos, com aumentos alimentados por GPU e muito mais.
- Equalize It - O projeto é um plugin VST para equalização. A interface do usuário inclui um analisador de espectro, um painel de controle de filtro, curvas de resposta de frequência e medidores de nível.
- JDSP4Linux - Um processador de efeitos de áudio para clientes PipeWire e PulseAudio.
- FIRconv - Implementações Python de filtros de resposta de impulso finito (FIR).
- OpenDSP - sistema operacional em tempo real incorporado Headless Linux para DSP de áudio e vídeo.
- ultralight-juce - Integrando o renderizador Ultralight C++/HTML com JUCE para interfaces de usuário mais bonitas.
- Vult - Vult é especialmente útil ao programar algoritmos de processamento de sinal digital (DSP), como efeitos de áudio ou sintetizadores.
- CloudSeed [JUCE] - UI baseada em JUCE para plugin CloudSeed VST.
- TFliteTemplatePlugin - Plug-ins de modelo JUCE para usar o TensorFlow Lite para inferência de aprendizado profundo.
- DrumFixer - DrumFixer é um plugin de áudio projetado para ajudar engenheiros de mixagem a obter melhor som de bateria.
- BasicAudioPlayer – Uma biblioteca Swift que facilita a criação de reprodutores de áudio baseados em AVAudioEngine.
- PLAudioMixer - Mixer de áudio simples baseado no modo de renderização offline AVAudioEngine.
- estratto - Estratto é uma biblioteca Rust poderosa e fácil de usar, projetada para extrair recursos de áudio ricos de sinais de áudio digital.
- vampy - Um wrapper que permite que plugins de análise de áudio Vamp sejam escritos em Python.
- SoundWave - SoundWave é uma visualização personalizável que representa sons ao longo do tempo.
- PyAV - PyAV é uma ligação Pythonic para as bibliotecas FFmpeg.
- audio-dsp - Brincando com o desenvolvimento de plugins de áudio + DSP.
- openSMILE - openSMILE (interpretação de fala e música de código aberto por extração de espaço grande) é um kit de ferramentas completo e de código aberto para análise, processamento e classificação de áudio, especialmente direcionado para aplicações de fala e música.
- Carla - Carla é um host de plugins de áudio completo, com suporte para muitos drivers de áudio e formatos de plugins.
- JUCE-HEAVY - Modelo de projeto JUCE mostrando como conectar JUCE com arquivos fonte gerados em Heavy C++ (HVCC).
- Dplug - Estrutura de plugin de áudio. VST2/VST3/AU/AAX/LV2 para Linux/macOS/Windows.
- DAWNet - O DAWNet é um plugin DAW (estação de trabalho de áudio digital) que se conecta a um Google Colab ou Script remoto.
- Fish Audio Preprocessor - Pré-processe áudio para treinamento.
- clap-validator - Uma ferramenta automática de validação e teste de CLAP.
- DSP Testbench - Um DSP Testbench para usuários da estrutura JUCE.
- Coupler - Coupler é uma estrutura para escrever plugins de áudio em Rust. Atualmente oferece suporte às APIs VST3 e CLAP, com planos para oferecer suporte a AUv2 e AAX em um futuro próximo.
- PyOgg - PyOgg fornece ligações Python para os formatos de arquivo de áudio Opus, Vorbis e FLAC do Xiph.org, bem como seu formato de contêiner Ogg.
- streamlit-audiorecorder - Um gravador de áudio para streamlit.
- DtBlkFx - DtBlkFx é um plug-in VST baseado em Fast-Fourier-Transform (FFT).
- SmartElectronix - Versões de código aberto de todos os plugins Bram @ SmartElectronix.
- CookieJuce - Uma ferramenta de linha de comando para gerar projetos modernos de Juce com CMake.
- Auglib - Auglib é uma biblioteca de aumento, que fornece transformações para modificar sinais e arquivos de áudio.
- Klang - Klang é um idioma para o design e desenvolvimento de processos de áudio em tempo real no C ++.
^ De volta ao conteúdo ^
Síntese de som (SS)
- CSound - CSound é um sistema de computação sonora e musical que foi originalmente desenvolvido por Barry Vercoe em 1985 no MIT Media Lab. Desde os anos 90, foi desenvolvido por um grupo de desenvolvedores principais.
- Pure Data - Pure Data ( PD ) é uma linguagem de programação visual desenvolvida pela Miller Puckette nos anos 90 para criar músicas interativas de computador e obras multimídia. Enquanto Puckette é o principal autor do programa, o PD é um projeto de código aberto com uma grande base de desenvolvedores trabalhando em novas extensões. É lançado sob a cláusula BSD-3. Ele é executado no Linux, MacOS, iOS, Android "Android (sistema operacional)") e Windows. Existem portas para FreeBSD e IRIX.
- PlugData - Um ambiente de programação visual para experimentação de áudio, prototipagem e educação.
- Max/MSP/Jitter - Max , também conhecido como Max/MSP/Jitter, é uma linguagem de programação visual para música e multimídia desenvolvida e mantida pela empresa de software de São Francisco, Cycling '74. Ao longo de mais de trinta anos de história, foi usado por compositores, artistas, designers de software, pesquisadores e artistas para criar gravações, performances e instalações.
- Kyma (linguagem de design de som) - Kyma é uma linguagem de programação visual para design de som usado por músicos, pesquisadores e designers de som. Em Kyma, um usuário programa um DSP multiprocessador conectando graficamente módulos na tela de um computador Macintosh ou Windows.
- SuperCollider - O SuperCollider é uma plataforma para síntese de áudio e composição algorítmica, usada por músicos, artistas e pesquisadores que trabalham com som. Um servidor de áudio, linguagem de programação e IDE para síntese sonora e composição algorítmica.
- Sonic Pi - Sonic Pi é um ambiente de codificação ao vivo baseado em Ruby "Ruby (Linguagem de Programação)"), originalmente projetado para suportar aulas de computação e música nas escolas, desenvolvidas por Sam Aaron na Universidade de Cambridge Laboratório de Computador em Colaboração com Raspberry Pi Fundação.
- REAKTOR - REAKTOR é um estúdio de música de software modular gráfico desenvolvido pela Native Instruments (NI). Ele permite que músicos e especialistas em som projete e construam seus próprios instrumentos, amostradores "amostrador (instrumento musical)"), efeitos e ferramentas de design de som. É fornecido com muitos instrumentos e efeitos prontos para uso, desde emulações de sintetizadores clássicos até ferramentas de design de som futuristas.
- RTCMIX- RTCMIX é um software em tempo real "Idioma" para fazer síntese de som digital e processamento de sinais. Está escrito em C/C ++ e é distribuído de código aberto, gratuito.
- Chuck - Chuck é uma linguagem de programação para síntese de som em tempo real e criação musical. O Chuck oferece um modelo de programação simultâneo e baseado no tempo, que é preciso e expressivo (chamamos isso de tempo fortemente), taxas de controle dinâmico e a capacidade de adicionar e modificar o código na fly. Além disso, o Chuck suporta MIDI, OpenSoundControl, dispositivo HID e áudio multicanal. É de código aberto e disponível gratuitamente no MacOS X, Windows e Linux. É divertido e fácil de aprender, e oferece compositores, pesquisadores e artistas uma poderosa ferramenta de programação para construir e experimentar programas complexos de síntese de áudio/análise e música interativa em tempo real.
- Faust-Faust (fluxo de áudio funcional) é uma linguagem de programação funcional para síntese sonora e processamento de áudio, com um forte foco no design de sintetizadores, instrumentos musicais, efeitos de áudio, etc. Faust Targe Aplicações de processamento de sinais de alto desempenho e plug-ins de áudio Para uma variedade de plataformas e padrões.
- Alma - a linguagem de programação da alma e a API. O Soul (Linguagem Som) é uma tentativa de modernizar e otimizar a maneira como o código de áudio de alta latência e de alto desempenho é escrito e executado.
- CMAJOR - CMAJOR é uma linguagem de programação para escrever um software de áudio rápido e portátil. Você já ouviu falar de C, C ++, C#, Objective-C ... bem, C Major é um idioma C-Family projetado especificamente para escrever código de processamento de sinal DSP.
- VCV Rack - Rack é o aplicativo host para a plataforma VCV Virtual Eurorack Modular Synthesizer.
- Gwion - Gwion é uma linguagem de programação, destinada a fazer música. fortemente inspirado por Chuck, mas adicionando muitos recursos de alto nível ; Funções de modelos, de primeira classe e muito mais. Ele pretende ser simples, pequeno, rápido, extensível e incorporável.
- Audio Elementar - Elementar é uma estrutura JavaScript e um mecanismo de áudio de alto desempenho que ajuda você a construir rapidamente e enviar com confiança. Estrutura declarativa e funcional para escrever software de áudio na web ou para aplicativos nativos.
- Elementar - Elementary é uma biblioteca JavaScript/C ++ para criar aplicativos de áudio.
- Sound2Synth - Sound2Synth: Interpretando o som por meio da estimativa de parâmetros do sintetizador FM.
- JSYN - JSYN é um sintetizador de áudio modular para Java por Phil Burk. A JSYN permite que você desenvolva programas interativos de música de computador em Java. Pode ser usado para gerar efeitos sonoros, ambientes de áudio ou música. O JSYN é baseado no modelo tradicional de geradores de unidades que podem ser conectados para formar sons complexos.
- Synthax - Um sintetizador modular rápido no JAX ⚡️CELELETATING AUDIO SYNTHESIS muito além das velocidades em tempo real tem um papel significativo a desempenhar no avanço das técnicas inteligentes de produção de áudio. O Synthax é um sintetizador modular virtual rápido escrito no JAX. No auge, o Synthax gera áudio com mais de 60.000 vezes mais rápido que o tempo real e significativamente mais rápido que o ponta da síntese sonora acelerada.
- Midica - Midica é um intérprete para uma linguagem de programação musical. Ele traduz o código -fonte para MIDI. Mas também pode ser usado como um jogador MIDI, compilador ou decompilador MIDI, jogador de karaokê, jogador da ALDA, jogador da ABC, LilyPond Player ou analisador de arquivos MIDI. Você escreve música com um dos idiomas suportados (MIDICAPL, ALDA ou ABC).
- Mercúrio - Mercúrio é uma linguagem mínima e legível pelo homem para a codificação ao vivo da música eletrônica algorítmica. Todos os elementos do idioma são projetados para tornar o código mais acessível e menos ofusco para o público. Essa motivação se estende ao próprio estilo de codificação, que usa nomes descritivos claros para funções e uma sintaxe clara.
- ALDA - ALDA é uma linguagem de programação baseada em texto para composição musical. Ele permite que você escreva e reproduza música usando apenas um editor de texto e a linha de comando. O design do idioma favorece igualmente a estética, flexibilidade e facilidade de uso.
- Platonic Music Engine - O mecanismo de música platônico é uma tentativa de criar algoritmos de computador que simulam superficialmente a totalidade da cultura humana criativa, passado, presente e futuro. Isso é feito de maneira interativa, permitindo que o usuário escolha vários parâmetros e configurações, de modo que o resultado final seja exclusivo para o usuário, preservando a idéia cultural que inspirou o trabalho.
- Pyo-Tools-Repositório de classes de Python prontas para uso para construir efeitos de áudio e sintetizadores com Pyo.
- Modular PY - Estrutura de programação de áudio modular e experimental para Python. O PY-Modular é um pequeno ambiente de programação de áudio experimental para Python. Destina -se a ser uma base para a exploração de novas tecnologias de áudio e fluxos de trabalho. Quase tudo no py-modular é construído em torno de um fluxo de trabalho baseado em nós, o que significa que pequenas classes realizam pequenas tarefas e podem ser corrigidas para criar sintetizadores completos ou idéias maiores.
- BACH: Helper do compositor automatizado-um conjunto de patches e externos para o máximo, com o objetivo de trazer a riqueza da composição auxiliada por computador para o mundo em tempo real.
- Audiokit - Audiokit é uma síntese de áudio, processamento e plataforma de análise para iOS, macOS (incluindo catalisador) e TVOS.
- Twang - Biblioteca para síntese de áudio avançada de ferrugem pura.
- GENSOUND - Estrutura de processamento e geração de áudio pitônico. A maneira Python para o processamento e a síntese de áudio.
- Otto - O Otto é um groovebox de hardware digital, com sintetizadores, amostradores, efeitos e um sequenciador com um Looper de áudio. A interface é plana, modular e fácil de usar, mas acima de tudo, pretende incentivar a experimentação.
- Loris - Loris é uma biblioteca para análise de som, síntese e morphing, desenvolvida por Kelly Fitz e Lippsold Haken no Cerl Sound Group. Loris inclui uma biblioteca de classes C ++, módulo Python, interface C-Linkable, utilitários de linha de comando e documentação.
- Iannix - Iannix é um seqüenciador gráfico de código aberto, baseado em Iannis Xenakis Works, para arte digital. A Iannix sincroniza através de eventos e curvas de controle de som aberto (OSC) ao seu ambiente em tempo real.
- Leipzig - Uma biblioteca de composição musical para Clojure e ClojureScript.
- Nyquist - Nyquist é uma síntese de som e linguagem de composição que oferece uma sintaxe Lisp, bem como uma sintaxe de linguagem imperativa e um poderoso ambiente de desenvolvimento integrado. Nyquist é um sistema elegante e poderoso baseado em programação funcional.
- OpenMusic (OM) - OpenMusic (OM) é uma linguagem de programação visual com base no LISP. Os programas visuais são criados montando e conectando ícones representando funções e estruturas de dados. A maioria das programas e operações são realizadas arrastando um ícone de um local específico e deixando -o soltar para outro lugar. São fornecidas estruturas de controle visual interno (por exemplo, loops), essa interface com as LISP. O código Commonlisp/Clos de CliP existente pode ser facilmente usado no OM, e o novo código pode ser desenvolvido de maneira visual.
- Orcλ - Orca é uma linguagem de programação esotérica projetada para criar rapidamente seqüenciadores processuais, na qual todas as letras do alfabeto são uma operação, onde letras minúsculas operam no bang, letras maiúsculas operam cada quadro.
- Overtone - O tom do tom é um ambiente de áudio de código aberto projetado para explorar novas idéias musicais, desde a síntese e a amostragem até a construção de instrumentos, codificação ao vivo e bloqueio colaborativo. Combinamos o poderoso mecanismo de áudio do SuperCollider, com o Clojure, um Lisp de ponta, para criar uma experiência sônica interativa intoxicante.
- Costura - música eletro -acústica sustentada - base. A música eletroacústica sustentada é um projeto inspirado em Alvise Vidolin e Nicola Bernardini.
- Glicol - Glicol (um acrônimo para "linguagem de codificação ao vivo orientada a gráficos") é uma linguagem de música de computador com seu mecanismo de idioma e áudio escrito na linguagem de programação de ferrugem, uma alternativa moderna ao C/C ++. Dada essa natureza de baixo nível, a Glicol pode ser executada em muitas plataformas diferentes, como navegadores, plugins VST e placa Bela. A sintaxe do tipo sintetizador do Glicol e o poderoso mecanismo de áudio também possibilitam o controle de sintetizador ou sequenciador de alto nível com a síntese de áudio com precisão de amostra de baixo nível, tudo em tempo real.
- Pappersynth - texto manuscrito para sintetizadores! O Papersynth é um projeto que visa ler palavras -chave que você escreveu em um pedaço de papel e convertê -lo em sintetizadores que você pode reproduzir no telefone.
- VST do ressonador neural - Este é um plug -in VST que usa uma rede neural para gerar filtros com base em formas e materiais arbitrários 2D. É possível usar o MIDI para desencadear impulsos simples para excitar esses filtros. Além disso, qualquer sinal de áudio pode ser usado como entrada nos filtros.
- SCYCLONE - O SCYCLONE é um plug -in de áudio que utiliza a tecnologia de transferência de timbre neural para oferecer uma nova abordagem para a produção de áudio. O plug -in se baseia na Rave Metodology, um codificador automático de áudio em tempo real, facilitando a transferência de timbre neural no modo de inferência de casal único e de casal.
- MlinMax - ML para geração de som e processamento na linguagem de programação máxima do ciclismo '74.
- ADLPLUG - FM Chip Synthesizer - OPL & OPN - VST/LV2/Standalone.
- Surge - Synthesizer Plug -in (lançado anteriormente como VEMBER AUDIO SURGE).
- CStop - CStop é um plug -in de efeito de áudio de parada de fita disponível no AU & VST3 para Mac (Windows em breve).
- CompuFart - sintetizador de som de peido e algoritmo em cmajor.
- PY -JS - Python3 Externos para max / msp.
- PD -Lua - Lua Ligações para PD, atualizadas para Lua 5.3+.
- Live 4 Life - Uma ferramenta de desempenho espacial para o SuperCollider.
- CAesarlooper - Caesarlooper é um clone de supercollider do plug -in Augustus Loop VST por dormentes especializados.
- Plug -in de Plaform/Multi -Formato Multi -Formato DX7 FM DX7.
- MOTION PARA MAX - LEAPMOTION EXTERNO PARA CICLING'74 MAX.
- Kontakt -Public - Recursos para instrumentos nativos Kontakt Builders.
- PYLIVE - Consulta e controle Ableton Live a partir de Python.
- ML -LIB - Uma biblioteca de aprendizado de máquina para dados máximos e puros.
- Zengarden - Zengarden é uma biblioteca independente para executar patches de dados puros.
- Max -SDK - Kit de desenvolvimento de software para o máximo de ciclismo '74.
- PD-HVCC-Criando um ambiente de tipo Gen ~ para PD, com base no compilador pesado.
- Curosciladores - objetos max/msp para síntese de áudio e rítmica usando redes de osciladores acoplados.
- ASCII -AUDIO - Gera o áudio PCM a partir de uma string ascii. O texto é visível na imagem do espectrograma.
- Belaminimoogemulation - Uma implementação digital do sintetizador analógico Minimoog com formas de onda anti -alias e uma recriação do filtro de escada Moog.
- Edisyn - Editor de patches do Synthesizer.
- Pacote Soundgen - R para síntese sonora e análise acústica.
- Cardeal - plug -in de sintetizador modular virtual.
- Flutter Echo Modeling - Este repositório apresenta uma demonstração do MATLAB para a síntese de eco da flutter.
- Oops - Oops agora é folha! Biblioteca AC para síntese e processamento de áudio, destinada a aplicativos incorporados, escritos usando o estilo semi-oope.
- Sonic Pi Tool -? Controlando o Sonic Pi da linha de comando, em Python.
- Sonicpi.vim - plug -in Sonic Pi para Vim.
- Chaos controlado - gerador de ritmo euclidiano max4Live.
- KPSTRONG-Esta é uma implementação de um sintetizador Karplus-Strong, que é executado como C ++ em tempo real no hardware da Bela.
- NN_TILDE - Um Max / PD externo para processamento de áudio de IA em tempo real.
- Grainbow - Um sintetizador que usa detecção de afinação para escolher candidatos para síntese ou amostragem granular.
- SignalFlow - Uma estrutura de síntese de som para Python, projetada para uma expressão clara e concisa de idéias musicais complexas.
- Syntheon - Inferência de parâmetro de sintetizadores musicais para simplificar o processo de design de som. Suporta vital e destro.
- RNBOJUCETEMPLATE - Um modelo de JUce, incluindo um sintetizador mínimo criado com o RNBO ~ do MAXMSP, que encapsula o estado do RNBoObject no audioprocessador de Juce usando a moda AudioprocessorEvaluestate moderna.
- Fluidsynth.clap - uma ponte de pLAP -plugin para fluidsynth.
- LaunchPadx - Uma interface simples do SuperCollider para o controlador Novation LaunchPadx.
- FAUG - Uma emulação Minimoog Model D com a parte DSP escrita em Faust. Moog + faust = faug.
- Blocks - Blocks é um sintetizador modular disponível como independente, VST3 e Au para Windows e MacOS.
- Truque de Bessel - O truque de Bessel é um plug -in de áudio neural para transformação rápida e ao vivo de sons de instrumentos musicais usando a síntese de modulação de frequência (FM).
^ De volta ao conteúdo ^
Áudio do jogo (GA)
- Chunity - Chuck em unidade. Plugin para usar o Chuck em unidade. Disponível na loja de ativos da Unity.
- Raveler - o plug -in WWise que executa modelos de raves, permitindo a transferência de timbre em tempo real via síntese de áudio neural em uma configuração de áudio do jogo.
- LASP - Plugin de processamento de sinal de áudio de baixa latência para unidade.
- PireeAper - um invólucro de Python para Ceifador.
- Reaper-Keys-VIM-CHEDING PARA CEE.
- Reaper Tools - Repositório de ferramentas de Ceifador Audiokinético. Coleção de extensões, scripts e ferramentas para o Reaper.
- Reawise - Reawwise é uma extensão Reaper que os designers de som podem usar para transferir arquivos de áudio do Reaper para projetos Wwise.
- WWISER - Um analisador .bnk wwise, para ajudar no manuseio de áudio a partir de jogos usando o motor Wwise.
- WAAPI-TEXT-TO-ESPEEL-Integração de texto em fala WWise usando editores externos.
- JSFXR for Wwise - JSFXR (portado a partir de SFXR) com conectividade Wwise adicionada, incorporada ao elétron.
- Soloud - Soloud é um motor de áudio C/C ++ fácil de usar, gratuito e portátil para jogos.
- FIOTOYS - DSP Doodles para unidade.
- Dolby.io Virtual World Plugin para unidade - Com o plug -in do mundo virtual dolby.io, você pode facilmente integrar o áudio espacial Dolby.io, alimentado pela tecnologia Dolby Atmos em suas aplicações no mundo virtual.
- Plug -in de Worlds Virtual Worlds Dolby.io para motor Unreal - com o plug -in de Worlds Virtual Dolby.io para o Unreal Engine, você pode integrar facilmente o áudio espacial Dolby.io, alimentado pela tecnologia Dolby Atmos em seus aplicativos do mundo virtual.
- Simulador de motor - simulador de mecanismo de combustão que gera áudio realista.
- Jack Audio for Unity - Esta biblioteca/plug -in permite o roteamento de áudio multicanal entre Unity3D e Jackaudio.
- Voxel Plugin - O plug -in do voxel permite criar mundos infinitos totalmente volumétricos, totalmente destrutíveis, em motor irreal. É compatível com 4.24, 4.25, 4,26, 4.27 e irreal 5.
- Rev Unity - Rev Unity Tacometer Demo.
- Unity Audio Manager (UAM) -? Usado para reproduzir/alterar/stop/mudo/... um ou vários sons em uma determinada circunstância ou evento em 2D e 3D simplesmente via. código.
- Audio-gerente por unidade-Uma ferramenta para definir e executar comportamentos de áudio em unidade em um editor baseado em nós.
- Endereços de unidade WWise - Este pacote adiciona suporte para distribuir e carregar ativos Wwise usando o sistema de endereços da unidade.
- RFXGEN-Um gerador de sons FX simples e fácil de usar.
- Ulipsync-Plug-in LipSync baseado em MFCC para unidade usando sistema de trabalho e compilador de burst.
- GODOT-FMOD-Integração-Integração de middleware do FMOD Studio e ligações de API de script para o motor Godot Game.
- Sistema de áudio FMOD - Sistema de áudio da Unity usando o FMOD.
- WW2OGG - Converta o riff/rifx vorbis audioocinético para vorbis padrão ogg.
- Cavern-Motor de áudio baseado em objetos e pacote de codec com renderização Dolby Atmos, correção de salas, HRTF, aquisição de áudio de unidade com um clique e muito mais.
- RNBO Unity Audio Plugin - adaptador RNBO para o plug -in de áudio nativo da Unity.
- METASTES RNBO - Adaptador RNBO que implementa nós do meta -som.
^ De volta ao conteúdo ^
Digital Audio Workstation (DAW)
- Audacity-Audacity é um editor de áudio e gravador fácil de usar e de várias faixas para Windows, MacOS, GNU/Linux e outros sistemas operacionais.
- Rastreação - A rastreação é uma estação de trabalho de áudio de código aberto baseado em plataforma cruzada com uma interface intuitiva de usuário e poderosas funções de edição e mistura de áudio.
- Script Pro Ferramentas Pro SDK - O SDK Script Pro Ferramentas permite que você script Pro Tools usando uma API independente de idioma para criar novos fluxos de trabalho automatizados em Ferramentas Pro.
- REAY - Um invólucro pitônico para a API do Python de Reaper.
- Reaper -SDK - Reaper C/C ++ Extensão SDK.
- Retrates - Scripts gratuitos e de código aberto do X -Raym para Cockos Reaper.
- Retrates - Scripts Cockos Reaper.
- ReaBlink - Extensão do plug -in Reaper, fornecendo ligações de replicação para a sessão de link de ableton e implementações compatíveis com o plano de teste de ableton para o Reaper.
- Voodoohop-Ableton-Tools-Ableton Live Harmony and Tempo Tools. Aumentos Ableton vivem com uma visualização intuitiva da harmonia musical, além de permitir que a dinâmica de ritmo de uma faixa controlasse o ritmo mestre em tempo real.
- Abletonparsing - Analise um arquivo de clipe de ABLETON ASD (marcadores de urdidura e muito mais) em Python.
- Ableton Push - Uma biblioteca para trabalhar com o push de Ableton no navegador.
- PYFLP - Analisador de arquivo de projeto de estúdio FL.
- VST3SDK - VST 3 Plug -in SDK.
- TuneFlow -?+ Construa seus algoritmos de música e modelos de IA com a próxima geração Daw
- TuneFlow-Py-TuneFlow-Py é o Python SDK dos plugins de tuneflow.
- SO-VITS-SVC Plugin para TuneFlow-SO-VITS-SVC como um plug-in TuneFlow.
- Radium - um editor de música gráfica. Um rastreador de próxima geração.
- Bass Studio - Bass Studio é uma estação de trabalho em áudio digital (DAW) escrita em C ++. São fornecidas compilações Windows, MacOS e Linux. O formato do plug -in VST2 e CLAP são suportados.
- GRIDSOUND-O GridSound é uma estação de trabalho de áudio digital de áudio digital de código aberto, desenvolvido com HTML5 e mais precisamente com a nova API de áudio da Web.
- Meadowlark - Meadowlark é um (Trabalho em andamento) Free and Open Source DAW (Digital Audio Workstation) para Linux, Mac e Windows. Ele pretende ser uma ferramenta poderosa de gravação, composição, edição, design de som, mistura e masterização para artistas em todo o mundo, além de serem intuitivos e personalizáveis.
- Mixxx - Mixxx é um software de DJ gratuito que oferece tudo o que você precisa para realizar mixagens ao vivo.
- Hybrid-DJ-Set-Sincronize o software DJ (MIXXX) com dados puros para colocar instrumentos virtuais em um desempenho ao vivo.
- Lv2 - Lv2 é um padrão de plug -in para sistemas de áudio. Ele define uma API C extensível para plugins e um formato para diretórios de pacote independentes que contêm plugins, metadados e outros recursos.
- ARDOR - Registre, edite e misture no Linux, MacOS e Windows.
- LMMS - LMMS é uma alternativa de plataforma cruzada gratuita a programas comerciais como o FL Studio®, que permitem produzir música com seu computador. Isso inclui a criação de melodias e batidas, a síntese e a mistura de sons e a organização de amostras.
- Qtractor - O Qractor é um aplicativo de sequenciador de áudio/midi de várias faixas escrito em C ++ com a estrutura QT. A plataforma de destino é Linux, onde o Kit de conexão de áudio Jack (JACK) para áudio, e a Arquitetura Avançada de Som de Linux (ALSA) para MIDI, são as principais infraestruturas para evoluir como uma GUI de estação de trabalho de áudio de desktop Linux bastante frequentada, especialmente dedicada ao Estudo de casa pessoal.
- Smart-Audio-Mixer-Uma Modern Digital Audio Workstation (DAW) usando C ++/Juce.
- OpenVino ™ AI Plugins para Audacity - um conjunto de efeitos, geradores e analisadores de AI -I -iiled.
- Jackdaw-Uma estação de trabalho de áudio digital (DAW), focada no teclado, focada no teclado, pegando algumas dicas de design de editores de vídeo não lineares como o Avid.
- Ossia Score - Um seqüenciador intermediário que suporta áudio (VST, VST3, LV2, JSFX, etc.), bem como controle de vídeo e hardware (OSC, MIDI, DMX, NDI, MQTT, ROAP, etc.)
^ De volta ao conteúdo ^
Áudio espacial (SA)
- SPAUDIOPY - pacote espacial de áudio python. O foco (até agora) está nos codificadores e decodificadores de áudio espacial. O pacote inclui o processamento esférico de harmônicos esféricos e (renderizações binaurais de) decodificadores de alto -falantes, como VBAP e Allrad.
- Spatial_audio_framework (SAF)-O Spatial_audio_framework (SAF) é uma estrutura de código aberto e de plataforma cruzada para o desenvolvimento de algoritmos e software relacionados ao áudio espacial em C/C ++. Originalmente pretendido como um recurso para os pesquisadores do campo, a estrutura cresceu gradualmente em uma base de código bastante grande e bem documentada, compreendendo vários módulos distintos; com cada módulo direcionando um subcampo específico de áudio espacial (por exemplo, codificação/decodificação da Ambisonics, processamento de matriz esférica, panning de amplitude, processamento de hir, simulação de salas, etc.).
- HO-SIRR-A renderização da resposta de impulso espacial de ordem superior (HO-SIRR) é um método de renderização, que pode sintetizar as respostas de impulso da sala do alto-falante de saída de saída (RIRs) usando rirs de entrada esférica (Ambisonic/B-formato Ambisonic/B) da ordem arbitrária. Uma implementação do MATLAB do algoritmo de renderização da resposta de impulso espacial de ordem superior (HO-SIRR); Uma abordagem alternativa para reproduzir rirs ambisônicos sobre os alto -falantes.
- Spatgris - Spatgris é um software de espacialização sonora que libera compositores e designers de som das restrições das configurações de alto -falantes do mundo real. Com o plug-in ControlGris distribuído com spatgris, trajetórias espaciais ricas podem ser compostas diretamente no seu DAW e reproduzidas em tempo real em qualquer layout do alto-falante. É rápido, estável, de plataforma cruzada, fácil de aprender e trabalha com as ferramentas que você já conhece. O Spatgris suporta qualquer configuração do alto-falante, incluindo layouts 2D como quadriciclo, 5.1 ou anéis octofônicos e layouts 3D, como cúpulas de alto-falante, salas de concerto, teatros, etc. Projetos também podem ser misturados com estéreo usando uma função de transferência relacionada à cabeça binaural ou estéreo simples de cabeça binaural ou simples Panning.
- A AUDIO STEAM - O Steam Audio fornece uma solução completa de áudio que integra a simulação de ambiente e ouvinte. O HRTF melhora significativamente a imersão em VR; A propagação de som baseada em física completa a imersão auditiva recriando consistentemente como o som interage com o ambiente virtual.
- SPATIALAUDIOKIT - O Spatialaudiokit é um pacote SWIFT para facilitar a criação de aplicativos de áudio espacial nas plataformas da Apple.
- LibmySofa - Leitor para arquivos do sofá AES obter melhores hrtfs.
- Omnitone - Omnitone: Renderização de áudio espacial na web. O omnitono é uma implementação robusta da decodificação ambisônica e da renderização binaural escrita na API de áudio da web. Seu processo de renderização é alimentado pelos recursos nativos rápidos da Web Audio API (GainNode e Convolver), garantindo o desempenho ideal. A implementação do Omnitone é baseada na especificação da mídia espacial do Google e nos filtros binaurais de Sadie. Também alimenta o SDK de áudio de ressonância para a web.
- Mach1 Spatial - SDK espacial MACH1 inclui APIs para permitir que os desenvolvedores projetem aplicativos que possam codificar ou panar para uma renderização de áudio espacial de fluxos de áudio e/ou reprodução e decodificar mach1spatial 8 -canal Misturas de áudio espacial com orientação para decodificar a soma correta de saída do usuário do usuário orientação atual. Além disso, o SDK espacial Mach1 permite que os usuários convertem com segurança misturas de áudio surround/espacial de e para os formatos Mach1spatial ou Mach1Horizon VVBP .
- Sonspaces - SoundsPaces é uma plataforma de simulação acústica realista para pesquisa de IA incorporada audiovisual. Desde navegação audiovisual, exploração audiovisual até a reconstrução da planta audiovisual e ecolocalização e audiovisual, essa plataforma expande a pesquisa de visão incorporada para um escopo mais amplo de tópicos.
- Combinação acústica visual - Introduzimos a tarefa de correspondência acústica visual, na qual um clipe de áudio é transformado para parecer gravado em um ambiente de destino. Dada uma imagem do ambiente de destino e uma forma de onda para o áudio de origem, o objetivo é re-sintetizar o áudio para corresponder à acústica da sala de destino, conforme sugerido por sua geometria e materiais visíveis.
- Fast-RIR-Esta é a implementação oficial do nosso gerador de resposta de impulso de impulso (RIR Fast-RIR) baseado em rede neural para gerar respostas de impulso da sala (RIRs) para um determinado ambiente acústico.
- Geração de resposta a impulso PygSound-baseado no mecanismo de propagação de som geométrico de última geração.
- RIRIS - RIRIS é a implementação do MATLAB da interpolação da resposta de impulso da sala usando transformadas rápidas de cisalhamento.
- Raytracer paralelo-reverb-um raytracer para respostas de impulso (para reverb), influenciado por técnicas de iluminação gráficas raster.
- Synth 3D - Synthesizer VST com objetos de osciladores virtuais colocados no espaço 3D.
- LibBasicSoFA - Uma biblioteca muito básica para a leitura de arquivos de orientação espacialmente para acústica (SOFA), um formato para armazenar hrtfs e/ou brirs para reprodução de áudio binuaral.
- MESH2HRTF - Software aberto para o cálculo numérico das funções de transferência relacionadas à cabeça.
- Open Soft - Open Soft é uma implementação de software da API de áudio 3D Open.
- Soundscape_Ir - Soundscape_Ir é uma caixa de ferramentas baseada em Python de recuperação de informações da paisagem sonora, com o objetivo de ajudar na análise de gravações de paisagem sonora.
- Corpos de som - apresentamos um modelo que pode gerar campos de som 3D precisos de corpos humanos a partir de microfones de fone de ouvido e pose do corpo como entrada.
- So SoundScapy - Uma biblioteca Python para analisar e visualizar avaliações da paisagem sonora.
- AMBIX-VST ambisônico de plataforma cruzada, plug-ins lv2 com ordem variável para uso em estações de trabalho de áudio digital como Reaper ou ARDOR ou como aplicações independentes de Jack.
- HOAC - Codec Ambisonics de ordem superior para áudio espacial.
- OpenSoundLab - OpenSoundLab (OSL) faz de um som modular patching tridimensional em uma experiência de realidade mista usando o modo de repasse da Meta Quest.
- See-2-Sound? -som espacial de zero t-thot SOM SOM SPATIAL.
^ De volta ao conteúdo ^
Processamento de áudio da Web (WAP)
- Processamento de áudio do WebRTC - Ligação do Python do processamento de áudio WebRTC.
- Webchuck - Webchuck traz Chuck, uma linguagem de programação de áudio fortemente mais antiga, para a web! O código -fonte C ++ de Chuck foi compilado até WebAssembly (WASM) e é executado através da interface AudioWorkLetNode da API de áudio da Web.
- Midi.js -? Tornando a vida fácil de criar um aplicativo médio na web. Inclui uma biblioteca para programar a sinestesia em seu aplicativo para reconhecimento de memória ou criar efeitos de trippy. Converta o SoundFonts para guitarra, baixo, bateria, etc. no código que pode ser lido pelo navegador. Midi.js se une e se baseia em estruturas que trazem MIDI ao navegador. Combine-o com jasmídeos para criar um fluxo MIDI de radio da web semelhante a essa demonstração, ou com três.js, Sparks.js ou GLSL para criar experimentos de áudio/visual.
- Processador de voz da web - uma biblioteca para processamento de voz em tempo real em navegadores da web.
- Tone.js - Tone.js é uma estrutura de áudio da web para criar músicas interativas no navegador. A arquitetura do Tone.js pretende ser familiar para músicos e programadores de áudio, criando aplicativos de áudio baseados na Web. No alto nível, o Tone oferece recursos comuns de DAW (Digital Audio Workstation), como um transporte global para sincronizar e agendar eventos, além de sintetizadores e efeitos pré-construídos. Além disso, o Tone fornece blocos de construção de alto desempenho para criar seus próprios sintetizadores, efeitos e sinais de controle complexos.
- Audio.js - O Audiojs é uma biblioteca JavaScript que permite que a tag
<audio>
do HTML5 seja usada em qualquer lugar. Ele usa o nativo <audio>
quando disponível e volta a um flash player invisível para imitá -lo para outros navegadores. Ele também serve uma interface do usuário de player HTML consistente para todos os navegadores que podem ser estilizados CSS padrão usados. - Picos.js - componente de interface do usuário JavaScript para interagir com formas de onda de áudio.
- Howler.js - Biblioteca de áudio JavaScript para a Web moderna. O Howler.js torna o trabalho com áudio em JavaScript fácil e confiável em todas as plataformas. Howler.js é uma biblioteca de áudio para a web moderna. É o padrão da API de áudio da Web e volta ao áudio HTML5. Isso torna o trabalho com áudio em JavaScript fácil e confiável em todas as plataformas.
- Coffeecollider - Coffeecollider é um idioma para a síntese de áudio em tempo real e composição algorítmica no HTML5. O conceito deste projeto foi projetado como "Escreva CoffeeScript e seja processado como supercollider".
- Pico.js - Processador de áudio para a plataforma cruzada.
- timbre.js - timbre.js fornece um processamento funcional e sintetizando áudio em seus aplicativos da web com javascript moderno como jquery ou node.js. Possui muitos objetos T (formalmente: objeto timbre) que se conectam para definir o roteamento baseado em gráfico para a renderização geral de áudio. É um objetivo deste projeto abordar o processamento de áudio da próxima geração para a Web.
- RythM.JS - Uma biblioteca JavaScript que faz sua página dançar.
- P5. SOUN - P5. O SOUD estende P5 com funcionalidade de áudio da Web, incluindo entrada de áudio, reprodução, análise e síntese.
- WADJS - Uma biblioteca JavaScript para manipular áudio. Web Audio Daw. Use a API de áudio da Web para síntese de som dinâmico. É como o jQuery para seus ouvidos.
- Ableton.js - Ableton.js permite controlar sua instância ou instâncias de ableton usando o Node.js. Ele tenta cobrir o maior número possível de funções.
- Sound.js - "Sound.js" é micro -biblioteca que permite carregar, reproduzir e gerar efeitos sonoros e música para jogos e aplicativos interativos. É muito pequeno: menos de 800 linhas de código e sem dependências. Clique aqui para experimentar uma demonstração interativa. You can use it as-as, or integrate it into your existing framework.
- tuna - An audio effects library for the Web Audio API.
- XSound - XSound gives Web Developers Powerful Audio Features Easily !
- Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
- AudioMass - Free full-featured web-based audio & waveform editing tool.
- WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
- DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
- WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
- web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
- Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
- Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
- WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
- Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
- JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
- tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
- wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
- Aurora.js - JavaScript audio decoding framework.
- Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
- Pitch detection - Pitch detection in Web Audio using autocorrelation.
- SAT - Streaming Audiotransformers for online Audio tagging.
- WebAudioXML - An XML syntax for building Web Audio API applications.
- FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
- ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
- wave-resampler - PCM audio resampler written entirely in JavaScript.
- useSound - A React Hook for playing sound effects.
- Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
- audio-worklet-loader - Audio Worklet loader for webpack.
^ Back to Contents ^
Music Information Retrieval (MIR)
- Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
- Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
- Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
- mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
- Partitura - A python package for handling modern staff notation of music.
- Midifile - C++ classes for reading/writing Standard MIDI Files.
- MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
- mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
- Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
- Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
- AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
- Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
- crema - convolutional and recurrent estimators for music analysis.
- MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
- MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
- Music Exploration - App to explore latent spaces of music collections.
- LooPy - A data framework for music information retrieval focusing on electronic music.
- Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
- carat - Computer-aided rhythm analysis toolbox.
- miditoolkit - A python package for working with MIDI data.
- Midly - A feature-complete MIDI parser and writer focused on speed.
- libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
- PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
- solfege.ai ? - Detect solfege hand signs using machine learning ?
- libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
- jams - A JSON Annotated Music Specification for Reproducible MIR Research.
- Piano Trainer - A music practice program with MIDI support.
- quickly - A LilyPond library for python (slated to become the successor of python-ly).
- ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
- Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
- Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
- Parangonar - Parangonar is a Python package for note alignment of symbolic music.
- musicparser - Deep learning based dependency parsing for music sequences.
- musif - Music Feature Extraction and Analysis.
- pycompmusic - Tools to help researchers work with Dunya and CompMusic.
- CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
- Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
- pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
- PyABC - Python package for parsing and analyzing ABC music notation.
- mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
- MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
- iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
- Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
- musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
- midi-db - ? Data concerning MIDI standards.
^ Back to Contents ^
Music Generation (MG)
- isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
- MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
- music21 - music21 is a Toolkit for Computational Musicology.
- Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
- MusicLM - MusicLM: Generating Music From Text.
- SingSong - SingSong: Generating musical accompaniments from singing.
- Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
- Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
- RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
- riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
- Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
- Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
- MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
- Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
- MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
- SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
- Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
- Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
- Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
- libatm -
libatm
is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli
project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here. - Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
- MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
- PyMusicLooper - A script for creating seamless music loops, with play/export support.
- ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
- linuxwave - Generate music from the entropy of Linux ??
- Chord2Melody - Automatic Music Generation AI.
- symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
- AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
- WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
- DeBussy - Solo Piano Music AI Implementation.
- Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
- Somax 2 - Somax 2 is an application for musical improvisation and composition.
- Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
- LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
- Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
- JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
- Anticipatory - Anticipatory Music Transformer.
- MIDI Language Model - Generative modeling of MIDI files.
- modulo - A Toolkit for Tinkering with Digital Musical Instruments.
- MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
- FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.
^ Back to Contents ^
Speech Recognition (ASR)
- Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
- PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
- NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
- Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
- WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
- Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
- Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
- Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
- audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
- Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
- SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
- ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
- Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
- Leon - ? Leon is your open-source personal assistant.
- DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
- SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
- annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
- PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
- Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
- Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
- 3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
- FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
- Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
- dejavu - Audio fingerprinting and recognition in Python.
- Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
- OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
- MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
- UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
- paasr - Privacy Aware Automatic Speech Recognition.
- whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
- DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
- pypinyin - A Python tool for converting Chinese character to Pinyin.
- PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
- KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
- Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
- SALMONN - Speech Audio Language Music Open Neural Network.
- PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
- WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
- Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
- PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
- Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
- TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
- Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
- SwiftSpeech - A speech recognition framework designed for SwiftUI.
- SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.
^ Back to Contents ^
Speech Synthesis (TTS)
- VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
- SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
- VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
- NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
- WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
- FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
- MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
- HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
- edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
- Vocode - Vocode is an open-source library for building voice-based LLM applications.
- TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
- Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
- TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
- libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
- SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
- Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
- Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
- YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
- ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
- WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
- Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
- Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
- Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
- TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
- xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
- PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
- GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (poucas cenas de clonagem de voz).
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- RAD-MMM - A TTS model that makes a speaker speak new languages.
- BUD-E - A conversational and empathic AI Voice Assistant.
- Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
- lina-speech - linear attention based text-to-speech.
- ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
- RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
- StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
- ChatTTS - ChatTTS is a generative speech model for daily dialogue.
- StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
- Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
- MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
- MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
- OpenVoice - Instant voice cloning by MyShell.
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
- CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
- tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.
^ Back to Contents ^
Singing Voice Synthesis (SVS)
- NNSVS - Neural network-based singing voice synthesis library for research.
- Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
- OpenUtau - Open singing synthesis platform / Open source UTAU successor.
- so-vits-svc - SoftVC VITS Singing Voice Conversion.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
- Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
- Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
- DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
- lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
- Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
- VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
- midi2voice - Singing Synthesis from MIDI file.
- MoeGoe - Executable file for VITS inference.
- Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
- WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
- clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
- OpenVoice - Instant voice cloning by MyShell.
^ Back to Contents ^