Descarga audio development tools - audio development tools Descarga de código fuente

Herramientas de desarrollo de audio (ADT)

Esta es una lista de herramientas de desarrollo de sonido, audio y música que contiene aprendizaje automático, generación de audio, procesamiento de señales de audio, síntesis de sonido, audio de juegos, estación de trabajo de audio digital, audio espacial, recuperación de información musical, generación de música, reconocimiento de voz, síntesis de voz, canto, síntesis de voz y más.

Tabla de contenido

Aprendizaje automático (ML)
Generación de audio (AG)
Procesamiento de señales de audio (ASP)
Síntesis de sonido (SS)
Audio del juego (GA)
Estación de trabajo de audio digital (DAW)
Audio espacial (SA)
Procesamiento de audio web (WAP)
Recuperación de información musical (MIR)
Generación Musical (MG)
Reconocimiento de voz (ASR)
Síntesis del habla (TTS)
Síntesis de voz cantada (SVS)

Lista de proyectos

Aprendizaje automático (ML)

librosa - Librosa es un paquete de Python para análisis de música y audio. Proporciona los componentes básicos necesarios para crear sistemas de recuperación de información musical.
Essentia: Essentia es una biblioteca C++ de código abierto para análisis de audio y recuperación de información musical basada en audio publicada bajo la licencia Affero GPLv3. Contiene una extensa colección de algoritmos reutilizables que implementan funcionalidad de entrada/salida de audio, bloques de procesamiento de señales digitales estándar, caracterización estadística de datos y un gran conjunto de descriptores musicales espectrales, temporales, tonales y de alto nivel. Biblioteca C++ para análisis, descripción y síntesis de audio y música, incluidos enlaces de Python.
DDSP - DDSP: Procesamiento de Señales Digitales Diferenciables. DDSP es una biblioteca de versiones diferenciables de funciones DSP comunes (como sintetizadores, formadores de ondas y filtros). Esto permite que estos elementos interpretables se utilicen como parte de un modelo de aprendizaje profundo, especialmente como capas de salida para la generación de audio.
MIDI-DDSP - MIDI-DDSP: Control detallado de la interpretación musical mediante modelado jerárquico. MIDI-DDSP es un modelo de generación de audio jerárquico para sintetizar MIDI ampliado desde DDSP.
DDSP-VST: efecto y sintetizador neuronal DDSP en tiempo real. Complementos VST3/AU y aplicaciones de escritorio creadas utilizando el marco JUCE y DDSP.
torchsynth: un sintetizador modular con GPU opcional en pytorch, 16200 veces más rápido que en tiempo real, para investigadores de aprendizaje automático de audio.
aubio - aubio es una herramienta diseñada para la extracción de anotaciones de señales de audio. Sus características incluyen segmentar un archivo de sonido antes de cada uno de sus ataques, realizar detección de tono, marcar el ritmo y producir transmisiones midi a partir de audio en vivo.
audioFlux: audioFlux es una biblioteca de herramientas de aprendizaje profundo para análisis de audio y música y extracción de funciones. Admite docenas de métodos de transformación de análisis de tiempo-frecuencia y cientos de combinaciones de características correspondientes en el dominio del tiempo y la frecuencia. Se puede proporcionar a redes de aprendizaje profundo para capacitación y se utiliza para estudiar diversas tareas en el campo del audio, como clasificación, separación, recuperación de información musical (MIR) y ASR, etc.
Polymath: Polymath utiliza el aprendizaje automático para convertir cualquier biblioteca de música (por ejemplo, de Hard-Drive o YouTube) en una biblioteca de muestras de producción musical. La herramienta separa automáticamente las canciones en temas (tiempos, bajo, etc.), las cuantiza al mismo tempo y beat-grid (por ejemplo, 120 bpm), analiza la estructura musical (por ejemplo, estrofa, coro, etc.), clave (por ejemplo, C4, E3). , etc.) y otra información (timbre, volumen, etc.) y convierte audio a midi. El resultado es una biblioteca de muestras con capacidad de búsqueda que agiliza el flujo de trabajo para productores musicales, DJ y desarrolladores de audio ML.
IPython: IPython proporciona un completo conjunto de herramientas para ayudarle a aprovechar al máximo el uso interactivo de Python.
torchaudio: una biblioteca de audio para PyTorch. Manipulación y transformación de datos para el procesamiento de señales de audio, con tecnología de PyTorch.
TorchLibrosa: implementación PyTorch de Librosa.
torch-audiomentations: aumento rápido de datos de audio en PyTorch. Inspirado en audiomentaciones. Útil para el aprendizaje profundo.
Aumentos de audio de PyTorch: biblioteca de aumentos de datos de audio para PyTorch para audio en el dominio del tiempo.
Asteroid: Asteroid es un conjunto de herramientas de separación de fuentes de audio basado en Pytorch que permite una experimentación rápida con conjuntos de datos comunes. Viene con un código fuente que admite una amplia gama de conjuntos de datos y arquitecturas, y un conjunto de recetas para reproducir algunos artículos importantes.
Kapre - Kapre: Preprocesadores de audio Keras. Preprocesadores de audio Keras: calcula STFT, InverseSTFT, Melspectrogram y otros en GPU en tiempo real.
praudio: marco de preprocesamiento de audio para aplicaciones de audio de aprendizaje profundo.
automix-toolkit: modelos y conjuntos de datos para entrenar modelos de mezcla automática de aprendizaje profundo.
DeepAFx - DeepAFx: efectos de audio profundos. Los efectos de procesamiento de señales de audio (FX) se utilizan para manipular las características del sonido en una variedad de medios. Sin embargo, muchos FX pueden resultar difíciles o tediosos de usar, especialmente para usuarios novatos. En nuestro trabajo, nuestro objetivo es simplificar cómo se utilizan los efectos de audio entrenando una máquina para que use los efectos directamente y realice tareas automáticas de producción de audio. Al utilizar herramientas conocidas y existentes para procesar y sugerir parámetros de control, podemos crear un paradigma único que combine el poder de la IA con el control creativo humano para empoderar a los creadores.
nnAudio: nnAudio es una caja de herramientas de procesamiento de audio que utiliza la red neuronal convolucional PyTorch como backend. Al hacerlo, se pueden generar espectrogramas a partir de audio sobre la marcha durante el entrenamiento de la red neuronal y se pueden entrenar los núcleos de Fourier (por ejemplo, o núcleos CQT).
WavEncoder: WavEncoder es una biblioteca de Python para codificar señales de audio, transformaciones para aumento de audio y entrenar modelos de clasificación de audio con el backend de PyTorch.
SciPy: SciPy (pronunciado "Sigh Pie") es un software de código abierto para matemáticas, ciencias e ingeniería. Incluye módulos de estadística, optimización, integración, álgebra lineal, transformadas de Fourier, procesamiento de señales e imágenes, solucionadores de ODE y más.
pyAudioAnalysis: biblioteca de análisis de audio de Python: extracción, clasificación, segmentación y aplicaciones de funciones.
Mutagen: Mutagen es un módulo de Python para manejar metadatos de audio. Admite archivos de audio ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG y AIFF. Se admiten todas las versiones de ID3v2 y se analizan todos los marcos ID3v2.4 estándar. Puede leer encabezados Xing para calcular con precisión la tasa de bits y la longitud de los MP3. Las etiquetas ID3 y APEv2 se pueden editar independientemente del formato de audio. También puede manipular transmisiones Ogg a nivel de paquete/página individual.
LibXtract: LibXtract es una biblioteca simple, portátil y liviana de funciones de extracción de características de audio. El propósito de la biblioteca es proporcionar un conjunto relativamente exhaustivo de primitivas de extracción de características que están diseñadas para ser "en cascada" para crear jerarquías de extracción.
dejavu - Huella digital y reconocimiento de audio en Python. Dejavu puede memorizar audio escuchándolo una vez y tomando sus huellas digitales. Luego, al reproducir una canción y grabar la entrada del micrófono o leer desde el disco, Dejavu intenta hacer coincidir el audio con las huellas digitales contenidas en la base de datos, devolviendo la canción que se está reproduciendo.
Matchering - ?️ Coincidencia y masterización de audio de código abierto. Matchering 2.0 es una novedosa aplicación web en contenedores y una biblioteca de Python para la comparación y masterización de audio.
TimeSide: TimeSide es un marco de Python que permite análisis de audio, imágenes, transcodificación, transmisión y etiquetado de bajo y alto nivel. Su API de alto nivel está diseñada para permitir el procesamiento complejo en conjuntos de datos muy grandes de cualquier recurso de audio o video con una arquitectura de complemento, un backend escalable seguro y una interfaz web dinámica extensible.
Meyda: Meyda es una biblioteca de extracción de funciones de audio de Javascript. Meyda admite tanto la extracción de funciones sin conexión como la extracción de funciones en tiempo real mediante la API de Web Audio. Escribimos un artículo al respecto, que está disponible aquí.
Audiomentations: una biblioteca de Python para el aumento de datos de audio. Inspirado en albumentaciones. Útil para el aprendizaje profundo. Se ejecuta en la CPU. Admite audio mono y audio multicanal. Se puede integrar en canales de capacitación, por ejemplo, en Tensorflow/Keras o Pytorch. Ha ayudado a personas a obtener resultados de clase mundial en competencias de Kaggle. Lo utilizan empresas que fabrican productos de audio de próxima generación.
soundata: biblioteca de Python para descargar, cargar y trabajar con conjuntos de datos de sonido.
auraloss: una colección de funciones de pérdida centradas en audio en PyTorch.
Neutone: comunidad y complemento de audio de IA. Cerrando la brecha entre la investigación de la IA y la creatividad
Waveformer: una arquitectura eficiente para la extracción de sonido objetivo en tiempo real.
EfficientAT: etiquetado de audio eficiente a gran escala. Proporcionamos modelos preentrenados de AudioSet listos para el entrenamiento posterior y la extracción de incrustaciones de audio.
EfficientAT_HEAR: evaluación de modelos EfficientAT en el punto de referencia de evaluación holística de representaciones de audio.
VAD-python: detector de actividad de voz en Python. Código Python para aplicar el detector de actividad de voz al archivo wave. Detector de actividad de voz basado en la relación entre la energía en la banda del habla y la energía total.
Diffsynth: un sintetizador musical diferenciable en PyTorch.
DDSP en tiempo real: DDSP en tiempo real (transmisión) en PyTorch compatible con neutone.
pc-ddsp: Vocoders DDSP de tono controlable.
SSSSM-DDSP: combinación de sonido de sintetizador semisupervisado con DSP diferenciable.
GOLF: un codificador de voz neuronal basado en DDSP.
audacitorch - ¡Envoltorios de PyTorch para usar tu modelo en audacity!
Scyclone: Scyclone es un complemento de audio que utiliza tecnología de transferencia de timbre neuronal para ofrecer un nuevo enfoque a la producción de audio.
Scyclone AI: cree ajustes preestablecidos para Scyclone: un complemento de transferencia de timbre neuronal en tiempo real.
Programación de sintetizador automático multitarea: este es el código para el proyecto de programación de sintetizador automático multitarea.
NeuralNote: complemento de audio para transcripción de audio a MIDI mediante aprendizaje profundo.
AudioDec: un códec de audio neuronal de alta fidelidad para transmisión de código abierto.
PaSST - Entrenamiento eficiente de transformadores de audio con Patchout.
Speech_data_augment: un resumen de los algoritmos de aumento de datos de voz.
AugLy: una biblioteca de aumentos de datos para audio, imágenes, texto y video.
NeuraFuzz: complemento de audio neuronal basado en el diseño de circuitos fuzz analógicos personalizados.
GUI de Ultimate Vocal Remover: GUI para un Vocal Remover que utiliza redes neuronales profundas.
Frechet Audio Distance: una biblioteca liviana para el cálculo de Frechet Audio Distance.
LAPE: un marco unificado para el procesamiento y la evaluación de audio de bajos recursos (preentrenamiento SSL y ajuste final).
SDK de Azure para Python: este repositorio está destinado al desarrollo activo del SDK de Azure para Python.
Panotti: un clasificador de audio de red neuronal multicanal que utiliza Keras.
Allie: Allie es un marco para crear modelos de aprendizaje automático a partir de archivos de audio, texto, imágenes, videos o .CSV.
Torchplugins: complementos Max/MSP, PureData y Unity para cargar modelos de Pytorch.
aeiou - (ML) utilidades de E/S de ingeniería de audio.
BirdNET-Analyzer: analizador BirdNET para el procesamiento científico de datos de audio.
spring-reverb-dl-models: modelado analógico virtual de Spring Reverb con aprendizaje profundo.
EVAR ~ - EVAR ~ Paquete de evaluación de Representaciones de Audio.
Julius: DSP rápido basado en PyTorch para audio y señales 1D.
NeuralDX7: experimentos aleatorios de aprendizaje automático relacionados con el clásico Yamaha DX7.
HANCE: HANCE ofrece técnicas de procesamiento de señales de alta calidad desarrolladas por especialistas en aprendizaje automático, ingenieros de sonido y expertos en procesamiento de audio. Nuestra tecnología está diseñada para brindar a los usuarios la mejor experiencia de audio posible al eliminar el ruido, la reverberación y otros problemas de señal.
IDEAW: Marca de agua de audio neuronal robusta con doble integración invertible.
SyNEThesia: SyNEThesia es un visualizador de música y sonido basado en el aprendizaje profundo, y un juego de palabras sobre la sinestesia, una condición neurológica en la que uno percibe un estímulo de múltiples maneras (por ejemplo, viendo un sonido).
Voxaboxen: Voxaboxen es un marco de aprendizaje profundo diseñado para encontrar los tiempos de inicio y finalización de eventos sonoros (posiblemente superpuestos) en una grabación.
vocal-separate: una herramienta extremadamente simple para separar voces y música de fondo, completamente localizada para operación web, utilizando modelos de 2 tallos/4 tallos/5 tallos.
Mejora del habla: aprendizaje profundo para eliminar el ruido del audio.
SNAC: códec de audio neuronal multiescala (SNAC) que comprime audio de 44,1 kHz en códigos discretos a una tasa de bits baja.
Supervoice GPT: un modelo GPT que convierte de texto a fonemas con duraciones adecuadas para alimentar el sintetizador de voz.
Edición de audio: edición de audio basada en texto y sin supervisión Zero-Shot mediante inversión DDPM.
MAX-Audio-Classifier - Intercambio de activos del modelo de desarrollador de IBM: clasificador de audio.
anira: una arquitectura para la inferencia de redes neuronales en aplicaciones de audio en tiempo real.
FakeSound: detección general de audio deepfake.
Audio Mamba: modelo de espacio de estados bidireccional para el aprendizaje de representación de audio.
SSAMBA - SSAMBA: Aprendizaje de representación de audio autosupervisado con el modelo espacial de estados Mamba.
SLAM-LLM: SLAM-LLM es un conjunto de herramientas de aprendizaje profundo que permite a investigadores y desarrolladores entrenar un modelo de lenguaje grande multimodal (MLLM) personalizado, centrándose en el procesamiento de voz, lenguaje, audio y música.
MIDI2vec - MIDI2vec: Aprendizaje de incrustaciones para representaciones de espacios vectoriales MIDI.

^ Volver al contenido ^

Generación de audio (AG)

AudioLCM: generación de texto a audio con modelos de consistencia latente.
Auffusion - Auffusion: Aprovechando el poder de la difusión y los modelos de lenguaje grandes para la generación de texto a audio.
Audiobox - Audiobox: Generación de audio unificada con indicaciones en lenguaje natural.
Amphion - Amphion: un conjunto de herramientas de generación de voz, música y audio de código abierto.
Nendo: el conjunto de herramientas de audio Nendo AI.
Audio estable: difusión de audio latente condicionada por sincronización rápida.
WavJourney: creación de audio compositivo con modelos de lenguaje grandes.
Audiocraft: Audiocraft es una biblioteca de PyTorch para investigaciones de aprendizaje profundo sobre generación de audio.
vschaos2 - vschaos2: síntesis de audio neuronal vintage.
Resonador neuronal: síntesis de sonido de cuerpo rígido con resonadores modales diferenciables.
SoundStorm - SoundStorm: Generación eficiente de audio paralelo.
SpeechGPT - SpeechGPT: potenciar modelos de lenguaje grandes con habilidades conversacionales intermodales intrínsecas.
CLAPSpeech - CLAPSpeech: Aprendizaje de prosodia a partir del contexto del texto con entrenamiento previo de lenguaje contrastivo y audio.
AudioGPT - AudioGPT: comprensión y generación de voz, música, sonido y cabeza parlante.
Bark: Bark es un modelo de conversión de texto a audio basado en transformador creado por Suno. Bark puede generar voz multilingüe muy realista, así como otros tipos de audio, incluida música, ruido de fondo y efectos de sonido simples.
TANGO - TANGO es un modelo de difusión latente (LDM) para la generación de texto a audio (TTA). TANGO puede generar audios realistas que incluyen sonidos humanos, sonidos de animales, sonidos naturales y artificiales y efectos de sonido a partir de indicaciones textuales.
ArchiSound - Generación de audio mediante modelos de difusión, en PyTorch.
WaveGAN - WaveGAN: aprenda a sintetizar audio sin procesar con redes generativas adversarias.
NeuralSound: síntesis de sonido modal basada en el aprendizaje con transferencia acústica.
RAVE - RAVE: AutoEncoder variacional de audio en tiempo real. Un codificador automático variacional para una síntesis de audio neuronal rápida y de alta calidad.
AudioLDM - AudioLDM: Generación de texto a audio con modelos de difusión latente.
Make-An-Audio - Make-An-Audio: generación de texto a audio con modelos de difusión mejorados y rápidos.
Make-An-Audio 3 - Make-An-Audio 3: Transformación de texto en audio mediante transformadores de gran difusión basados en flujo.
Moûsai - Moûsai: texto a audio con difusión latente de contexto largo.
Im2Wav: generación de audio guiada por imágenes. Proponemos Im2Wav, un sistema de generación de audio de dominio abierto guiado por imágenes. Dada una imagen de entrada o una secuencia de imágenes, Im2Wav genera un sonido semánticamente relevante.
Oobleck: códecs VAE abiertos tipo soundstream para síntesis de audio neuronal descendente.
USS: esta es la implementación de PyTorch de la separación de fuentes universal con datos débilmente etiquetados. El sistema USS puede detectar y separar automáticamente clases de sonido de una grabación real. El sistema USS puede separar hasta cientos de clases de sonido en una estructura de ontología jerárquica.
Difusores - ? Difusores es la biblioteca de referencia para modelos de difusión previamente entrenados de última generación para generar imágenes, audio e incluso estructuras 3D de moléculas.
ONE-PEACE: un modal de representación general que abarca modalidades de visión, audio y lenguaje.
tiny-audio-diffusion: este es un repositorio para generar muestras de audio cortas y entrenar modelos de difusión de formas de onda en una GPU con menos de 2 GB de VRAM.
stable-audio-tools: modelos generativos para generación de audio condicional.
CTAG: generación creativa de texto a audio mediante programación de sintetizador.
Audiogen Codec: un códec de audio neuronal estéreo de 48 kHz de baja compresión para audio general, que optimiza la fidelidad del audio.
WavCraft: WavCraft es un agente de inteligencia artificial para la creación y edición de audio.
FoleyCrafter - FoleyCrafter: Da vida a vídeos silenciosos con sonidos realistas y sincronizados.

^ Volver al contenido ^

Procesamiento de señales de audio (ASP)

SouPyX: SouPyX es un espacio muy colorido para la exploración de audio, adecuado para la investigación y exploración en una variedad de campos del audio. En SouPyX puedes realizar investigaciones y exploraciones en procesamiento de audio, síntesis de sonido, efectos de audio, audio espacial, visualización de audio, audio AI y mucho más.
SoundFile: SoundFile es una biblioteca de audio basada en libsndfile, CFFI y NumPy.
Audio DSPy: audio_dspy es un paquete de Python para herramientas de procesamiento de señales de audio.
pyAudioDspTools: pyAudioDspTools es un paquete de Python 3 para manipular audio simplemente usando numpy.
wave: el módulo wave proporciona una interfaz conveniente para el formato de sonido WAV. No admite compresión/descompresión, pero sí mono/estéreo.
FFmpeg: FFmpeg es una colección de bibliotecas y herramientas para procesar contenido multimedia como audio, video, subtítulos y metadatos relacionados.
Opus: compresión de audio moderna para Internet.
Pedalboard: Pedalboard es una biblioteca de Python para trabajar con audio: leer, escribir, agregar efectos y más. Admite los formatos de archivos de audio más populares y una serie de efectos de audio comunes listos para usar, y también permite el uso de formatos VST3 y Audio Unit para complementos de terceros.
PyAudio: PyAudio proporciona enlaces de Python para PortAudio v19, la biblioteca de E/S de audio multiplataforma. Con PyAudio, puedes usar Python fácilmente para reproducir y grabar audio en una variedad de plataformas, como GNU/Linux, Microsoft Windows y Apple macOS.
PortAudio: PortAudio es una biblioteca de E/S de audio gratuita, multiplataforma y de código abierto. Le permite escribir programas de audio simples en 'C' o C++ que se compilarán y ejecutarán en muchas plataformas, incluidas Windows, Macintosh OS X y Unix (OSS/ALSA). Su objetivo es promover el intercambio de software de audio entre desarrolladores en diferentes plataformas. Muchas aplicaciones utilizan PortAudio para E/S de audio.
Pyo - pyo es un módulo de Python escrito en C para ayudar a la creación de scripts de procesamiento de señales digitales. Módulo Python DSP. Con pyo, el usuario podrá incluir cadenas de procesamiento de señales directamente en scripts o proyectos de Python y manipularlos en tiempo real a través del intérprete.
tinytag: tinytag es una biblioteca para leer metadatos musicales de los archivos de audio más comunes en Python puro. Lea metadatos de audio y música y la duración de archivos MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave y AIFF con Python 2 o 3.
Friture - Friture es una aplicación para visualizar y analizar datos de audio en vivo en tiempo real. Friture muestra datos de audio en varios widgets, como un osciloscopio, un analizador de espectro o un espectrograma 2D móvil.
sounddevice: este módulo de Python proporciona enlaces para la biblioteca PortAudio y algunas funciones convenientes para reproducir y grabar matrices NumPy que contienen señales de audio.
Pydub: manipule audio con una interfaz sencilla y sencilla de alto nivel.
NAudio: biblioteca de audio y MIDI para .NET.
SoundCard: SoundCard es una biblioteca para reproducir y grabar audio sin recurrir a una extensión CPython. En cambio, se implementa utilizando el maravilloso CFFI y las bibliotecas de audio nativas de Linux, Windows y macOS.
TarsosDSP: TarsosDSP es una biblioteca Java para procesamiento de audio. Su objetivo es proporcionar una interfaz fácil de usar para algoritmos prácticos de procesamiento de música implementados, de la manera más simple posible, en Java puro y sin otras dependencias externas.
Maximilian: Maximilian es una biblioteca de procesamiento de señales y síntesis de audio multiplataforma y multiobjetivo. Fue escrito en C++ y proporciona enlaces a Javascript.
Synthesis ToolKit en C++ (STK): Synthesis ToolKit en C++ (STK) es un conjunto de clases de síntesis algorítmica y procesamiento de señales de audio de código abierto escritas en el lenguaje de programación C++.
JUCE: JUCE es un marco de aplicación C++ multiplataforma de código abierto para crear aplicaciones móviles y de escritorio de alta calidad, incluidos complementos y hosts de complementos de audio VST, VST3, AU, AUv3, AAX y LV2. JUCE se puede integrar fácilmente con proyectos existentes a través de CMake, o se puede utilizar como herramienta de generación de proyectos a través de Projucer, que admite la exportación de proyectos para Xcode (macOS e iOS), Visual Studio, Android Studio, Code::Blocks y Linux Makefiles como además de contener un editor de código fuente.
iPlug 2: marco de complementos de audio C++ para escritorio, dispositivos móviles y web.
CHOC: una colección de clases de solo encabezado, con licencia permisiva, para proporcionar tareas básicas útiles con el mínimo de dependencias.
Q - Q es una biblioteca C++ multiplataforma para procesamiento de señales de audio digital. La biblioteca Q DSP, que lleva el nombre del “factor Q”, un parámetro adimensional que describe la calidad de un circuito resonante, está diseñada para ser simple y elegante, como sugiere la simplicidad de su nombre, y lo suficientemente eficiente como para ejecutarse en pequeños microcontroladores.
BasicDSP - BasicDSP - Una herramienta para procesar audio/experimentar con el procesamiento de señales.
DaisySP: una potente biblioteca DSP de código abierto en C++.
Kit de herramientas de procesamiento de señales de voz (SPTK): el kit de herramientas de procesamiento de señales de voz (SPTK) es un conjunto de herramientas de procesamiento de señales de voz para entornos UNIX, por ejemplo, análisis LPC, análisis PARCOR, análisis LSP, filtro de síntesis PARCOR, filtro de síntesis LSP, técnicas de cuantificación vectorial. y otras versiones extendidas de ellos.
eDSP: eDSP (procesamiento sencillo de señales digitales) es un marco de procesamiento de señales digitales escrito en C++ moderno que implementa algunas de las funciones y algoritmos comunes que se utilizan con frecuencia en el procesamiento de señales digitales, la ingeniería de audio y los sistemas de telecomunicaciones.
KFR: KFR es un marco DSP C++ de código abierto que se centra en un alto rendimiento. Marco DSP C++ moderno y rápido, FFT, conversión de frecuencia de muestreo, filtros FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON).
MWEngine: motor de audio y DSP para Android, escrito en C++ que proporciona un rendimiento de baja latencia dentro de un contexto musical, al tiempo que proporciona una API Java/Kotlin. Admite OpenSL y AAudio.
LabSound: LabSound es un motor de audio basado en gráficos en C++. El motor está empaquetado como una biblioteca estática que incluye baterías y está destinada a la integración en muchos tipos de software: juegos, visualizadores, instalaciones interactivas, entornos de codificación en vivo, complementos VST, aplicaciones de edición/secuenciación de audio y más.
Gist: Gist es una biblioteca de análisis de audio basada en C++.
Realtime_PyAudio_FFT: análisis de audio en tiempo real en Python, utilizando PyAudio y Numpy para extraer y visualizar funciones FFT de la transmisión de audio.
Espectro: análisis espectral en Python. Spectrum es una biblioteca de Python que contiene herramientas para estimar densidades espectrales de potencia basadas en transformadas de Fourier, métodos paramétricos o análisis de valores propios. Los métodos de Fourier se basan en correlograma, periodograma y estimaciones de Welch. Están disponibles ventanas ahusadas estándar (Hann, Hamming, Blackman) y otras más exóticas (DPSS, Taylor,…).
tidstream: herramientas para generar y manipular transmisiones Vorbis y Opus en vivo.
AudioTraits: AudioTraits es una abstracción diseñada para hacer que las pruebas de procesamiento de audio sean más convenientes y legibles. Un 'rasgo de audio' analiza una señal de audio determinada (algunos o todos sus canales) y comprueba una determinada propiedad. El resultado de esta verificación es booleano, lo que permite integrarlo fácilmente en cualquier marco de prueba unitaria.
editor genMDM: una interfaz basada en web para genMDM, un controlador MIDI para Sega Mega Drive y Genesis. También es compatible con la interfaz MIDI Mega Drive.
3DAudioVisualizers: una suite OpenGL Audio Visualizer en C++ que utiliza JUCE para audio y GUI.
AudioStretchy: AudioStretchy es una biblioteca de Python que le permite estirar el tiempo de las señales de audio sin cambiar su tono.
SwiftAudio: SwiftAudioEx es un reproductor de audio para iOS escrito en Swift, lo que simplifica el trabajo con la reproducción de audio de transmisiones y archivos.
WaveTools: WaveTools es un marco para manipular archivos de audio; Archivos WAVE (.wav) en particular.
SimplyCoreAudio-? Un marco Swift que tiene como objetivo hacer que el uso de Core Audio sea menos tedioso en macOS.
DPF - Marco de complemento DISTRHO. DPF está diseñado para hacer que el desarrollo de nuevos complementos sea una tarea fácil y agradable.
Complemento Neural Amp Modeler: un complemento VST3/AudioUnit para Neural Amp Modeler, creado con iPlug2.
lsp-dsp-lib: biblioteca DSP para procesamiento de señales.
Hip-Hop: biblioteca para escribir complementos de audio que ejecutan la interfaz de usuario en una vista web. Basado en DPF.
MGT-python: Caja de herramientas de gestos musicales para Python.
ASP: herramientas Python de procesamiento de señales de audio.
TinyAudio: TinyAudio es una biblioteca de salida de audio multiplataforma.
pymixconsole: consola de mezclas multipista sin cabeza en Python.
Effects-plugin: una plantilla de complemento de efectos de audio que utiliza Elementary y JUCE.
miniaudio: biblioteca de captura y reproducción de audio escrita en C, en un único archivo fuente.
AudioMass: herramienta gratuita de edición de formas de onda y audio basada en web y con todas las funciones.
Muestra de reproductor de música universal para Android: una aplicación de audio de muestra para Android.
jsfx: una colección gratuita de complementos JS (JesuSonic) para Reaper.
Fourier: Transformadas rápidas de Fourier (FFT) en Rust.
ProtoFaust: creación de prototipos DSP en Faust para el sintetizador modular VCV Rack.
Polar - Motor de audio para procesamiento CUDA (Windows/Linux).
Convertidor de audio a MIDI: programa para detectar el tono de archivos WAV y escribir en el tiempo MIDI cuantificado.
AudioTSM: AudioTSM es una biblioteca de Python para procedimientos de modificación de escala de tiempo de audio en tiempo real, es decir, algoritmos que cambian la velocidad de una señal de audio sin cambiar su tono.
Multi-Filter-Delay: un efecto de audio digital original programado a través de Juce/C++.
convoLV2: convoLV2 es un complemento LV2 para convolucionar señales de audio con latencia cero.
Cloud Seed: Cloud Seed es un complemento de reverberación algorítmica creado en C# y C++ para emular espacios enormes e infinitos y ecos modulados.
Música de fondo: Música de fondo, una utilidad de audio de macOS: pausa automáticamente tu música, establece el volumen de las aplicaciones individuales y graba el audio del sistema.
audiowaveform: programa C++ para generar datos de formas de onda y renderizar imágenes de formas de onda a partir de archivos de audio.
Mutagen: módulo de Python para manejar metadatos de audio.
lewton: decodificador Vorbis escrito en Rust puro.
Hound: una biblioteca de codificación y decodificación WAV en Rust.
rodio: biblioteca de reproducción de audio de Rust.
CPAL: biblioteca de E/S de audio multiplataforma en Rust puro.
CSCore: CSCore es una biblioteca de audio .NET gratuita que está completamente escrita en C#.
TinyOSC: una biblioteca mínima de Open Sound Control (OSC) escrita en Vanilla C.
TinyWav: una biblioteca C mínima para leer y escribir archivos de audio WAV (16b-int y 32b-float).
JAsioHost: un host ASIO basado en Java (entrada/salida de flujo de audio).
PyWavelets: PyWavelets es una biblioteca gratuita de código abierto para transformaciones wavelet en Python. Las wavelets son funciones de base matemática que se localizan tanto en el tiempo como en la frecuencia.
ChowMultiTool: complemento de audio multiherramienta.
Modelos RE201: modelos digitales del Roland RE201. VST3, complementos AU y código fuente.
RtAudio: un conjunto de clases de C++ que proporcionan una API común para entrada/salida de audio en tiempo real en Linux (ALSA, JACK, PulseAudio y OSS nativos), Macintosh OS X (CoreAudio y JACK) y Windows (DirectSound, ASIO y WASAPI). sistemas operativos.
RtAudio-rs: contenedor seguro de Rust y enlaces a RtAudio.
PFFFT: una FFT bastante rápida y una convolución rápida con PFFASTCONV.
SHAART: SHAART es un conjunto de herramientas de análisis de audio basado en Python, con fines educativos.
TD-JUCE: audio JUCE y VST en TouchDesigner.
JIVE - JIVE es un paquete de módulos JUCE centrados en el deseo de tener un enfoque más moderno para el desarrollo de UI.
Amplituda - Amplituda: una biblioteca de Android basada en FFMPEG que procesa archivos de audio y proporciona una variedad de muestras.
TagLib: biblioteca de metadatos de audio TagLib.
speexdsp - Biblioteca Python del cancelador de eco Speex.
PyPam: herramienta de análisis acústico pasivo de Python para monitoreo acústico pasivo (PAM).
AudioTools: manejo de datos de audio orientado a objetos, con aumentos impulsados por GPU y más.
Equalize It: el proyecto es un complemento VST para ecualización. La interfaz de usuario incluye un analizador de espectro, un panel de control de filtro, curvas de respuesta de frecuencia y medidores de nivel.
JDSP4Linux: un procesador de efectos de audio para clientes PipeWire y PulseAudio.
FIRconv: implementaciones en Python de filtros de respuesta de impulso finito (FIR).
OpenDSP: sistema operativo Linux integrado en tiempo real para DSP de audio y vídeo.
ultralight-juce: integración del renderizador Ultralight C++/HTML con JUCE para obtener interfaces de usuario más bonitas.
Vult: Vult es especialmente útil al programar algoritmos de procesamiento de señales digitales (DSP), como efectos de audio o sintetizadores.
CloudSeed [JUCE] - UI basada en JUCE para el complemento VST de CloudSeed.
TFliteTemplatePlugin: complementos de plantilla JUCE para usar TensorFlow lite para inferencia de aprendizaje profundo.
DrumFixer: DrumFixer es un complemento de audio diseñado para ayudar a los ingenieros de mezcla a lograr un mejor sonido de batería.
BasicAudioPlayer: una biblioteca Swift que facilita la creación de reproductores de audio basados en AVAudioEngine.
PLAudioMixer: mezclador de audio simple basado en el modo de renderizado fuera de línea de AVAudioEngine.
estratto: Estratto es una biblioteca Rust potente y fácil de usar diseñada para extraer funciones de audio enriquecidas a partir de señales de audio digitales.
vampy: un contenedor que permite escribir complementos de análisis de audio de Vamp en Python.
SoundWave: SoundWave es una vista personalizable que representa sonidos a lo largo del tiempo.
PyAV: PyAV es un enlace Pythonic para las bibliotecas FFmpeg.
audio-dsp: jugando con el desarrollo de complementos de audio + DSP.
openSMILE - openSMILE (Interpretación de voz y música de código abierto mediante extracción de espacio grande) es un conjunto de herramientas completo y de código abierto para análisis, procesamiento y clasificación de audio, especialmente dirigido a aplicaciones de voz y música.
Carla: Carla es un host de complementos de audio con todas las funciones, compatible con muchos controladores de audio y formatos de complementos.
JUCE-HEAVY: plantilla del proyecto JUCE que muestra cómo conectar JUCE con archivos fuente generados en Heavy C++ (HVCC).
Dplug: marco de complementos de audio. VST2/VST3/AU/AAX/LV2 para Linux/macOS/Windows.
DAWNet: DAWNet es un complemento DAW (estación de trabajo de audio digital) que se conecta a un Google Colab o Script remoto.
Preprocesador de audio Fish: preprocesamiento de audio para entrenamiento.
clap-validator: una herramienta automática de prueba y validación CLAP.
DSP Testbench: un banco de pruebas DSP para usuarios del marco JUCE.
Coupler: Coupler es un marco para escribir complementos de audio en Rust. Actualmente es compatible con las API VST3 y CLAP, y hay planes para admitir AUv2 y AAX en un futuro próximo.
PyOgg: PyOgg proporciona enlaces de Python para los formatos de archivos de audio Opus, Vorbis y FLAC de Xiph.org, así como su formato contenedor Ogg.
streamlit-audiorecorder: una grabadora de audio para streamlit.
DtBlkFx: DtBlkFx es un complemento VST basado en transformación rápida de Fourier (FFT).
SmartElectronix: versiones de código abierto de todos los complementos Bram @ SmartElectronix.
CookieJuce: una herramienta de línea de comandos para generar proyectos de juce modernos con Cmake.
AUGLIB - AUGLIB es una biblioteca de aumento, que proporciona transformaciones para modificar las señales y archivos de audio.
Klang - Klang es un lenguaje para el diseño y el desarrollo de procesos de audio en tiempo real en C ++.

^ Volver al contenido ^

Síntesis de sonido (SS)

Csound: Csound es un sistema de computación de sonido y música que fue desarrollado originalmente por Barry Vercoe en 1985 en MIT Media Lab. Desde los años 90, ha sido desarrollado por un grupo de desarrolladores centrales.
Pure Data: Pure Data ( PD ) es un lenguaje de programación visual desarrollado por Miller Puckette en la década de 1990 para crear música de computadora interactiva y obras multimedia. Si bien Puckette es la principal autora del programa, PD es un proyecto de código abierto con una gran base de desarrolladores que trabaja en nuevas extensiones. Se lanza bajo la cláusula BSD-3. Se ejecuta en Linux, MacOS, iOS, Android "Android (sistema operativo)") y Windows. Los puertos existen para FreeBSD e Irix.
PlugData: un entorno de programación visual para la experimentación de audio, creación de prototipos y educación.
Max/MSP/Jitter - Max , también conocido como Max/MSP/Jitter, es un lenguaje de programación visual para música y multimedia desarrollado y mantenido por la compañía de software con sede en San Francisco Cycling '74. Durante sus más de treinta años de historia, ha sido utilizado por compositores, artistas, diseñadores de software, investigadores y artistas para crear grabaciones, actuaciones e instalaciones.
KMA (lenguaje de diseño de sonido) - Kyma es un lenguaje de programación visual para el diseño de sonido utilizado por músicos, investigadores y diseñadores de sonido. En Kyma, un usuario programa un DSP multiprocesador conectando gráficamente módulos en la pantalla de una computadora Macintosh o Windows.
SuperCollider: SuperCollider es una plataforma para la síntesis de audio y la composición algorítmica, utilizada por músicos, artistas e investigadores que trabajan con sonido. Un servidor de audio, lenguaje de programación e IDE para síntesis de sonido y composición algorítmica.
Sonic Pi - Sonic Pi es un entorno de codificación en vivo basado en Ruby "Ruby (lenguaje de programación)"), diseñado originalmente para apoyar las lecciones de computación y música en las escuelas, desarrolladas por Sam Aaron en el Laboratorio de Computación de la Universidad de Cambridge en colaboración con Raspberry PI Base.
Reaktor - Reaktor es un estudio gráfico de música de software modular desarrollado por Native Instruments (NI). Permite a los músicos y especialistas en sonido diseñar y construir sus propios instrumentos, muestreadores "muestreador (instrumento musical)"), efectos y herramientas de diseño de sonido. Se suministra muchos instrumentos y efectos listos para usar, desde emulaciones de sintetizadores clásicos hasta herramientas de diseño de sonido futuristas.
RTCMIX- RTCMIX es un "lenguaje" de software en tiempo real para hacer síntesis de sonido digital y procesamiento de señales. Está escrito en C/C ++, y se distribuye de código abierto, de forma gratuita.
Chuck - Chuck es un lenguaje de programación para la síntesis de sonido en tiempo real y la creación de música. Chuck ofrece un modelo de programación concurrente único basado en el tiempo que es preciso y expresivo (lo llamamos fuertemente durado), las tasas de control dinámicas y la capacidad de agregar y modificar el código sobre la marcha. Además, Chuck admite MIDI, OpenSoundControl, HID Device y Audio multicanal. Es de código abierto y está disponible gratuitamente en MacOS X, Windows y Linux. Es divertido y fácil de aprender, y ofrece a los compositores, investigadores y artistas una poderosa herramienta de programación para construir y experimentar con programas complejos de síntesis/análisis de audio, y música interactiva en tiempo real.
Fausto: Fausto (flujo de audio funcional) es un lenguaje de programación funcional para la síntesis de sonido y el procesamiento de audio con un fuerte enfoque en el diseño de sintetizadores, instrumentos musicales, efectos de audio, etc. Fausto se dirige a aplicaciones de procesamiento de señal de alto rendimiento y complementos de audio para una variedad de plataformas y estándares.
Alma - El lenguaje de programación del alma y la API. Soul (lenguaje de sonido) es un intento de modernizar y optimizar la forma en que se escribe y ejecuta el código de audio de alta latencia y de baja latencia.
CMajor - CMajor es un lenguaje de programación para escribir software de audio portátil rápido. Has oído hablar de C, C ++, C#, Objective-C ... Bueno, C Major es un lenguaje C-Family diseñado específicamente para escribir código de procesamiento de señal DSP.
VCV Rack: Rack es la aplicación host para la plataforma de sintetizador modular virtual Eurorack VCV.
GWION - GWION es un lenguaje de programación, destinado a hacer música. Inspirado fuertemente por Chuck, pero agregar un montón de características de alto nivel ; plantilla, funciones de primera clase y más. Su objetivo es ser simple, pequeño, rápido, extensible e integrable.
Audio Elemental: Elementary es un marco JavaScript y un motor de audio de alto rendimiento que lo ayuda a construir rápidamente y enviar con confianza. Marco declarativo y funcional para escribir software de audio en la web o para aplicaciones nativas.
Elementary - Elementary es una biblioteca JavaScript/C ++ para construir aplicaciones de audio.
Sound2Synth - Sound2Synth: Interpretación del sonido a través de la estimación de los parámetros del sintetizador FM.
JSYN - JSYN es un sintetizador de audio modular para Java de Phil Burk. JSyn le permite desarrollar programas interactivos de música informática en Java. Se puede utilizar para generar efectos de sonido, entornos de audio o música. JSyn se basa en el modelo tradicional de generadores unitarios que se pueden conectar juntos para formar sonidos complejos.
Synthax: un sintetizador modular rápido en Jax ⚡️ Acelerando la síntesis de audio de audio mucho más allá de las velocidades de tiempo real tiene un papel importante que desempeñar en el avance de las técnicas inteligentes de producción de audio. Synthax es un sintetizador modular virtual rápido escrito en Jax. En su pico, SynThax genera audio más de 60,000 veces más rápido que en tiempo real, y significativamente más rápido que el estado de arte en la síntesis de sonido acelerado.
Midica: Midica es un intérprete para un lenguaje de programación de música. Traduce el código fuente al MIDI. Pero también se puede usar como jugador MIDI, compilador MIDI o descompilador, jugador de karaoke, jugador ALDA, reproductor ABC, jugador de Lilypond o un analizador de archivos MIDI. Escribes música con uno de los idiomas compatibles (Midicapl, ALDA o ABC).
Mercurio - Mercurio es un lenguaje mínimo y legible para humanos para la codificación en vivo de la música electrónica algorítmica. Todos los elementos del idioma están diseñados en torno a hacer que el código sea más accesible y menos ofuscante para la audiencia. Esta motivación se extiende hasta el estilo de codificación en sí que utiliza nombres descriptivos claros para las funciones y una sintaxis clara.
ALDA - ALDA es un lenguaje de programación basado en texto para la composición musical. Le permite escribir y reproducir música con solo un editor de texto y la línea de comandos. El diseño del idioma favorece la estética, la flexibilidad y la facilidad de uso.
Platonic Music Engine: Platonic Music Engine es un intento de crear algoritmos informáticos que simulan superficialmente la totalidad de la cultura humana creativa, el pasado, el presente y el futuro. Lo hace de manera interactiva, lo que permite al usuario elegir varios parámetros y configuraciones de modo que el resultado final sea exclusivo del usuario y al mismo tiempo preservar la idea cultural que inspiró el trabajo.
PYO-Tools-Repositorio de clases de Python listas para usar para construir efectos de audio y sintetizadores con PYO.
PY -modular: marco de programación de audio modular y experimental para Python. Py-Modular es un pequeño entorno de programación de audio experimental para Python. Se pretende ser una base para la exploración de nuevas tecnologías de audio y flujos de trabajo. La mayoría de las cosas en PY-modular se basan en un flujo de trabajo basado en nodos, lo que significa que las clases pequeñas hacen tareas pequeñas y se pueden unir para crear sintetizadores completos o ideas más grandes.
Bach: Automated Composer's Helper: un conjunto de parches y externos multiplataforma para Max, con el objetivo de llevar la riqueza de la composición asistida por computadora al mundo en tiempo real.
AUDIOKIT - Audiokit es una plataforma de síntesis de audio, procesamiento y análisis para iOS, macOS (incluido Catalyst) y TVOS.
Twang - Biblioteca para la síntesis de audio avanzada Pure Rust.
Gensound - Pitonic Audio Processwork and Generation Framework. La forma de Python al procesamiento y síntesis de audio.
OTTO - El Otto es una caja de ruidos de hardware digital, con sintetizadores, muestreadores, efectos y un secuenciador con un looper de audio. La interfaz es plana, modular y fácil de usar, pero sobre todo, su objetivo es fomentar la experimentación.
Loris: Loris es una biblioteca para el análisis de sonido, la síntesis y la transformación, desarrollada por Kelly Fitz y Lippold Haken en el grupo de sonido CERL. LORIS incluye una biblioteca de clase C ++, módulo Python, interfaz C-ligable, utilidades de línea de comandos y documentación.
Iannix - Iannix es un secuenciador gráfico de código abierto, basado en Iannis Xenakis Works, para el arte digital. Iannix se sincroniza a través de eventos y curvas de control de sonido abierto (OSC) a su entorno en tiempo real.
Leipzig: una biblioteca de composición musical para Clojure y Clojurescript.
NYQUIST - NYQUIST es una síntesis de sonido y un lenguaje de composición que ofrece una sintaxis LISP, así como una sintaxis de lenguaje imperativo y un poderoso entorno de desarrollo integrado. Nyquist es un sistema elegante y potente basado en la programación funcional.
OpenMusic (OM) - OpenMusic (OM) es un lenguaje de programación visual basado en Lisp. Los programas visuales se crean ensamblando y conectando iconos que representan funciones y estructuras de datos. La mayoría de la programación y las operaciones se realizan arrastrando un ícono desde un lugar particular y dejándolo a otro lugar. Se proporcionan estructuras de control visual incorporadas (bucles por ejemplo), esa interfaz con las de LISP. El código CommonLisp/Clos existente se puede usar fácilmente en OM, y se puede desarrollar un nuevo código de manera visual.
ORCλ - ORCA es un lenguaje de programación esotérico diseñado para crear rápidamente secuenciadores de procedimiento, en el que cada letra del alfabeto es una operación, donde las letras minúsculas funcionan en bang, letras mayúsculas que operan cada cuadro.
Overnone: Overnone es un entorno de audio de código abierto diseñado para explorar nuevas ideas musicales, desde la síntesis y el muestreo hasta la construcción de instrumentos, la codificación en vivo y la intermediación colaborativa. Combinamos el potente motor de audio SuperCollider, con Clojure, un estado de LISP del estado, para crear una experiencia sonora interactiva intoxicante.
Seam - Música electroacústica sostenida - Base. La música electroacústica sostenida es un proyecto inspirado en Alvise Vidolin y Nicola Bernardini.
Glicol - Glicol (un acrónimo de "lenguaje de codificación en vivo orientado a gráficos") es un lenguaje de música de computadora con su lenguaje y motor de audio escrito en lenguaje de programación de óxido, una alternativa moderna a C/C ++. Dada esta naturaleza de bajo nivel, Glicol puede ejecutarse en muchas plataformas diferentes, como navegadores, complementos VST y tablero de Bela. La sintaxis similar a la sintetización de Glicol y el potente motor de audio también permiten combinar el sintetizador de alto nivel o el control de secuenciador con síntesis de audio de bajo nivel precisa, todo en tiempo real.
Papersynth - ¡Texto escrito a mano a los sintetizadores! Papersynth es un proyecto que tiene como objetivo leer las palabras clave que ha escrito en un papel y convertirlo en sintetizadores que pueda jugar en el teléfono.
Resonador neural VST: este es un complemento VST que utiliza una red neuronal para generar filtros basados en formas y materiales 2D arbitrarios. Es posible usar MIDI para desencadenar impulsos simples para excitar estos filtros. Además, cualquier señal de audio se puede usar como entrada a los filtros.
Scyclone - Scyclone es un complemento de audio que utiliza tecnología de transferencia de timbre neural para ofrecer un nuevo enfoque para la producción de audio. El complemento se basa en la metodología RAVE, un codificador automático de variaciones de audio en tiempo real, que facilita la transferencia de timbre neural en modo de inferencia de una sola y pareja.
Mlinmax - ML para la generación y procesamiento de sonido en el ciclismo de lingüístico de programación MAX de 74.
ADLPLUG - Synthesizador de chips FM - OPL & OPN - VST/LV2/STAITALOne.
Surge -Synthesizer complementante (anteriormente lanzado como Audio Surge).
CSTOP - CSTOP es un complemento de efecto de audio de cinta de cinta disponible en AU y VST3 para Mac (Windows próximamente).
CompUfart - Syntesizador de sonido Fart y algoritmo en CMajor.
Py -JS - Python3 Externals para Max / MSP.
PD -LUA - ANIFICACIONES DE LUA PARA PD, actualizadas para LUA 5.3+.
Live 4 Life: una herramienta de rendimiento espacial para SuperCollider.
CaSarlooper: Caesarlooper es un clon de supercollider del complemento Augustus Loop VST por durmientes expertos.
Dexed - complemento DX7 FM Multi Plaform/Multi Format.
Leapmotion para Max - Leapmotion Exterior para Cycling'74 Max.
Kontakt -Public - Recursos para instrumentos nativos Kontakt Builders.
Pylive - Consulta y control Ableton Live de Python.
ML -LIB: una biblioteca de aprendizaje automático para Max y Pure Data.
Zengarden: Zengarden es una biblioteca independiente para ejecutar parches de datos puros.
Max -SDK - Kit de desarrollo de software para Max por ciclismo '74.
PD-HVCC: creando un entorno similar a la PD, basado en el compilador pesado.
Kurosciladores: objetos MAX/MSP para la síntesis de audio y rítmica utilizando redes de osciladores acoplados.
Ascii -Audio - genera audio PCM a partir de una cadena ASCII. El texto es visible en la imagen del espectrograma.
Belaminimoogemulación: una implementación digital del sintetizador analógico Minimoog con formas de onda antialiased y una recreación del filtro de escalera Moog.
EDISYN - Synthesizer Patch Editor.
SoundGen - R paquete para síntesis de sonido y análisis acústico.
Cardinal: complemento de sintetizador modular virtual.
Modelado de Echo Flutter: este repositorio presenta una demostración de Matlab para la síntesis de Flutter Echo.
¡Ups - Ups es ahora hoja! Biblioteca de CA para síntesis y procesamiento de audio, destinada a aplicaciones integradas, escrita con estilo semi-OOP.
Herramienta Sonic Pi -? Controlando Sonic Pi desde la línea de comandos, en Python.
Sonicpi.vim - complemento Sonic Pi para VIM.
CAOS CONTROLADO - Generador de ritmo euclidiano max4live.
KPSTRONG: esta es una implementación de un sintetizador Karplus-Strong rasgueo, que se ejecuta como C ++ en tiempo real en el hardware de Bela.
NN_TILDE - A MAX / PD Externo para procesamiento de audio AI en tiempo real.
Grainbow: un sintetizador que utiliza la detección de tono para elegir candidatos para la síntesis o muestreo granular.
Signalflow: un marco de síntesis de sonido para Python, diseñado para una expresión clara y concisa de ideas musicales complejas.
Syntheon: inferencia de parámetros de sintetizadores musicales para simplificar el proceso de diseño de sonido. Apoya vital y dexed.
Rnbojucetemplate: una plantilla JUCE que incluye un sintetizador mínimo creado con el rnbo ~ de MaxMSP, que encapsula el estado de Rnboobject en el audioprocesador de Juce utilizando la moderna moda de AudioProcessorTreeValuestate.
Fluidsynth.Clap - un puente de plugin de aplausos para fluidsynth.
LaunchPadx: una interfaz SuperCollider simple para el controlador Novation LaunchPadx.
FAUG - Una emulación Minimoog Model D con la porción DSP escrita en Fausto. Moog + Faust = faug.
BLOCKS - BLOCKS es un sintetizador modular disponible como independiente, VST3 y AU para Windows y MacOS.
Bessel's Trick: el truco de Bessel es un complemento de audio neural para la transformación rápida de tono en vivo de los sonidos de instrumentos musicales utilizando la síntesis de modulación de frecuencia (FM).

^ Volver al contenido ^

Audio de juego (GA)

Chunity - Chuck in Unity. Complemento para usar Chuck en Unity. Disponible en la tienda Unity Asset.
Raveler: complemento Wwise que ejecuta modelos Rave, permitiendo la transferencia de timbre en tiempo real a través de la síntesis de audio neuronal en una configuración de audio de juego.
LASP: complemento de procesamiento de señal de audio de baja latencia para Unity.
Pyreaper - Un envoltorio de pitón para Reaper.
Reaper-Keys-Vim-Bindings para Reaper.
Herramientas de Reaper - Repositorio de herramientas de Reaper Audiokinetic. Colección de extensiones, scripts y herramientas para Reaper.
Reawwise: Reawwise es una extensión de Reaper que los diseñadores de sonido pueden usar para transferir archivos de audio de Reaper a proyectos Wwise.
WWISER: un analizador Wwise .bnk, para ayudar a manejar el audio de los juegos utilizando el motor Wwise.
WAAPI-TEXT-TO SPEECH-Integración de texto a voz de WWise utilizando editores externos.
JSFXR para wwise - JSFXR (portado desde SFXR) con conectividad WWise agregada, incrustada en electrones.
SOLOUD - SOLOUD es un motor de audio C/C ++ portátil y fácil de usar para juegos.
Audiotoys - DSPE DOODLES FOR UNITY.
Dolby.io Virtual World Plugin para Unity: con el complemento Dolby.io Virtual World para Unity, puede integrar fácilmente el audio espacial Dolby.io, impulsado por la tecnología Dolby Atmos en sus aplicaciones mundiales virtuales.
Dolby.io Virtual Worlds Plugin para Unreal Engine: con el complemento Dolby.io Virtual Worlds para Unreal Engine, puede integrar fácilmente el audio espacial Dolby.io, impulsado por la tecnología Dolby Atmos en sus aplicaciones mundiales virtuales.
Simulador del motor: simulador de motor de combustión que genera audio realista.
Jack Audio para Unity: esta biblioteca/complemento habilita el enrutamiento de audio multicanal entre Unity3D y Jackaudio.
Plugin Voxel: el complemento Voxel permite crear mundos infinitos completamente volumétricos, completamente destructibles e infinitos en un motor irreal. Es compatible con 4.24, 4.25, 4.26, 4.27 y Unreal 5.
Rev Unity - Rev Unity Tacometer Demo.
Unity Audio Manager (UAM) -? Se usa para jugar/cambiar/parar/silenciar/... uno o múltiples sonidos en una determinada circunstancia o evento en 2D y 3D simplemente a través de. código.
Audio-Manager-For-Unity: una herramienta para definir y ejecutar comportamientos de audio en Unity en un editor basado en un nodo.
Unity Wwise Directable: este paquete agrega soporte para distribuir y cargar activos WWise utilizando el sistema Unity Directable.
RFXGEN: un generador de sonidos FX simple y fácil de usar.
ULIPSYNC: complemento LipSync basado en MFCC para Unity utilizando el sistema de trabajo y el compilador de ráfaga.
Godot-FMOD-Integration-FMOD Studio Middleware Integration and Scripting API Bindings para el motor de juego Godot.
Sistema de audio FMOD - Sistema de audio Unity con FMOD.
WW2OGG - Convierta Audiokinetic Wwise Riff/RIFX Vorbis a Vorbis OGG estándar.
Cavern-Motor de audio basado en objetos y paquete de códec con representación de Dolby Atmos, corrección de habitaciones, HRTF, adquisición de audio Unity de un solo clic y mucho más.
RNBO Unity Audio Audio Plugin - Adaptador RNBO para el complemento de audio nativo de Unity.
MetaSounds RNBO - Adaptador RNBO que implementa nodos de metasonidos.

^ Volver al contenido ^

Estación de trabajo de audio digital (DAW)

Audacity: Audacity es un editor de audio y grabadora de múltiples vías fáciles de usar para Windows, MacOS, GNU/Linux y otros sistemas operativos.
Tracktion: Tracktion es una estación de trabajo de audio de código abierto basada en plataformas cruzadas con una interfaz de usuario intuitiva y potentes funciones de edición y mezcla de audio.
Pro Tools Scripting SDK: el SDK de Pro Tools Tools le permite script en herramientas Pro utilizando una API independiente del lenguaje para crear nuevos flujos de trabajo automatizados en Pro Tools.
REAPY - Un envoltorio pitónico para la API de Python Reaper's Reaper.
Reaper -SDK - Reaper C/C ++ Extensión SDK.
ReScripts: scripts de código abierto y de código abierto de Raym para Cockos Reaper.
ReScripts - Cockos Reaper scripts.
Reaplink: extensión del complemento Reaper que proporciona enlaces de ReScript para la sesión de enlace de Ableton y las implementaciones compatibles con el plan de prueba de enlaces de Ableton para Reaper.
Voodoohop-Ableton-Tools-Ableton Live Harmony and Tempo Tools. Aumenta Ableton Live con una visualización intuitiva de la armonía musical, además de permitir la dinámica de tempo de una pista para controlar el tempo maestro en tiempo real.
AbletonParsing: analice un archivo de clip ASD de Ableton (marcadores de urdimbre y más) en Python.
Ableton Push: una biblioteca para trabajar con Ableton Push en el navegador.
PYFLP - FL Studio Project File Parser.
VST3SDK - VST 3 SDK de complemento.
TuneFlow - ¿Construyen sus algoritmos de música y modelos de IA con el DAW de próxima generación
TuneFlow-Py-TuneFlow-Py es el SDK de Python de los complementos TuneFlow.
SO-VITS-SVC Plugin para TuneFlow-SO-VITS-SVC como un complemento TuneFlow.
Radio: un editor de música gráfica. Un rastreador de próxima generación.
Bass Studio: Bass Studio es una estación de trabajo de audio digital (DAW) escrita en C ++. Se proporcionan compilaciones de Windows, MacOS y Linux. Se admiten el formato de complemento VST2 y Clap.
GridSound: GridSound es una estación de trabajo de audio digital de código abierto de trabajo en progreso desarrollado con HTML5 y más precisamente con la nueva API de audio web.
Meadowlark - Meadowlark es un DAW gratuito y de código abierto (estación de trabajo de audio digital) para Linux, Mac y Windows. Su objetivo es ser una poderosa grabación, composición, edición, diseño de sonido, mezcla y herramienta de masterización para artistas de todo el mundo, al tiempo que es intuitivo y personalizable.
Mixxx - Mixxx es un software DJ gratuito que le brinda todo lo que necesita para realizar mezclas en vivo.
Hybrid-DJ-Set: sincronizar el software DJ (MIXXX) con datos puros para colocar instrumentos virtuales en una actuación en vivo.
LV2: LV2 es un estándar de complemento para sistemas de audio. Define una API C extensible para complementos y un formato para directorios de "paquete" autónomos que contienen complementos, metadatos y otros recursos.
Ardor - Grabe, edite y mezcle en Linux, MacOS y Windows.
LMMS - LMMS es una alternativa multiplataforma gratuita a programas comerciales como FL Studio®, que le permite producir música con su computadora. Esto incluye la creación de melodías y ritmos, la síntesis y la mezcla de sonidos, y la organización de muestras.
Qtractor - Qtractor es una aplicación de secuenciador de vía múltiple de audio/MIDI escrita en C ++ con el marco QT. La plataforma de destino es Linux, donde el kit de conexión de audio de Jack (JACK) para audio, y la arquitectura de sonido de Linux Advanced (ALSA) para MIDI, son las principales infraestructuras para evolucionar como una gui de trabajo de trabajo de audio de escritorio de Linux bastante importante, especialmente dedicadas a las dedicadas a las Estudio de origen personal.
Smart-Audio-Mixer: una estación de trabajo de audio digital moderna (DAW) que usa C ++/Juce.
OpenVino ™ AI Plugins para audacia: un conjunto de efectos, generadores y analizadores habilitados para AIA para la audacia.
JACKDAW: una estación de trabajo de audio digital (DAW) despojada de teclado (DAW) que toma algunas señales de diseño de editores de video no lineales como Avid.
OSSIA SCUENT: un secuenciador intermedia que admite audio (VST, VST3, LV2, JSFX, etc.), así como control de video y hardware (OSC, MIDI, DMX, NDI, MQTT, COAP, etc.)

^ Volver al contenido ^

Audio espacial (SA)

SPAUDIOPY - paquete de audio espacial Python. El enfoque (hasta ahora) está en los codificadores y decodificadores de audio espacial. El paquete incluye el procesamiento de armónicos esféricos, por ejemplo, y (representaciones binaurales de) decodificadores de altavoces, como VBAP y AllRad.
Spatial_audio_framework (SAF): el Spatial_Audio_Framework (SAF) es un marco de código abierto y multiplataforma para desarrollar algoritmos y software relacionados con el audio espacial en C/C ++. Originalmente pretendido como un recurso para los investigadores en el campo, el marco se ha convertido gradualmente en una base de código bastante grande y bien documentada que comprende una serie de módulos distintos; con cada módulo dirigido a un subcield de audio espacial (por ejemplo, la codificación/decodificación de Ambisonics, procesamiento de matriz esférica, panificación de amplitud, procesamiento de HRIR, simulación de habitaciones, etc.).
HO-SRIRR: la representación de respuesta al impulso espacial de orden superior (HO-SRIRR) es un método de representación, que puede sintetizar las respuestas de impulso de la sala de matriz de altavoces de salida (RIRS) utilizando riros armónicos esféricos (Ambisonic/B-format) de orden arbitrario. Una implementación de MATLAB del algoritmo de representación de respuesta al impulso espacial de orden superior (HO-SRIRR); Un enfoque alternativo para reproducir RIR ambisisic sobre altavoces.
SPATGRIS - SPATGRIS es un software de espacialización de sonido que libera a los compositores y diseñadores de sonido de las limitaciones de las configuraciones de altavoces del mundo real. Con el complemento Controlgris distribuido con SPATGRIS, las trayectorias espaciales ricas se pueden componer directamente en su DAW y reproducirse en tiempo real en cualquier diseño de altavoz. Es rápido, estable, multiplataforma, fácil de aprender y funciona con las herramientas que ya conoce. SPATGRIS admite cualquier configuración de altavoces, incluidos diseños 2D como quad, 5.1 u anillos octofónicos, y diseños 3D como cúpulas de altavoces, salas de conciertos, teatros, etc. Los proyectos también se pueden mezclar hasta estéreo utilizando una función de transferencia binaural relacionada con la cabeza o estereo simple panorámica.
Steam Audio: Steam Audio ofrece una solución de audio completa que integra la simulación de entorno y oyente. HRTF mejora significativamente la inmersión en la realidad virtual; La propagación de sonido basada en la física completa la inmersión auditiva al recrear consistentemente cómo el sonido interactúa con el entorno virtual.
Spatialaudiokit - Spatialaudiokit es un paquete rápido para facilitar la autoridad de aplicaciones de audio espacial en las plataformas Apple.
LibmySofA - Lector para archivos AES SOFA para obtener mejores HRTF.
Omnitone - Omnitone: Renderización de audio espacial en la web. Omnitone es una implementación robusta de la decodificación ambisonica y la representación binaural escrita en la API de audio web. Su proceso de representación está impulsado por las características nativas rápidas de la API de audio web (GainNode y Convolver), asegurando el rendimiento óptimo. La implementación de Omnitone se basa en la especificación de medios espaciales de Google y los filtros binaurales de Sadie. También impulsa el SDK de audio de resonancia para la web.
MACH1 SPATIAL - SDK espacial MACH1 incluye API para permitir a los desarrolladores diseñar aplicaciones que puedan codificar o transmitir un render de audio espacial de las transmisiones de audio y/o reproducción y decodificar el audio espacial Mach1spacial se mezcla con orientación para decodificar la suma de salida estereO correcta de los usuarios del usuario Orientación actual. Además, el SDK espacial MACH1 permite a los usuarios convertir de forma segura las mezclas de audio envolvente/espacial hacia y desde los formatos VVBP Mach1spacial o Mach1horizon.
SoundsPaces - SoundsPaces es una plataforma de simulación acústica realista para la investigación de IA incorporada audiovisual. Desde la navegación audiovisual, la exploración audiovisual hasta la ecolocalización y la reconstrucción del plan de planta audiovisual, esta plataforma expande la investigación de la visión incorporada a un alcance más amplio de temas.
Visual acústica coincidencia: presentamos la tarea de coincidencia acústica visual, en la que un clip de audio se transforma para sonar como si se grabara en un entorno objetivo. Dada una imagen del entorno objetivo y una forma de onda para el audio de origen, el objetivo es volver a sintetizar el audio para que coincida con la acústica de la sala de destino como lo sugiere su geometría y materiales visibles.
RIR FAST: esta es la implementación oficial de nuestro generador de respuesta de impulso de la habitación rápida basado en la red neuronal (RIR Fast-RIR) para generar respuestas de impulso de la sala (RIR) para un entorno acústico dado.
Pygsound: generación de respuesta de impulso basada en el motor de propagación de sonido geométrico de última generación.
RIRIS - RIRIS es la implementación de MATLAB de la interpolación de respuesta al impulso de la sala utilizando transformaciones rápidas de cizallamiento.
RAYTRACER DE REVERBO PARALELO: un raytracer para las respuestas de impulso (para el reverbio), influenciado por las técnicas de iluminación de gráficos ráster.
Synth 3D - Synthesizador VST con objetos de oscilador virtual colocados en el espacio 3D.
LibbasicsOfa: una biblioteca muy básica para leer formato de orientación espacial para archivos de acústica (SOFA), un formato para almacenar HRTF y/o Brir para la reproducción de audio binuaral.
MESH2HRTF: Abra el software para el cálculo numérico de las funciones de transferencia relacionadas con la cabeza.
Openal Soft - Openal Soft es una implementación de software de la API de audio 3D Openal.
Soundscape_ir - Soundscape_ir es una caja de herramientas de Python de recuperación de información de Soundscape, con el objetivo de ayudar en el análisis de las grabaciones Soundscape.
Cuerpos de sonido: presentamos un modelo que puede generar campos de sonido 3D precisos de cuerpos humanos a partir de micrófonos con auriculares y pose del cuerpo como entradas.
SoundScapy: una biblioteca de Python para analizar y visualizar las evaluaciones de paisajes sonoros.
Ambix: complementos de Ambisonic VST, LV2 multiplataforma, con un orden variable para su uso en estaciones de trabajo de audio digital como Reaper o Ardor o como aplicaciones independientes de Jack.
HOAC - Códec Ambisonics de orden superior para audio espacial.
OpenSoundLab - OpenSoundLab (OSL) hace que el sonido modular parche tridimensional en una experiencia de realidad mixta utilizando el modo de paso de Meta Quest.
¿Ver-2-Sound? -Sound de entorno espacial a espacial de disparo cero.

^ Volver al contenido ^

Procesamiento de audio web (WAP)

Procesamiento de audio WEBRTC - Python enlace del procesamiento de audio WEBRTC.
WebChuck: Webchuck trae a Chuck, un lenguaje de programación de audio enérgico, a la web! El código fuente de C ++ de Chuck se ha compilado a WebAssembly (WASM) y se ejecuta a través de la interfaz AudioWorkletNode de la API de audio web.
Midi.js -? Hacer la vida fácil de crear una aplicación Midi-app en la web. Incluye una biblioteca para programar sinestesia en su aplicación para el reconocimiento de memoria o para crear efectos trippy. Convierta los fallos de sonido para guitarra, bajo, tambores, etc. en el código que puede ser leído por el navegador. Midi.js se une y se basa en marcos que llevan MIDI al navegador. Combínelo con Jasmid para crear una transmisión MIDI de radio web similar a esta demostración, o con tres.js, Sparks.js o GLSL para crear experimentos de audio/visual.
Procesador de voz web: una biblioteca para el procesamiento de voz en tiempo real en los navegadores web.
Tone.js - Tone.js es un marco de audio web para crear música interactiva en el navegador. La arquitectura de tone.js tiene como objetivo ser familiar para músicos y programadores de audio que crean aplicaciones de audio basadas en la web. En el nivel de alto nivel, Tone ofrece características comunes de DAW (estación de trabajo de audio digital) como un transporte global para sincronizar y programar eventos, así como sintetizadores y efectos previos a la construcción. Además, Tone proporciona bloques de construcción de alto rendimiento para crear sus propios sintetizadores, efectos y señales de control complejas.
Audio.js - AudioJS es una biblioteca JavaScript doliente que permite la uso de la etiqueta <audio> de HTML5 en cualquier lugar. Utiliza nativo <audio> donde está disponible y vuelve a un reproductor invisible para emularlo para otros navegadores. También sirve una interfaz de usuario de reproductor HTML consistente para todos los navegadores que se pueden diseñar utilizados CSS estándar.
Peaks.js - Componente de UI JavaScript para interactuar con las formas de onda de audio.
Howler.js - Biblioteca de audio JavaScript para la web moderna. Howler.js hace que trabajar con Audio en JavaScript sea fácil y confiable en todas las plataformas. Howler.js es una biblioteca de audio para la web moderna. Es predeterminado a la API de audio web y se vuelve a hacer audio HTML5. Esto hace que trabajar con audio en JavaScript sea fácil y confiable en todas las plataformas.
CoffeeCollider - Coffeecollider es un lenguaje para la síntesis de audio en tiempo real y la composición algorítmica en HTML5. El concepto de este proyecto está diseñado como "Escribir CoffeeScript y procesarse como SuperCollider".
Pico.js - Procesador de audio para la plataforma cruzada.
timbre.js - timbre.js proporciona un procesamiento funcional y un audio de sintetización en sus aplicaciones web con la manera moderna de JavaScript como jQuery o node.js. Tiene muchos objetos T (formalmente: objeto Timbre) que se conectan juntos para definir el enrutamiento basado en gráficos para la representación general de audio. Es un objetivo de este proyecto abordar el procesamiento de audio de próxima generación para la web.
Rythm.js - Una biblioteca JavaScript que hace que su página baile.
P5.SOUND - P5.Sound extiende P5 con la funcionalidad de audio web que incluye entrada de audio, reproducción, análisis y síntesis.
WADJS - Una biblioteca JavaScript para manipular audio. Audio web DAW. Use la API de audio web para la síntesis de sonido dinámico. Es como jQuery para tus oídos.
Ableton.js - Ableton.js le permite controlar su instancia o instancias de Ableton usando Node.js. Intenta cubrir tantas funciones como sea posible.
Sound.js - "Sound.js" es micro -biblioteca que te permite cargar, tocar y generar efectos de sonido y música para juegos y aplicaciones interactivas. Es muy pequeño: menos de 800 líneas de código y sin dependencias. Haga clic aquí para probar una demostración interactiva. You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (pocas tomas de clonación de voz).
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

Expandir