音频开发工具 (ADT)
这是声音、音频和音乐开发工具的列表,其中包含机器学习、音频生成、音频信号处理、声音合成、游戏音频、数字音频工作站、空间音频、音乐信息检索、音乐生成、语音识别、语音合成、歌声合成等等。
目录
- 机器学习(ML)
- 音频生成 (AG)
- 音频信号处理 (ASP)
- 声音合成(SS)
- 游戏音频(GA)
- 数字音频工作站 (DAW)
- 空间音频 (SA)
- 网络音频处理 (WAP)
- 音乐信息检索 (MIR)
- 音乐一代(MG)
- 语音识别 (ASR)
- 语音合成 (TTS)
- 歌声合成(SVS)
项目清单
机器学习(ML)
- librosa -Librosa 是一个用于音乐和音频分析的 python 包。它提供了创建音乐信息检索系统所需的构建块。
- Essentia - Essentia 是一个开源 C++ 库,用于音频分析和基于音频的音乐信息检索,根据 Affero GPLv3 许可证发布。它包含大量可重用算法,可实现音频输入/输出功能、标准数字信号处理块、数据统计特征以及大量频谱、时间、音调和高级音乐描述符。用于音频和音乐分析、描述和合成的 C++ 库,包括 Python 绑定。
- DDSP - DDSP:可微分数字信号处理。 DDSP 是常见 DSP 功能(例如合成器、波形整形器和滤波器)的可微分版本的库。这使得这些可解释的元素可以用作深度学习模型的一部分,特别是作为音频生成的输出层。
- MIDI-DDSP - MIDI-DDSP:通过分层建模对音乐表演进行详细控制。 MIDI-DDSP 是一种分层音频生成模型,用于合成从 DDSP 扩展而来的 MIDI。
- DDSP-VST - 实时 DDSP 神经合成器和效果。使用 JUCE 框架和 DDSP 构建的 VST3/AU 插件和桌面应用程序。
- torchsynth - pytorch 中的 GPU 可选模块化合成器,比实时速度快 16200 倍,适用于音频 ML 研究人员。
- aubio -aubio 是一个设计用于从音频信号中提取注释的工具。其功能包括在每次攻击之前对声音文件进行分段、执行音高检测、敲击节拍以及从现场音频生成 MIDI 流。
- audioFlux -audioFlux 是一个用于音频和音乐分析、特征提取的深度学习工具库。支持数十种时频分析变换方法以及数百种相应的时域和频域特征组合。它可以提供给深度学习网络进行训练,用于研究音频领域的各种任务,如分类、分离、音乐信息检索(MIR)和ASR等。
- Polymath - Polymath 使用机器学习将任何音乐库(例如来自硬盘或 YouTube)转换为音乐制作样本库。该工具自动将歌曲分成主干(节拍、低音等),将它们量化为相同的节奏和节拍网格(例如 120bpm),分析音乐结构(例如主歌、合唱等)、调(例如 C4、E3)等)和其他信息(音色、响度等),并将音频转换为 midi。结果是一个可搜索的示例库,它简化了音乐制作人、DJ 和 ML 音频开发人员的工作流程。
- IPython - IPython 提供了丰富的工具包来帮助您充分利用 Python 交互方式。
- torchaudio - PyTorch 的音频库。用于音频信号处理的数据操作和转换,由 PyTorch 提供支持。
- TorchLibrosa - Librosa 的 PyTorch 实现.
- torch-audiomentations - PyTorch 中的快速音频数据增强。受到音频的启发。对于深度学习很有用。
- PyTorch Audio Augmentations - PyTorch 的音频数据增强库,用于时域中的音频。
- Asteroid - Asteroid 是一个基于 Pytorch 的音频源分离工具包,可以在常见数据集上进行快速实验。它附带了支持大量数据集和架构的源代码,以及一组用于重现一些重要论文的方法。
- Kapre -Kapre:Keras 音频预处理器。 Keras 音频预处理器 - 在 GPU 上实时计算 STFT、InverseSTFT、Melspectrogram 等。
- praudio - 用于深度学习音频应用程序的音频预处理框架。
- automix-toolkit - 用于训练深度学习自动混合模型的模型和数据集。
- DeepAFx - DeepAFx:深度音频效果。音频信号处理效果 (FX) 用于操纵各种媒体的声音特性。然而,许多 FX 使用起来可能很困难或乏味,特别是对于新手用户而言。在我们的工作中,我们的目标是通过训练机器直接使用 FX 并执行自动音频制作任务来简化音频 FX 的使用方式。通过使用熟悉的现有工具来处理和建议控制参数,我们可以创建一个独特的范式,将人工智能的力量与人类的创造性控制相结合,为创作者赋能。
- nnAudio - nnAudio 是一个使用 PyTorch 卷积神经网络作为后端的音频处理工具箱。通过这样做,可以在神经网络训练期间从动态音频生成频谱图,并且可以训练傅立叶核(例如或CQT核)。
- WavEncoder -WavEncoder 是一个 Python 库,用于编码音频信号、音频增强转换以及使用 PyTorch 后端训练音频分类模型。
- SciPy - SciPy(发音为“Sigh Pie”)是一个用于数学、科学和工程的开源软件。它包括统计、优化、积分、线性代数、傅立叶变换、信号和图像处理、ODE 求解器等模块。
- pyAudioAnalysis - Python 音频分析库:特征提取、分类、分割和应用。
- Mutagen - Mutagen 是一个处理音频元数据的 Python 模块。它支持 ASF、FLAC、MP4、Monkey's Audio、MP3、Musepack、Ogg Opus、Ogg FLAC、Ogg Speex、Ogg Theora、Ogg Vorbis、True Audio、WavPack、OptimFROG 和 AIFF 音频文件。支持所有版本的 ID3v2,并解析所有标准 ID3v2.4 帧。它可以读取Xing标头来准确计算MP3的比特率和长度。无论音频格式如何,都可以编辑 ID3 和 APEv2 标签。它还可以在单个数据包/页面级别上操作 Ogg 流。
- LibXtract - LibXtract 是一个简单、可移植、轻量级的音频特征提取函数库。该库的目的是提供一组相对详尽的特征提取基元,这些基元被设计为“级联”以创建提取层次结构。
- dejavu - Python 中的音频指纹识别和识别。 Dejavu 可以通过听一次音频并对其进行指纹识别来记住音频。然后,通过播放歌曲并记录麦克风输入或从磁盘读取,Dejavu 尝试将音频与数据库中保存的指纹进行匹配,返回正在播放的歌曲。
- 匹配 - ?️ 开源音频匹配和母带处理。 Matchering 2.0是一个新颖的容器化 Web 应用程序和Python 库,用于音频匹配和母带处理。
- TimeSide -TimeSide 是一个 Python 框架,支持低级和高级音频分析、成像、转码、流媒体和标签。其高级 API 旨在通过插件架构、安全的可扩展后端和可扩展的动态 Web 前端,对任何音频或视频资产的超大型数据集进行复杂处理。
- Meyda - Meyda 是一个 Javascript 音频特征提取库。 Meyda 支持离线特征提取以及使用 Web Audio API 的实时特征提取。我们写了一篇关于它的论文,可以在这里找到。
- Audiomentations - 用于音频数据增强的 Python 库。灵感来自专辑。对于深度学习很有用。在CPU上运行。支持单声道音频和多声道音频。可以集成到 Tensorflow/Keras 或 Pytorch 等训练管道中。帮助人们在 Kaggle 比赛中获得世界级的成绩。被生产下一代音频产品的公司使用。
- soundata - 用于下载、加载和处理声音数据集的 Python 库。
- auraloss - PyTorch 中以音频为中心的损失函数的集合。
- Neutone - AI 音频插件和社区。缩小人工智能研究和创造力之间的差距
- Waveformer - 一种用于实时目标声音提取的高效架构。
- EfficientAT - 高效的大规模音频标记。我们提供 AudioSet 预训练模型,为下游训练和音频嵌入提取做好准备。
- EfficientAT_HEAR - 根据音频表示基准的整体评估评估 EfficientAT 模型。
- VAD-python - Python 中的语音活动检测器。将语音活动检测器应用于波形文件的 Python 代码。基于语音频带能量与总能量之比的语音活动检测器。
- Diffsynth - PyTorch 中的可微音乐合成器.
- Realtime DDSP - PyTorch 中的实时(流)DDSP 与 neutone 兼容.
- pc-ddsp - 音高可控 DDSP 声码器。
- SSSSM-DDSP - 半监督合成器声音与可微分 DSP 匹配。
- GOLF - 基于 DDSP 的神经声码器。
- audacitorch - PyTorch 包装器,用于大胆地使用您的模型!
- Scyclone - Scyclone 是一个音频插件,利用神经音色传输技术提供一种新的音频制作方法。
- Scyclone AI - 为 Scyclone 创建预设:实时神经音色传输插件.
- 多任务自动合成器编程 - 这是多 VST 自动合成器编程项目的代码。
- NeuralNote - 使用深度学习将音频转录为 MIDI 的音频插件。
- AudioDec - 开源流媒体高保真神经音频编解码器。
- PaSST - 通过 Patchout 进行音频变压器的高效训练。
- voice_data_augment - 语音数据增强算法的摘要。
- AugLy - 用于音频、图像、文本和视频的数据增强库。
- NeuraFuzz - 经过自定义模拟模糊电路设计训练的神经音频插件。
- Ultimate Vocal Remover GUI - 使用深度神经网络的人声去除器的 GUI.
- Frechet Audio Distance - 用于 Frechet 音频距离计算的轻量级库。
- LAPE - 低资源音频处理和评估的统一框架(SSL 预训练和下游微调)。
- Azure SDK for Python - 此存储库用于主动开发 Azure SDK for Python。
- Panotti - 使用 Keras 的多通道神经网络音频分类器。
- Allie - Allie 是一个用于从音频、文本、图像、视频或 .CSV 文件构建机器学习模型的框架。
- Torchplugins - 用于加载 Pytorch 模型的 Max/MSP、PureData 和 Unity 插件。
- aeiou - (ML) 音频工程 I/O 实用程序.
- BirdNET-Analyzer - 用于科学音频数据处理的 BirdNET 分析器。
- spring-reverb-dl-models - 通过深度学习对 Spring Reverb 进行虚拟模拟建模。
- EVAR ~ - EVAR ~ 音频表示评估包。
- Julius - 基于快速 PyTorch 的 DSP,用于音频和 1D 信号。
- NeuralDX7 - 与经典 Yamaha DX7 相关的随机机器学习实验.
- HANCE - HANCE 提供由机器学习专家、音响工程师和音频处理专家开发的高质量信号处理技术。我们的技术旨在通过消除噪音、混响和其他信号损伤,为用户提供尽可能高的音频体验。
- IDEAW - 具有可逆双嵌入的鲁棒神经音频水印。
- SyNEThesia - SyNEThesia 是一种基于深度学习的音乐和声音可视化工具,也是联觉的文字游戏,联觉是一种神经系统疾病,人们以多种方式感知刺激(例如看到声音)。
- Voxaboxen -Voxaboxen 是一个深度学习框架,旨在查找录音中声音事件(可能重叠)的开始和停止时间。
- vocal-separate - 一个非常简单的工具,用于分离人声和背景音乐,完全本地化用于网络操作,使用 2stems/4stems/5stems 模型。
- 语音增强 - 用于音频降噪的深度学习。
- SNAC - 多尺度神经音频编解码器 (SNAC) 以低比特率将 44.1 kHz 音频压缩为离散代码。
- Supervoice GPT - 一种 GPT 模型,可将文本转换为音素,其持续时间适合输入语音合成器。
- 音频编辑 - 使用 DDPM 反转的零样本无监督和基于文本的音频编辑。
- MAX-Audio-Classifier -IBM 开发者模型资产交换:音频分类器。
- anira - 实时音频应用中神经网络推理的架构。
- FakeSound - Deepfake 通用音频检测。
- Audio Mamba - 用于音频表示学习的双向状态空间模型。
- SSAMBA - SSAMBA:使用 Mamba 状态空间模型进行自监督音频表示学习。
- SLAM-LLM - SLAM-LLM 是一个深度学习工具包,允许研究人员和开发人员训练自定义多模态大语言模型(MLLM),重点关注语音、语言、音频、音乐处理。
- MIDI2vec -MIDI2vec:学习 MIDI 向量空间表示的嵌入.
^ 返回目录 ^
音频生成 (AG)
- AudioLCM - 具有潜在一致性模型的文本到音频生成。
- Auffusion - Auffusion:利用扩散的力量和大型语言模型来生成文本到音频。
- Audiobox - Audiobox:具有自然语言提示的统一音频生成.
- Amphion - Amphion:开源音频、音乐和语音生成工具包。
- Nendo - Nendo AI 音频工具套件。
- 稳定的音频 - 快速定时条件的潜在音频扩散。
- WavJourney - 使用大型语言模型进行组合音频创作。
- Audiocraft -Audiocraft 是一个用于音频生成深度学习研究的 PyTorch 库。
- vschaos2 - vschaos2:老式神经音频合成。
- 神经谐振器 - 具有可微分模态谐振器的刚体声音合成。
- SoundStorm - SoundStorm:高效的并行音频生成。
- SpeechGPT - SpeechGPT:赋予大型语言模型固有的跨模式对话能力。
- CLAPSpeech - CLAPSpeech:通过对比语言音频预训练从文本上下文中学习韵律.
- AudioGPT - AudioGPT:理解和生成语音、音乐、声音和头部说话。
- Bark - Bark 是 Suno 创建的基于转换器的文本到音频模型。 Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。
- TANGO - TANGO 是一种用于生成文本到音频 (TTA) 的潜在扩散模型 (LDM)。 TANGO 可以生成逼真的音频,包括人类声音、动物声音、自然和人造声音以及文本提示的声音效果。
- ArchiSound - 在 PyTorch 中使用扩散模型生成音频.
- WaveGAN - WaveGAN:学习使用生成对抗网络合成原始音频。
- NeuralSound - 基于学习的模态声音合成与声学传输。
- RAVE - RAVE:实时音频变分自动编码器。用于快速、高质量神经音频合成的变分自动编码器。
- AudioLDM - AudioLDM:具有潜在扩散模型的文本到音频生成。
- Make-An-Audio - 制作音频:使用提示增强扩散模型生成文本到音频。
- Make-An-Audio 3 - Make-An-Audio 3:通过基于流的大型扩散变压器将文本转换为音频.
- Moûsai - Moûsai:具有长上下文潜在扩散的文本到音频。
- Im2Wav - 图像引导音频生成。我们提出了 Im2Wav,一种图像引导的开放域音频生成系统。给定输入图像或图像序列,Im2Wav 会生成语义相关的声音。
- Oobleck - 用于下游神经音频合成的开放式声音流 VAE 编解码器。
- USS - 这是具有弱标记数据的通用源分离的 PyTorch 实现。 USS 系统可以自动检测并从真实录音中分离声音类别。 USS 系统可以在分层本体结构中分离多达数百个声音类别。
- 扩散器 - ? Diffusers 是最先进的预训练扩散模型的首选库,用于生成图像、音频甚至分子的 3D 结构。
- ONE-PEACE - 一种跨视觉、音频、语言模式的通用表示模式。
- tiny-audio-diffusion - 这是一个存储库,用于在 VRAM 小于 2GB 的 GPU 上生成短音频样本并训练波形扩散模型。
- stable-audio-tools - 用于条件音频生成的生成模型。
- CTAG - 通过合成器编程生成创意文本到音频。
- Audiogen 编解码器 - 适用于一般音频的低压缩 48khz 立体声神经音频编解码器,优化音频保真度?
- WavCraft -WavCraft 是用于音频创建和编辑的 AI 代理。
- FoleyCrafter - FoleyCrafter:通过逼真的同步声音将无声视频带入生活。
^ 返回目录 ^
音频信号处理 (ASP)
- SouPyX - SouPyX是一个非常丰富多彩的音频探索空间,适合各种音频领域的研究和探索。在SouPyX中,您可以在音频处理、声音合成、音频效果、空间音频、音频可视化、AI音频等方面进行研究和探索。
- SoundFile -SoundFile 是一个基于 libsndfile、CFFI 和 NumPy 的音频库。
- Audio DSPy - audio_dspy 是一个用于音频信号处理工具的 Python 包。
- pyAudioDspTools - pyAudioDspTools 是一个 python 3 包,用于仅使用 numpy 来操作音频.
- Wave - Wave 模块提供了一个方便的 WAV 声音格式接口。它不支持压缩/解压缩,但支持单声道/立体声。
- FFmpeg - FFmpeg 是处理多媒体内容(例如音频、视频、字幕和相关元数据)的库和工具的集合。
- Opus - 用于互联网的现代音频压缩。
- Pedalboard - Pedalboard 是一个用于处理音频的 Python 库:读取、写入、添加效果等。它支持最流行的音频文件格式和许多开箱即用的常见音频效果,还允许使用 VST3 和音频单元格式的第三方插件。
- PyAudio - PyAudio 为跨平台音频 I/O 库 PortAudio v19 提供 Python 绑定.借助 PyAudio,您可以轻松地使用 Python 在各种平台(例如 GNU/Linux、Microsoft Windows 和 Apple macOS)上播放和录制音频。
- PortAudio - PortAudio 是一个免费、跨平台、开源的音频 I/O 库。它允许您用“C”或 C++ 编写简单的音频程序,这些程序将在许多平台上编译和运行,包括 Windows、Macintosh OS X 和 Unix (OSS/ALSA)。旨在促进不同平台开发者之间音频软件的交流。许多应用程序使用 PortAudio 进行音频 I/O。
- Pyo - pyo 是一个用 C 编写的 Python 模块,用于帮助创建数字信号处理脚本。Python DSP 模块。使用 pyo,用户将能够直接在 Python 脚本或项目中包含信号处理链,并通过解释器实时操作它们
- tinytag -tinytag 是一个用纯 Python 读取最常见音频文件的音乐元数据的库。使用 python 2 或 3 读取 MP3、OGG、OPUS、MP4、M4A、FLAC、WMA、Wave 和 AIFF 文件的音频和音乐元数据以及持续时间。
- Friture - Friture是一款实时可视化和分析实时音频数据的应用程序。 Friture 在多个小部件中显示音频数据,例如示波器、频谱分析仪或滚动 2D 频谱图。
- sounddevice - 这个 Python 模块提供 PortAudio 库的绑定和一些方便的函数来播放和记录包含音频信号的 NumPy 数组。
- Pydub - 使用简单易用的高级界面操作音频。
- NAudio - 用于 .NET 的音频和 MIDI 库。
- SoundCard - SoundCard 是一个用于播放和录制音频的库,无需借助 CPython 扩展。相反,它是使用精彩的 CFFI 和 Linux、Windows 和 macOS 的本机音频库来实现的。
- TarsosDSP - TarsosDSP 是一个用于音频处理的 Java 库。其目标是为实用的音乐处理算法提供一个易于使用的接口,该算法尽可能简单地以纯 Java 实现,并且没有任何其他外部依赖项。
- Maximilian - Maximilian 是一个跨平台、多目标的音频合成和信号处理库。它是用 C++ 编写的,并提供与 Javascript 的绑定。
- C++ 综合工具包 (STK) - C++ 综合工具包 (STK) 是一组用 C++ 编程语言编写的开源音频信号处理和算法综合类。
- JUCE - JUCE 是一个开源跨平台 C++ 应用程序框架,用于创建高质量的桌面和移动应用程序,包括 VST、VST3、AU、AUv3、AAX 和 LV2 音频插件和插件主机。 JUCE 可以通过 CMake 轻松与现有项目集成,也可以通过 Projucer 用作项目生成工具,支持将项目导出为 Xcode(macOS 和 iOS)、Visual Studio、Android Studio、Code::Blocks 和 Linux Makefiles以及包含源代码编辑器。
- iPlug 2 - 适用于桌面、移动和 Web 的 C++ 音频插件框架。
- CHOC - 仅标头类的集合,经过许可许可,以提供具有最低限度依赖性的基本有用任务。
- Q - Q 是一个用于音频数字信号处理的跨平台 C++ 库。 Q DSP 库以“Q 因子”(描述谐振电路质量的无量纲参数)恰当地命名,其设计简单而优雅,正如其名称所暗示的那样,并且足够高效,可以在小型微控制器上运行。
- BasicDSP - BasicDSP - 用于处理音频/实验信号处理的工具。
- DaisySP - 一个强大的、开源的 C++ DSP 库。
- 语音信号处理工具包 (SPTK) - 语音信号处理工具包 (SPTK) 是一套用于 UNIX 环境的语音信号处理工具,例如 LPC 分析、PARCOR 分析、LSP 分析、PARCOR 合成滤波器、LSP 合成滤波器、矢量量化技术,以及它们的其他扩展版本。
- eDSP - eDSP (简易数字信号处理)是一种用现代 C++ 编写的数字信号处理框架,它实现了数字信号处理、音频工程和电信系统中经常使用的一些常见功能和算法。
- KFR - KFR 是一个专注于高性能的开源 C++ DSP 框架。快速、现代的 C++ DSP 框架、FFT、采样率转换、FIR/IIR/Biquad 滤波器(SSE、AVX、AVX-512、ARM NEON)。
- MWEngine - 适用于 Android 的音频引擎和 DSP,用 C++ 编写,在音乐环境中提供低延迟性能,同时提供 Java/Kotlin API。支持 OpenSL 和 AAudio。
- LabSound - LabSound 是一个基于 C++ 图形的音频引擎。该引擎被打包为包含电池的静态库,旨在集成到多种类型的软件中:游戏、可视化工具、交互式安装、实时编码环境、VST 插件、音频编辑/排序应用程序等。
- Gist - Gist 是一个基于 C++ 的音频分析库。
- Realtime_PyAudio_FFT - Python 中的实时音频分析,使用 PyAudio 和 Numpy 从流音频中提取和可视化 FFT 特征。
- Spectrum - Python 中的频谱分析。 Spectrum 是一个 Python 库,包含基于傅里叶变换、参数方法或特征值分析来估计功率谱密度的工具。傅立叶方法基于相关图、周期图和韦尔奇估计。提供标准锥形窗口(Hann、Hamming、Blackman)和更奇特的窗口(DPSS、Taylor...)。
- tidstream - 用于生成和操作实时 Vorbis 和 Opus 流的工具。
- AudioTraits - AudioTraits 是一种抽象,旨在使音频处理的测试更加方便和可读。 “音频特征”分析给定的音频信号(其部分或全部通道)并检查特定属性。此检查的结果是布尔值,这使得可以轻松地将其集成到任何单元测试框架中。
- genMDM Editor - genMDM 的基于 Web 的界面,是 Sega Mega Drive 和 Genesis 的 MIDI 控制器。还支持 Mega Drive MIDI 接口。
- 3DAudioVisualizers - C++ 中的 OpenGL 音频可视化工具套件,使用 JUCE 进行音频和 GUI。
- AudioStretchy - AudioStretchy 是一个 Python 库,允许您在不改变音高的情况下拉伸音频信号。
- SwiftAudio -SwiftAudioEx 是用 Swift 编写的 iOS 音频播放器,使从流和文件播放音频变得更简单.
- WaveTools - WaveTools 是一个用于操作音频文件的框架;尤其是 WAVE 文件 (.wav)。
- SimplyCoreAudio - ?一个 Swift 框架,旨在让 Core Audio 在 macOS 中使用起来不那么繁琐。
- DPF - DISTRHO 插件框架。 DPF 旨在使新插件的开发成为一项简单而愉快的任务。
- Neural Amp Modeler 插件 - 用于 Neural Amp Modeler 的 VST3/AudioUnit 插件,使用 iPlug2 构建.
- lsp-dsp-lib - 用于信号处理的 DSP 库。
- Hip-Hop - 用于编写在 Web 视图中运行 UI 的音频插件的库。基于DPF。
- MGT-python -Python 音乐手势工具箱。
- ASP - 音频信号处理 Python 工具。
- TinyAudio -TinyAudio 是一个跨平台音频输出库。
- pymixconsole - Python 中的无头多轨混音控制台。
- effects-plugin - 使用 Elementary 和 JUCE 的音频效果插件模板。
- miniaudio - 用 C 编写的音频播放和捕获库,位于单个源文件中。
- AudioMass - 免费的全功能基于网络的音频和波形编辑工具。
- Universal Android Music Player Sample - 适用于 Android 的示例音频应用程序。
- jsfx - Reaper 的免费 JS (JesuSonic) 插件集合.
- Fourier - Rust 中的快速傅里叶变换(FFT).
- ProtoFaust - Faust 中用于模块化合成器 VCV Rack 的 DSP 原型.
- Polar - 用于 CUDA 处理的音频引擎 (Windows/Linux)。
- 音频到 MIDI 转换器 - 用于检测 wav 文件中的音高并及时写入量化 MIDI 的程序。
- AudioTSM - AudioTSM 是一个用于实时音频时间尺度修改程序的 python 库,即改变音频信号速度而不改变其音调的算法。
- 多重滤波器延迟 - 通过 Juce/C++ 编程的原始数字音频效果。
- convoLV2 - convoLV2 是一个 LV2 插件,用于以零延迟对音频信号进行卷积。
- Cloud Seed - Cloud Seed 是一个用 C# 和 C++ 构建的算法混响插件,用于模拟巨大、无尽的空间和调制回声。
- 背景音乐 - 背景音乐,macOS 音频实用程序:自动暂停音乐、设置各个应用程序的音量并录制系统音频。
- audiowaveform - 用于生成波形数据并从音频文件渲染波形图像的 C++ 程序。
- Mutagen - 用于处理音频元数据的 Python 模块。
- lewton - 用纯 Rust 编写的 Vorbis 解码器.
- Hound - Rust 中的 wav 编码和解码库。
- rodio - Rust 音频播放库。
- CPAL - 纯 Rust 中的跨平台音频 I/O 库。
- CSCore - CSCore 是一个免费的 .NET 音频库,完全用 C# 编写。
- TinyOSC - 用 vanilla C 编写的最小开放声音控制(OSC)库。
- TinyWav - 用于读取和写入(16b-int 和 32b-float)WAV 音频文件的最小 C 库。
- JAsioHost - 基于 Java(音频流输入/输出)的 ASIO 主机。
- PyWavelets - PyWavelets 是一个免费的开源库,用于 Python 中的小波变换。小波是在时间和频率上都局部化的数学基函数。
- ChowMultiTool - 多工具音频插件。
- RE201models - Roland RE201 的数字模型。 VST3、AU 插件和源代码。
- RtAudio - 一组 C++ 类,为 Linux(本机 ALSA、JACK、PulseAudio 和 OSS)、Macintosh OS X(CoreAudio 和 JACK)和 Windows(DirectSound、ASIO 和 WASAPI)的实时音频输入/输出提供通用 API操作系统。
- RtAudio-rs - 安全 Rust 包装器并绑定到 RtAudio.
- PFFFT - 相当快的 FFT 和使用 PFFASTCONV 的快速卷积。
- SHAART - SHAART 是一个基于 Python 的音频分析工具包,用于教育目的。
- TD-JUCE - TouchDesigner 中的 JUCE 音频和 VST.
- JIVE - JIVE 是一组 JUCE 模块,其核心是希望拥有更现代的 UI 开发方法。
- Amlituda - Amlituda - 一个基于 FFMPEG 的 Android 库,它处理音频文件并提供一系列样本。
- TagLib - TagLib 音频元数据库。
- speexdsp - Speex 回声消除器 Python 库。
- PyPam - 用于被动声学监测(PAM)的 Python 被动声学分析工具。
- AudioTools - 面向对象的音频数据处理,具有 GPU 驱动的增强功能等。
- Equalize It - 该项目是用于均衡的 VST 插件。用户界面包括频谱分析仪、滤波器控制面板、频率响应曲线和电平表。
- JDSP4Linux - 用于 PipeWire 和 PulseAudio 客户端的音频效果处理器。
- FIRconv - 有限脉冲响应 (FIR) 滤波器的 Python 实现。
- OpenDSP - 用于音频和视频 DSP 的无头 Linux 嵌入式实时操作系统。
- ultralight-juce - 将 Ultralight C++/HTML 渲染器与 JUCE 集成以获得更漂亮的 UI.
- Vult - 在对音频效果或合成器等数字信号处理 (DSP) 算法进行编程时,Vult 特别有用。
- CloudSeed [JUCE] - CloudSeed VST 插件基于 JUCE 的 UI.
- TFliteTemplatePlugin - 使用 TensorFlow lite 进行深度学习推理的 JUCE 模板插件.
- DrumFixer - DrumFixer 是一个音频插件,旨在帮助混音工程师实现更好的鼓声。
- BasicAudioPlayer - 一个 Swift 库,可以更轻松地创建基于 AVAudioEngine 的音频播放器.
- PLAudioMixer - 基于 AVAudioEngine 离线渲染模式的简单音频混合器。
- estratto -Estratto 是一个功能强大且用户友好的 Rust 库,旨在从数字音频信号中提取丰富的音频特征.
- vampy - 允许用 Python 编写 Vamp 音频分析插件的包装器。
- SoundWave - SoundWave 是一个可自定义的视图,表示随时间变化的声音。
- PyAV - PyAV 是 FFmpeg 库的 Pythonic 绑定。
- audio-dsp - 尝试音频插件开发 + DSP。
- openSMILE - openSMILE(大空间提取的开源语音和音乐解释)是一个完整的开源工具包,用于音频分析、处理和分类,特别针对语音和音乐应用。
- Carla - Carla 是一个功能齐全的音频插件主机,支持许多音频驱动程序和插件格式。
- JUCE-HEAVY - 模板 JUCE 项目显示如何将 JUCE 与 Heavy C++ (HVCC) 生成的源文件连接。
- Dplug - 音频插件框架。适用于 Linux/macOS/Windows 的 VST2/VST3/AU/AAX/LV2。
- DAWNet - DAWNet 是一个 DAW(数字音频工作站)插件,可连接到远程 Google Colab 或 Script。
- Fish Audio Preprocessor - 预处理音频以进行训练。
- clap-validator - 一个自动 CLAP 验证和测试工具。
- DSP Testbench - 面向 JUCE 框架用户的 DSP 测试平台。
- Coupler - Coupler 是一个用 Rust 编写音频插件的框架.目前它支持 VST3 和 CLAP API,并计划在不久的将来支持 AUv2 和 AAX。
- PyOgg - PyOgg 为 Xiph.org 的 Opus、Vorbis 和 FLAC 音频文件格式及其 Ogg 容器格式提供 Python 绑定。
- Streamlit-audiorecorder -streamlit 的录音机。
- DtBlkFx - DtBlkFx 是一个基于快速傅立叶变换 (FFT) 的 VST 插件。
- SmartElectronix - 所有 bram @ smartElectronix 插件的开源版本。
- Cookiejuce - 用于使用 CMake 生成现代 JUCE 项目的命令行工具。
- auglib - auglib 是一个增强库,它提供了修改音频信号和文件的转换。
- klang - klang 是一种用 C++ 设计和开发实时音频进程的语言。
^ 返回目录 ^
声音合成(SS)
- csound -csound是一种声音和音乐计算系统,最初由Barry Vercoe于1985年在MIT Media Lab开发。自90年代以来,它是由一组核心开发人员开发的。
- 纯数据 -纯数据( PD )是Miller Puckette在1990年代开发的一种视觉编程语言,用于创建交互式计算机音乐和多媒体作品。虽然Puckette是该计划的主要作者,但PD是一个开源项目,其大型开发者群在新的扩展方面工作。它是根据BSD-3-C-sause发布的。它在Linux,MacOS,iOS,Android“ Android(操作系统)”和Windows上运行。 FreeBSD和IRIX存在端口。
- Plugdata-一种可视化的编程环境,用于音频实验,原型和教育。
- MAX/MSP/抖动 - Max ,也称为Max/MSP/Jitter,是一种用于音乐和多媒体的视觉编程语言,由旧金山的位于旧金山的软件公司Cycling '74开发和维护。在其三十多年的历史中,作曲家,表演者,软件设计师,研究人员和艺术家都使用了它来创建录音,表演和安装。
- KYMA(声音设计语言) - Kyma是一种视觉编程语言,用于音乐家,研究人员和声音设计师使用的声音设计。在Kyma中,用户通过以图形方式连接Macintosh或Windows计算机上的模块来为多处理器DSP编程。
- SuperCollider -SuperCollider是音乐家,艺术家和与Sound合作的研究人员使用的音频合成和算法组成的平台。音频服务器,编程语言和IDE,用于声音合成和算法组成。
- Sonic Pi -Sonic Pi是一个基于Ruby“ Ruby(编程语言)”的现场编码环境),该环境最初旨在支持学校中的计算和音乐课程,由Sam Aaron在剑桥大学计算机实验室与Raspberry Pi合作开发基础。
- Reaktor -Reaktor是由本机仪器(NI)开发的图形模块化软件音乐工作室。它允许音乐家和声音专家设计和构建自己的乐器,采样器“采样器(乐器)”),效果和声音设计工具。它提供了许多现成的仪器和效果,从经典合成器的仿真到未来派的声音设计工具。
- RTCMIX- RTCMIX是一种实时软件“语言”,用于进行数字声音综合和信号处理。它用C/C ++编写,并免费分发开源,免费。
- 查克 - 查克(Chuck)是一种用于实时声音综合和音乐创作的编程语言。查克(Chuck)提供了一个独特的基于时间的,并发的编程模型,该模型具有精确和表现力(我们称之为强度的),动态控制率以及添加和修改代码的能力。此外,Chuck还支持MIDI,OpenSoundControl,HID设备和多频道音频。它是开源的,可以在MacOS X,Windows和Linux上免费提供。这很有趣且易于学习,并为作曲家,研究人员和表演者提供了一种强大的编程工具,用于构建和实验复杂的音频综合/分析程序以及实时互动音乐。
- 浮士德 - 浮士德(功能音频流)是一种功能性编程语言,用于声音合成和音频处理,重点关注合成器,乐器,音频效果等的设计。浮士德目标是高性能信号处理应用程序和音频插件用于各种平台和标准。
- 灵魂 - 灵魂编程语言和API。灵魂(声音语言)是试图现代化和优化高性能,低延迟音频代码的方式的尝试。
- CMAJOR -CMAJOR是一种编程语言,用于编写快速,便携式音频软件。您已经听说过C,C ++,C#,Objective-C ...好吧,C大调是一种专门用于编写DSP信号处理代码的C家族语言。
- VCV机架 - 机架是VCV Virtual Eurorack模块化合成器平台的主机应用程序。
- Gwion -Gwion是一种编程语言,旨在制作音乐。受Chuck的启发,但增加了一堆高级功能;模板,一流的功能等。它的目的是简单,小,快速,可扩展和可嵌入。
- 基本音频 - 基本是JavaScript框架和高性能音频引擎,可帮助您快速建造并自信发货。在网络或本机应用程序上编写音频软件的声明性,功能框架。
- 基础 - 基本是用于构建音频应用程序的JavaScript/C ++库。
- Sound2syth -sound2synth:通过FM合成器参数估算来解释声音。
- Jsyn -Jsyn是Phil Burk的Java模块化音频合成器。 JSYN允许您在Java开发交互式计算机音乐程序。它可用于生成声音效果,音频环境或音乐。 JSYN基于传统的单位发电机模型,可以将其连接在一起以形成复杂的声音。
- Synthax- JAX中的快速模块化合成器⚡️AcceleratingAudio Synthesis远远超出实时速度,在推进智能音频生产技术中起着重要的作用。 Synthax是用JAX编写的快速虚拟模块化合成器。在其顶峰时,Synthax的音频比实时时间快60,000倍,并且比最新的加速声音合成速度快得多。
- Midica -Midica是音乐编程语言的口译员。它将源代码转换为MIDI。但是它也可以用作MIDI播放器,MIDI编译器或分解器,卡拉OK播放器,ALDA播放器,ABC播放器,Lilypond Player或MIDI文件分析器。您用一种支持的语言(MIDICAPL,ALDA或ABC)编写音乐。
- 水星 - 汞是一种用于算法电子音乐的现场编码的最低限度和可读的语言。该语言的所有元素都是围绕使代码更容易访问的,并且对观众的混淆。这种动机延伸到编码样式本身,该样式本身使用清晰的函数描述名称和清晰的语法。
- Alda -Alda是一种基于文本的编程语言,用于音乐创作。它允许您仅使用文本编辑器和命令行编写和播放音乐。该语言的设计同样有利于美学,灵活性和易用性。
- 柏拉图音乐引擎 -柏拉图音乐引擎是一种尝试创建计算机算法的尝试,以表面上模拟创造性的人类文化,过去,现在和未来。它以交互式的方式进行操作,使用户可以选择各种参数和设置,以便最终结果将是用户唯一的,同时仍保留启发工作的文化思想。
- Pyo-Tools-可用的Python类的存储库,用于使用PYO构建音频效果和合成器。
- Py -Modular- Python的模块化和实验音频编程框架。 Py-Modular是Python的小型实验音频编程环境。它旨在成为探索新音频技术和工作流程的基础。 py-Modular中的大多数所有内容都是围绕基于节点的工作流程而建立的,这意味着小型类要完成小任务,并且可以修补在一起以创建完整的合成器或更大的想法。
- Bach:自动化作曲家的助手 - Max的一组跨平台的补丁和外部,旨在将计算机辅助的丰富性带入实时世界。
- Audiokit-音频是iOS,MACOS(包括催化剂)和TVOS的音频综合,处理和分析平台。
- twang-纯锈库高级音频综合。
- Gensound- Pythonic音频处理和生成框架。音频处理和合成的Python方式。
- 奥托 - 奥托是一个数字硬件凹槽箱,带有合成器,采样器,效果和音频循环器的音序器。该界面平坦,模块化且易于使用,但最重要的是,它旨在鼓励实验。
- Loris -Loris是由Kelly Fitz和Lippold Haken在CERL声音组开发的,用于声音分析,合成和变形的库。 Loris包括C ++类库,Python模块,C-Linkable接口,命令行实用程序和文档。
- Iannix -Iannix是基于Iannis Xenakis Works的数字艺术作品的图形开源序列。 Iannix通过开放式声音控制(OSC)事件和曲线同步到您的实时环境。
- Leipzig-一个用于Clojure和Clojurescript的音乐构图库。
- Nyquist -Nyquist是一种声音综合和组成语言,提供LISP语法以及命令性语言语法和强大的集成开发环境。Nyquist是基于功能编程的优雅而强大的系统。
- OpenMusic(OM) - OpenMusic(OM)是一种基于LISP的视觉编程语言。视觉程序是通过组装和连接代表功能和数据结构的图标来创建的。大多数编程和操作都是通过将图标从特定的地方拖到另一个地方来执行的。提供了内置的视觉控制结构(例如循环),并与LISP连接。现有的CommonLisp/CLOS代码可以在OM中轻松使用,并且可以以视觉方式开发新代码。
- ORCλ-ORCA是一种深奥的编程语言,旨在快速创建程序序列,其中每个字母的每个字母都是一个操作,小写字母在爆炸中运行,大写字母可操作每个帧。
- 泛音 - 泛音是一种开源音频环境,旨在探索从合成和采样到仪器建设,实时编码和协作干扰的新音乐思想。我们将功能强大的上级音频引擎与现状的LISP Clojure结合在一起,以创造令人陶醉的互动声音体验。
- 接缝 - 持续的电声音乐 - 基础。持续的电声音乐是一个受Alvise Vidolin和Nicola Bernardini的启发的项目。
- Glicol -Glicol(“面向图形的实时编码语言”的首字母缩写词)是一种计算机音乐语言,其语言和音频引擎编写了Rust编程语言,这是C/C ++的现代替代品。鉴于这种低级性质,Glicol可以在许多不同的平台上运行,例如浏览器,VST插件和Bela板。 Glicol的类似合成器的语法和功能强大的音频引擎也可以实时实时将高级合成器或Suequencer Control与低级样品精确的音频合成相结合。
- 纸张 - 合成器的手写文字! PaperSynth是一个项目,旨在阅读您在纸上写的关键字,并将其转换为可以在电话上播放的合成器。
- 神经谐振器VST-这是一个VST插件,它使用神经网络根据任意2D形状和材料生成过滤器。可以使用MIDI触发简单的冲动来激发这些过滤器。此外,任何音频信号都可以用作过滤器的输入。
- Scyclone- Scyclone是一个音频插件,它利用神经音色转移技术为音频生产提供了新的方法。该插件建立在Rave Methodology上,Rave方法论是一种实时音频差异自动编码器,可促进单个和夫妇推理模式下的神经音色转移。
- Mlinmax- ML用于骑自行车的最大编程语言中的声音生成和处理。
- adlplug- FM芯片合成器 - OPL和OPN - VST/LV2/standalone。
- 激增 - 合成器插件(以前以Vember Audio Suger发布)。
- CSTOP -CSTOP是AU&VST3中可用于Mac的磁带停止音频效果插件(Windows即将推出)。
- compufart- cmajor中的放屁声合成器和算法。
- PY -JS-最大 / msp的Python3外部。
- PD -LUA -LUA绑定PD,更新了LUA 5.3+。
- Live 4 Life-超级收费者的空间性能工具。
- Caesarlooper -Caesarlooper是专家卧铺的Augustus Loop VST插件的超级推销员。
- DEXED -DX7 FM Multi Plaform/多格式插件。
- 最大跃跳 - 骑自行车74的外部。
- Kontakt -Public-本地仪器的资源Kontakt Builders。
- 塔 - 查询和控制Ableton Live来自Python。
- ML -LIB-用于最大和纯数据的机器学习库。
- Zengarden -Zengarden是一个独立的库,用于运行纯数据补丁。
- Max -SDK-骑自行车'74的Max的软件开发套件。
- PD-HVCC-基于重编译器,为PD创建一个类似Gen〜的环境。
- kuroscillator-使用耦合振荡器网络进行音频和节奏合成的最大/MSP对象。
- ASCII -Audio-从ASCII字符串生成PCM音频。在频谱图像上可见文本。
- Belaminimoogemulation-具有抗氧化波形的最小值模拟合成器的数字实现和Moog梯子过滤器的娱乐活动。
- EDISYN-合成器补丁编辑器。
- Soundgen -R包装用于声音合成和声学分析。
- 红衣主教 - 虚拟模块化合成器插件。
- Flutter Echo建模 - 此存储库为合成Flutter Echo的合成提供了MATLAB演示。
- 糟糕 - 糟糕现在是叶子!用于音频综合和处理的交流库,用于嵌入式应用程序,使用半浦样式编写。
- Sonic Pi工具 - ?从Python中控制Sonic Pi。
- sonicpi.vim- vim的Sonic Pi插件。
- 控制 - chaos -Max4Live Euclidian节奏生成器。
- kpstrong-这是弹奏的karplus-strong合成器的实现,该合成器在Bela硬件上实时运行。
- nn_tilde-最大 / pd外部用于实时AI音频处理。
- 晶粒 - 使用俯仰检测来选择颗粒合成或采样的候选物的合成器。
- 信号流 - Python的声音综合框架,旨在清晰而简洁的音乐思想表达。
- Syntheon-音乐合成器的参数推断以简化声音设计过程。支持至关重要的葡萄酒。
- rnbojucetemplate-一个朱奇模板,包括使用MaxMSP的RNBO〜创建的最小合成器,该模板将RNBooBobject的状态封装在Juce的AudioProCessor中,使用现代Audiioprocessortreetreevaluestate方式。
- fluidsynth.clap-鼓掌 - plugin桥,通向流动性。
- LaunchPADX- Novation LaunchPadx控制器的简单超级推销界面。
- Faug-一种最小型模型D仿真,其中包含浮士德写的DSP部分。穆格 +浮士德= faug。
- 块 - 块是一个模块化合成器,可作为Windows和MacOS的独立,VST3和AU。
- 贝塞尔(Bessel)的技巧 - 贝塞尔(Bessel)的窍门是使用频率调制(FM)综合进行快速实时音调转换的神经音频插件。
^回到目录 ^
游戏音频(GA)
- Chunity-团结一致。插件用于Unity使用Chuck。在Unity Asset Store上可用。
- Raveler-运行Ravy型号的Wwise插件,在游戏音频设置中通过神经音频综合启用实时音色传输。
- LASP-统一的低延迟音频信号处理插件。
- Pyraper-收割者的Python包装纸。
- 收割者 - 收割者的VIM结合。
- 收割机工具 - 有声助理工具存储库。收集收割者的扩展,脚本和工具。
- Reawwise -Reawwise是一个收割机扩展名,声音设计人员可以用来将音频文件从收割机转移到Washise项目中。
- WWISER- wwise .bnk解析器,可帮助使用Washing Engine从游戏中处理音频。
- WAAPI-TEXT到语音 - 使用外部编辑器的Wwise Text-Toxech集成。
- WWISE -JSFXR(从SFXR移植)的JSFXR具有添加的wwise连接性,嵌入了电子中。
- SOLOUD -SOLOUD是一种易于使用,免费的,可移植的C/C ++音频引擎。
- audiotoys-统一的DSP涂鸦。
- dolby.io虚拟世界插件的Unity插件 - 借助Dolby.io虚拟世界插件的Unity插件,您可以轻松地集成由Dolby Atmos技术驱动的Dolby.io空间音频,并将其纳入您的虚拟世界应用程序中。
- dolby.io虚拟世界插件用于虚幻引擎 - 使用Dolby.io虚拟世界插件,用于虚幻引擎,您可以轻松地将由Dolby Atmos技术驱动的Dolby.io空间音频集成到您的虚拟世界应用中。
- 引擎模拟器 - 生成逼真的音频的燃烧引擎模拟器。
- Jack Audio for Unity-此库/插件启用Unity3D和Jackaudio之间的多通道音频路由。
- Voxel插件 - 体素插件允许在虚幻引擎中创建完全体积的,完全可破坏的无限世界。它与4.24、4.25、4.26、4.27和虚幻5兼容。
- Rev Unity -Rev Unity转速表演示。
- Unity Audio Manager(UAM) - ?用于播放/更改/停止/静音/...在2D和3D中的某个情况或事件中的一种或多种声音简单地通过。代码。
- Audio-Manager-Unity-用于在基于节点的编辑器中定义和执行Unity的音频行为的工具。
- Unity WwisePromerables-此软件包添加了使用Unity PromereAbles系统分发和加载Wwise资产的支持。
- RFXGEN-简单易用的FX Sounds Generator。
- ULIPSYNC-基于MFCC的Lipsync插件,用于使用工作系统和爆发编译器,用于Unity。
- Godot-fmod-Integration- FMOD Studio中间件集成和脚本脚本API绑定为Godot Game Engine。
- FMOD音频系统 - 使用FMOD的统一音频系统。
- ww2ogg-将有效的wwise riff/rifx vorbis转换为标准的ogg vorbis。
- 洞穴 - 基于对象的音频引擎和编解码器包,带有杜比大气渲染,房间校正,HRTF,一键式Unity Audio Takeover等等。
- RNBO Unity音频插件 - Unity的本机音频插件的RNBO适配器。
- RNBO元数据 - 实现元节点的RNBO适配器。
^回到目录 ^
数字音频工作站(DAW)
- Audacity-Audacity是Windows,MacOS,GNU/Linux和其他操作系统的易于使用的多轨音频编辑和录音机。
- TrackTion- TrackTion是一个基于跨平台的开源音频工作站,具有直观的用户界面和功能强大的音频编辑和混合功能。
- Pro Tools脚本SDK- Pro Tools脚本SDK允许您使用独立于语言的API脚本脚本Pro Tools来创建Pro Tools中的新自动化工作流。
- 收割机 - 收割者的ReeScript Python API的Pythonic包装纸。
- Reaper -SDK -Reaper C/C ++扩展SDK。
- REESCRIPTS -X -Raym的免费和开源脚本用于Cockos Reaper。
- REESCRIPTS- COCKOS收割者脚本。
- ReaBlink -Reaper插件扩展程序为Ableton链接会话提供REESCRIPT绑定,而Ableton链接测试计划为Reaper提供了符合Reaper的实现。
- VoodooHop-Ableton-Tools-Ableton活着和谐与节奏工具。 Augments Ableton以直观的音乐和谐可视化,并允许曲目的节奏动力学实时控制主节奏。
- abletonparsing- python中的Ableton ASD剪辑文件(Warp Markers等)解析。
- Ableton推动 - 用于与Ableton推送的库中的库。
- PYFLP -FL Studio Project File Parser。
- VST3SDK -VST 3插件SDK。
- TuneFlow-?+使用下一代DAW构建您的音乐算法和AI模型
- TuneFlow-PY-TuneFlow-PY是TuneFlow插件的Python SDK。
- 用于TuneFlow的SO-VITS-SVC插件-So-vits-svc作为TuneFlow插件。
- 镭 - 图形音乐编辑器。下一代追踪器。
- Bass Studio -Bass Studio是用C ++编写的数字音频工作站(DAW)。提供了Windows,MacOS和Linux构建。支持VST2和CLAP插件格式。
- Gridsound-Gridsound是一个正在进行的开放源代码数字音频工作站,它是由HTML5开发的,更精确地使用了新的Web Audio API。
- Meadowlark -Meadowlark是Linux,Mac和Windows的(正在进行的)免费和开源DAW(数字音频工作站)。它的目标是为世界各地的艺术家提供强大的录音,编辑,编辑,声音设计,混合和掌握工具,同时也是直观且可定制的。
- Mixxx -Mixxx是免费的DJ软件,可为您提供执行现场混音所需的一切。
- Hybrid-DJ-set-与DJ软件(Mixxx)与纯数据同步,用于实时性能中的虚拟仪器。
- LV2 -LV2是音频系统的插件标准。它为插件定义了可扩展的C API,以及一种包含插件,元数据和其他资源的独立“捆绑”目录的格式。
- Ardor-记录,编辑和混合Linux,MacOS和Windows。
- LMMS -LMMS是FLStudio®等商业程序的免费跨平台替代品,它使您可以使用计算机制作音乐。这包括创建旋律和节拍,声音的合成和混合以及样品的布置。
- Qtractor -Qtractor是用QT框架编写的C ++的音频/MIDI多轨序列应用程序。 Target平台是Linux,其中插孔音频连接套件(JACK)用于音频,而MIDI的高级Linux声音体系结构(ALSA)是发展为相当典型的Linux台式音频工作站GUI的主要基础架构,特别是专门针对的。个人家庭生活。
- Smart-Audio-Mixer-使用C ++/Juce的现代数字音频工作站(DAW)。
- OpenVino™AI插件,用于Audacity-一组AI -Dective,生成器和大胆分析仪。
- 杰克多 - 剥离的,以键盘为重点的数字音频工作站(DAW)从诸如Avid等非线性视频编辑器中获得一些设计提示。
- OSSIA得分 - 中间序列器支持音频(VST,VST3,LV2,JSFX等)以及视频和硬件控制(OSC,MIDI,DMX,NDI,NDI,MQTT,COAP等)
^回到目录 ^
空间音频(SA)
- Spaudiopy-空间音频python包。 (到目前为止)的重点是空间音频编码器和解码器。该软件包包括例如球形谐波处理以及(Binaural渲染)扬声器解码器,例如VBAP和Allrad。
- spatial_audio_framework(SAF)-Patial_audio_framework(SAF)是一个开放式和跨平台框架,用于开发C/C ++中的空间音频算法和软件。该框架最初是作为该领域研究人员的资源,逐渐成长为一个相当大的,有据可查的代码库,其中包括许多不同的模块。每个模块都针对特定的空间音频(例如,编码/解码的Ambisonics,球形阵列处理,振幅挡板,HRIR处理,房间仿真等)。
- HO-SIRR-高阶空间脉冲响应渲染(HO-SIRR)是一种渲染方法,它可以使用输入球形谐波(Ambishic/B-Format)rirs rirs rirs rirs andthers lundspeaker阵列脉冲响应(RIRS)。高阶空间脉冲响应渲染(HO-SIRR)算法的MATLAB实现;一种在扬声器上复制Ambisonic Rirs的另一种方法。
- Spatgris -Spatgris是一种声音空间化软件,可以使作曲机和声音设计师摆脱现实世界扬声器设置的约束。使用ControlGris插件与Spatgris分发,可以直接在您的DAW中组成丰富的空间轨迹,并在任何扬声器布局上实时复制。它是快速,稳定,跨平台,易于学习,并使用您已经知道的工具。 Spatgris支持任何扬声器设置,包括Quad,5.1或八光圈等2D布局,以及3D布局,例如扬声器圆顶,音乐厅,剧院等。项目也可以使用双耳与头部相关的转移功能或简单的立体声混合到立体声平板。
- Steam Audio -Steam Audio提供了一个完整的音频解决方案,以整合环境和侦听器仿真。 HRTF显着改善了VR的浸入;基于物理的声音传播通过始终重现声音与虚拟环境的相互作用来完成听觉沉浸。
- 空间audiokit -spatialaudiokit是一个迅速的软件包,可促进苹果平台上的空间音频应用程序的创作。
- libmysofa-读取AES沙发文件的阅读器,以获得更好的HRTF。
- Omnitone-全酮:网络上的空间音频渲染。 Omnitone 是用 Web Audio API 编写的立体声解码和双耳渲染的强大实现。其渲染过程由 Web Audio API(GainNode 和 Convolver)的快速本机功能提供支持,确保最佳性能。 Omnitone 的实现基于 Google 空间媒体规范和 SADIE 的双耳滤波器。它还为 Web 版 Resonance Audio SDK 提供支持。
- MACH1空间-MACH1空间SDK包含API,以允许开发人员设计可以编码或平底锅的应用程序,以从音频流和/或播放和播放和解码MACH1 -SPATIAL 8CHANNEL空间音频混合使用以方向解码用户的正确刻板输出总和当前方向。此外,MACH1空间SDK允许用户可以安全地转换环绕/空间音频混合物往返于MACH1 -SPATIAL或MACH1HORIZON VVBP格式。
- Soundspaces - Soundspaces是一个现实的声学模拟平台,用于视听体现的AI研究。从视听导航,视听探索到回声定位和视听平面图重建,该平台将体现的视觉研究扩展到更广泛的主题范围。
- 视觉声音匹配 - 我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像在目标环境中记录的声音。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。
- Fast-Rir-这是我们基于神经网络的官方实施,用于给定声学环境的基于神经网络的快速弥漫型脉冲响应生成器(FAST-RIR),用于生成房间脉冲响应(RIRS)。
- Pygsound-基于最先进的几何音响传播引擎的脉冲响应生成。
- RIRIS -RIRIS是使用快速剪切转换的MATLAB实现房间脉冲响应插值的实现。
- 并行rebeverb-raytracer-一种用于脉冲响应的射线跟踪器(用于混响),受栅格图形照明技术的影响。
- Synth 3D -VST合成器带有虚拟振荡器对象,放置在3D空间中。
- libbasicsofa-一个非常基本的库,用于读取声学文件(SOFA)文件的空间取向格式,一种用于存储HRTFS和/或Brirs用于Binuaral Audio复制的格式。
- MESH2HRTF-开放软件,用于与头部相关传输函数的数值计算。
- OpenAL Soft -OpenAl Soft是OpenAL 3D音频API的软件实现。
- Soundscape_ir -Soundscape_ir是一个基于Python的音景信息检索工具箱,旨在协助分析音景录音。
- 发声物体 - 我们提出了一个模型,该模型可以从耳机麦克风和身体姿势作为输入中产生人体的准确3D声场。
- SoundScapy-用于分析和可视化音景评估的Python库。
- Ambix-跨平台Ambisonic VST,LV2插件具有可变订单,可在Reaper或Ardor或Ardor或Jack独立应用等数字音频工作站中使用。
- HOAC-空间音频的高阶Ambisonics编解码器。
- OpenSoundLab -OpenSoundLab(OSL)使用Meta Quest的传递模式在混合现实体验中使模块化声音贴合三维。
- 看到2号? - 零射击空间环境之间的空间声音。
^回到目录 ^
网络音频处理(WAP)
- WEBRTC音频处理 - WEBRTC音频处理的Python结合。
- WebChuck -WebChuck将Chuck(一种强烈的音频编程语言)带到网络上! Chuck的C ++源代码已编译为WebAssembly(WASM),并通过Web Audio API的AudioWorkletNode接口运行。
- midi.js-?使生活易于在网络上创建MIDI-IP。在您的应用中包括一个库将联合性编程为记忆识别或创建曲折效果。转换吉他,贝斯,鼓,ect的配件。进入可以由浏览器读取的代码。 Midi.js将其联系在一起,并建立在将MIDI带到浏览器上的框架上。将其与茉莉花结合使用,以创建类似于此演示的Web-Radio MIDI流,或使用Trix.js,Sparks.js或GLSL创建音频/视觉实验。
- Web语音处理器 - 用于在Web浏览器中实时语音处理的库。
- tound.js -tone.js是一个网络音频框架,用于在浏览器中创建交互式音乐。 tone.js的体系结构的目的是为了创建基于Web的音频应用程序而熟悉音乐家和音频程序员。在高水平上,音调提供了常见的DAW(数字音频工作站)功能,例如用于同步和调度事件的全球运输以及预先建立的合成器和效果。此外,音调提供了高性能的构建块,以创建自己的合成器,效果和复杂的控制信号。
- AUDIO.JS -AUDIOJS是一个放入JavaScript库,允许在任何地方使用HTML5的
<audio>
标签。它使用本机<audio>
在可用的地方使用,并落到了一个无形的闪存播放器中,将其模拟其他浏览器。它还可以为所有浏览器提供一致的HTML Player UI,可以使用标准CSS进行设计。 - peaks.js-用于与音频波形交互的JavaScript UI组件。
- Howler.js-现代网络的JavaScript音频库。 howler.js 使 JavaScript 中的音频处理在所有平台上变得简单可靠。 howler.js 是现代网络的音频库。它默认为Web Audio API,并回到HTML5音频。这使得在 JavaScript 中处理音频在所有平台上都变得简单可靠。
- CoffeeCollider -CoffeeCollider是HTML5中实时音频合成和算法组成的语言。该项目的概念被设计为“写CoffeeScript,并作为超级推销商处理”。
- pico.js-跨平台的音频处理器。
- timbre.js -Timbre.js通过Modern JavaScript的方式在您的Web应用程序中提供功能处理和合成音频,例如jquery或node.js。它具有许多T-Object (正式:Timbre对象),它们将连接在一起以定义基于图的路由以进行整体音频渲染。该项目的目标是与Web的下一代音频处理进行。
- rythm.js- javascript库,使您的页面舞蹈。
- P5.SOUND -P5。SOUND扩展了P5具有Web音频功能,包括音频输入,播放,分析和合成。
- WADJS-用于操纵音频的JavaScript库。网络音频DAW。使用Web音频API进行动态声音综合。就像您耳朵的jQuery一样。
- ableton.js -ableton.js允许您使用node.js。它试图涵盖尽可能多的功能。
- sound.js-“ sound.js”是微型图书馆,可让您为游戏和交互式应用程序加载,播放和生成音乐效果和音乐。它很小:少于800行代码,没有依赖关系。单击此处尝试交互式演示。您可以将其按原样使用,或将其集成到现有的框架中。
- 金枪鱼 - 网络音频API的音频效果库。
- XSound -Xsound为Web开发人员提供了强大的音频功能!
- Pizzicato-网络音频JavaScript库。 Pizzicato旨在简化您通过Web音频API创建和操纵声音的方式。在这里查看演示网站。库用Web Audio API简化了您创建和操纵声音的方式。
- Audiomass-免费的全网络音频和波形编辑工具。
- WebPD-在网络上运行纯数据补丁。 WebPD是纯数据音频编程语言的编译器,允许在网页中运行.pd补丁。
- DX7合成器JS -DX7 FM合成使用Web音频和Web MIDI API。在Chrome和Firefox中工作。使用MIDI或QWERTY键盘播放合成器。
- webmidi.js -WebMidi.js使直接从Web浏览器或Node.js直接与MIDI Instruments进行交互变得易于交互。 It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
- web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
- Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
- Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
- WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
- Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
- JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
- tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
- wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
- Aurora.js - JavaScript audio decoding framework.
- Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
- Pitch detection - Pitch detection in Web Audio using autocorrelation.
- SAT - Streaming Audiotransformers for online Audio tagging.
- WebAudioXML - An XML syntax for building Web Audio API applications.
- FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
- ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
- wave-resampler - PCM audio resampler written entirely in JavaScript.
- useSound - A React Hook for playing sound effects.
- Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
- audio-worklet-loader - Audio Worklet loader for webpack.
^ Back to Contents ^
Music Information Retrieval (MIR)
- Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
- Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
- Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
- mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
- Partitura - A python package for handling modern staff notation of music.
- Midifile - C++ classes for reading/writing Standard MIDI Files.
- MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
- mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
- Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
- Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
- AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
- Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
- crema - convolutional and recurrent estimators for music analysis.
- MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
- MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
- Music Exploration - App to explore latent spaces of music collections.
- LooPy - A data framework for music information retrieval focusing on electronic music.
- Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
- carat - Computer-aided rhythm analysis toolbox.
- miditoolkit - A python package for working with MIDI data.
- Midly - A feature-complete MIDI parser and writer focused on speed.
- libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
- PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
- solfege.ai ? - Detect solfege hand signs using machine learning ?
- libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
- jams - A JSON Annotated Music Specification for Reproducible MIR Research.
- Piano Trainer - A music practice program with MIDI support.
- quickly - A LilyPond library for python (slated to become the successor of python-ly).
- ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
- Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
- Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
- Parangonar - Parangonar is a Python package for note alignment of symbolic music.
- musicparser - Deep learning based dependency parsing for music sequences.
- musif - Music Feature Extraction and Analysis.
- pycompmusic - Tools to help researchers work with Dunya and CompMusic.
- CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
- Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
- pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
- PyABC - Python package for parsing and analyzing ABC music notation.
- mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
- MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
- iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
- Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
- musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
- midi-db - ? Data concerning MIDI standards.
^ Back to Contents ^
Music Generation (MG)
- isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
- MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
- music21 - music21 is a Toolkit for Computational Musicology.
- Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
- MusicLM - MusicLM: Generating Music From Text.
- SingSong - SingSong: Generating musical accompaniments from singing.
- Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
- Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
- RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
- riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
- Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
- Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
- MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
- Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
- MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
- SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
- Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
- Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
- Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
- libatm -
libatm
is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli
project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here. - Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
- MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
- PyMusicLooper - A script for creating seamless music loops, with play/export support.
- ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
- linuxwave - Generate music from the entropy of Linux ??
- Chord2Melody - Automatic Music Generation AI.
- symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
- AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
- WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
- DeBussy - Solo Piano Music AI Implementation.
- Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
- Somax 2 - Somax 2 is an application for musical improvisation and composition.
- Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
- LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
- Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
- JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
- Anticipatory - Anticipatory Music Transformer.
- MIDI Language Model - Generative modeling of MIDI files.
- modulo - A Toolkit for Tinkering with Digital Musical Instruments.
- MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music.这种语言允许作曲家以简单、浓缩和高级的方式加载、编写、转换和预测符号音乐。
- FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.
^ Back to Contents ^
Speech Recognition (ASR)
- Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
- PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
- NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
- Whisper - Whisper is a general-purpose speech recognition model.它是在各种音频的大型数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
- WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
- Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
- Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
- Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
- audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
- Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
- SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
- ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet 使用 pytorch 作为深度学习引擎,并遵循 Kaldi 风格的数据处理、特征提取/格式和配方,为各种语音处理实验提供完整的设置。
- Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
- Leon - ? Leon is your open-source personal assistant.
- DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
- SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
- annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
- PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
- Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
- Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
- 3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
- FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
- Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
- dejavu - Audio fingerprinting and recognition in Python.
- Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
- OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
- MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
- UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
- paasr - Privacy Aware Automatic Speech Recognition.
- whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
- DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
- pypinyin - A Python tool for converting Chinese character to Pinyin.
- PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
- KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
- Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
- SALMONN - Speech Audio Language Music Open Neural Network.
- PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
- WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
- Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
- PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
- Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
- TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
- Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
- SwiftSpeech - A speech recognition framework designed for SwiftUI.
- SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.
^ Back to Contents ^
Speech Synthesis (TTS)
- VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
- SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
- VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech.最近提出了几种支持单阶段训练和并行采样的端到端文本转语音 (TTS) 模型,但它们的样本质量与两阶段 TTS 系统不匹配。 In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
- NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
- WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
- FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
- MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
- HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
- edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
- Vocode - Vocode is an open-source library for building voice-based LLM applications.
- TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
- Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
- TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
- libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
- SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
- Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
- Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
- YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
- ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
- WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
- Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
- Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
- Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
- TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
- xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
- PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
- GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (少数镜头克隆声音)。
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- RAD-MMM - A TTS model that makes a speaker speak new languages.
- BUD-E - A conversational and empathic AI Voice Assistant.
- Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
- lina-speech - linear attention based text-to-speech.
- ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
- RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
- StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
- ChatTTS - ChatTTS is a generative speech model for daily dialogue.
- StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
- Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
- MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
- MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
- OpenVoice - Instant voice cloning by MyShell.
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
- CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
- tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.
^ Back to Contents ^
Singing Voice Synthesis (SVS)
- NNSVS - Neural network-based singing voice synthesis library for research.
- Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
- OpenUtau - Open singing synthesis platform / Open source UTAU successor.
- so-vits-svc - SoftVC VITS Singing Voice Conversion.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
- Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
- Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
- DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
- lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
- Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
- VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
- midi2voice - Singing Synthesis from MIDI file.
- MoeGoe - Executable file for VITS inference.
- Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
- WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
- clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
- OpenVoice - Instant voice cloning by MyShell.
^ Back to Contents ^