audio development tools Скачать - audio development tools Загрузка исходного кода

Инструменты разработки аудио (ADT)

Это список инструментов разработки звука, аудио и музыки, который включает машинное обучение, генерацию звука, обработку аудиосигнала, синтез звука, игровой звук, рабочую станцию цифрового звука, пространственный звук, поиск музыкальной информации, генерацию музыки, распознавание речи, синтез речи, синтез певческого голоса и многое другое.

Машинное обучение (МО)
Генерация звука (AG)
Обработка аудиосигнала (ASP)
Синтез звука (СС)
Игровой звук (GA)
Цифровая аудио рабочая станция (DAW)
Пространственное аудио (SA)
Веб-обработка аудио (WAP)
Поиск музыкальной информации (МИР)
Музыкальное поколение (МГ)
Распознавание речи (ASR)
Синтез речи (TTS)
Синтез певческого голоса (SVS)

Список проектов

Машинное обучение (МО)

librosa — Librosa — пакет Python для анализа музыки и аудио. Он предоставляет строительные блоки, необходимые для создания систем поиска музыкальной информации.
Essentia — Essentia — это библиотека C++ с открытым исходным кодом для анализа аудио и извлечения музыкальной информации на основе аудио, выпущенная под лицензией Affero GPLv3. Он содержит обширную коллекцию повторно используемых алгоритмов, которые реализуют функции ввода/вывода звука, стандартные блоки цифровой обработки сигналов, статистическую характеристику данных и большой набор спектральных, временных, тональных и музыкальных дескрипторов высокого уровня. Библиотека C++ для анализа, описания и синтеза аудио и музыки, включая привязки Python.
DDSP — DDSP: Дифференцируемая цифровая обработка сигналов. DDSP — это библиотека дифференцируемых версий общих функций DSP (таких как синтезаторы, формирователи сигналов и фильтры). Это позволяет использовать эти интерпретируемые элементы как часть модели глубокого обучения, особенно в качестве выходных слоев для генерации звука.
MIDI-DDSP — MIDI-DDSP: детальный контроль музыкального исполнения посредством иерархического моделирования. MIDI-DDSP — это иерархическая модель генерации звука для синтеза MIDI, расширенная из DDSP.
DDSP-VST — нейронный синтезатор и эффекты DDSP в реальном времени. Плагины VST3/AU и настольные приложения, созданные с использованием платформы JUCE и DDSP.
torchsynth — модульный синтезатор в pytorch с возможностью установки графического процессора, работающий в 16 200 раз быстрее, чем в реальном времени, для исследователей машинного обучения в области аудио.
aubio — aubio — инструмент, предназначенный для извлечения аннотаций из аудиосигналов. Его функции включают в себя сегментацию звукового файла перед каждой его атакой, определение высоты тона, прослушивание ритма и создание миди-потоков из живого звука.
audioFlux — audioFlux — это библиотека инструментов глубокого обучения для анализа аудио и музыки, извлечения функций. Он поддерживает десятки методов преобразования частотно-временного анализа и сотни соответствующих комбинаций функций во временной и частотной областях. Он может быть предоставлен сетям глубокого обучения для обучения и используется для изучения различных задач в области аудио, таких как классификация, разделение, поиск музыкальной информации (MIR), ASR и т. д.
Polymath — Polymath использует машинное обучение для преобразования любой музыкальной библиотеки (например, с жесткого диска или YouTube) в библиотеку образцов музыкального производства. Инструмент автоматически разделяет песни на основы (биты, бас и т. д.), квантует их в одном темпе и сетке ударов (например, 120 ударов в минуту), анализирует музыкальную структуру (например, куплет, припев и т. д.), тональность (например, C4, E3). и т. д.) и другую информацию (тембр, громкость и т. д.), а также преобразует звук в MIDI. Результатом является библиотека образцов с возможностью поиска, которая упрощает рабочий процесс для музыкальных продюсеров, диджеев и разработчиков аудио ML.
IPython — IPython предоставляет богатый набор инструментов, который поможет вам максимально эффективно использовать Python в интерактивном режиме.
torchaudio — аудиобиблиотека для PyTorch. Манипулирование и преобразование данных для обработки аудиосигналов на базе PyTorch.
TorchLibrosa — реализация Librosa на PyTorch.
torch-audiomentations — быстрое увеличение аудиоданных в PyTorch. Вдохновлен аудиоментациями. Полезно для глубокого обучения.
PyTorch Audio Augmentations — библиотека дополнений аудиоданных для PyTorch для звука во временной области.
Asteroid — Asteroid — это набор инструментов для разделения источников звука на основе Pytorch, который позволяет быстро экспериментировать с распространенными наборами данных. Он поставляется с исходным кодом, который поддерживает широкий спектр наборов данных и архитектур, а также набором рецептов для воспроизведения некоторых важных документов.
Капре — Капре: препроцессоры аудио Keras. Препроцессоры Keras Audio — вычисляют STFT, InverseSTFT, Melspectrogram и другие на графическом процессоре в режиме реального времени.
praudio — платформа предварительной обработки звука для аудиоприложений глубокого обучения.
automix-toolkit — модели и наборы данных для обучения моделей автоматического смешивания с глубоким обучением.
DeepAFx - DeepAFx: глубокие звуковые эффекты. Эффекты обработки аудиосигнала (FX) используются для управления характеристиками звука в различных средах. Однако многие эффекты могут быть трудными или утомительными в использовании, особенно для начинающих пользователей. В нашей работе мы стремимся упростить использование аудиоэффектов, обучая машину использовать эффекты напрямую и выполнять задачи автоматического производства звука. Используя знакомые и существующие инструменты для обработки и предложения параметров управления, мы можем создать уникальную парадигму, которая сочетает в себе мощь ИИ с творческим контролем человека, расширяя возможности творцов.
nnAudio — nnAudio — это набор инструментов для обработки звука, использующий сверточную нейронную сеть PyTorch в качестве серверной части. Таким образом, спектрограммы могут быть сгенерированы из аудио на лету во время обучения нейронной сети и могут быть обучены ядра Фурье (например, ядра CQT).
WavEncoder — WavEncoder — это библиотека Python для кодирования аудиосигналов, преобразований для расширения звука и обучения моделей классификации аудио с помощью бэкэнда PyTorch.
SciPy — SciPy (произносится как «Sigh Pie») — это программное обеспечение с открытым исходным кодом для математики, естественных наук и техники. Он включает в себя модули для статистики, оптимизации, интеграции, линейной алгебры, преобразования Фурье, обработки сигналов и изображений, решатели ОДУ и многое другое.
pyAudioAnaанализ — библиотека анализа аудио Python: извлечение функций, классификация, сегментация и приложения.
Mutagen — Mutagen — это модуль Python для обработки метаданных аудио. Он поддерживает аудиофайлы ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG и AIFF. Поддерживаются все версии ID3v2, и анализируются все стандартные кадры ID3v2.4. Он может читать заголовки Xing для точного расчета битрейта и длины MP3-файлов. Теги ID3 и APEv2 можно редактировать независимо от аудиоформата. Он также может манипулировать потоками Ogg на уровне отдельных пакетов/страниц.
LibXtract — LibXtract — это простая, портативная и легкая библиотека функций извлечения аудио-функций. Цель библиотеки — предоставить относительно исчерпывающий набор примитивов извлечения признаков, которые предназначены для «каскадирования» для создания иерархий извлечения.
дежавю — снятие отпечатков пальцев и распознавание аудио в Python. Дежавю может запомнить аудио, прослушав его один раз и сняв с него отпечатки пальцев. Затем, воспроизводя песню и записывая входной сигнал микрофона или читая с диска, Дежавю пытается сопоставить звук с отпечатками пальцев, хранящимися в базе данных, возвращая воспроизводимую песню.
Сопоставление — ?️ Сопоставление и мастеринг аудио с открытым исходным кодом. Matchering 2.0 — это новое контейнерное веб-приложение и библиотека Python для сопоставления и мастеринга аудио.
TimeSide — TimeSide — это платформа Python, позволяющая анализировать аудио низкого и высокого уровня, создавать изображения, транскодировать, транслировать и маркировать. Его высокоуровневый API предназначен для комплексной обработки очень больших наборов данных любых аудио- или видеоресурсов с подключаемой архитектурой, безопасным масштабируемым серверным интерфейсом и расширяемым динамическим веб-интерфейсом.
Meyda — Meyda — это библиотека извлечения аудиофункций Javascript. Meyda поддерживает как извлечение функций в автономном режиме, так и извлечение функций в реальном времени с использованием API веб-аудио. Мы написали об этом статью, которая доступна здесь.
Аудиоментации — библиотека Python для расширения аудиоданных. Вдохновлен альбументациями. Полезно для глубокого обучения. Работает на процессоре. Поддерживает моно- и многоканальный звук. Может быть интегрирован в конвейеры обучения, например, в Tensorflow/Keras или Pytorch. Помогал людям добиваться результатов мирового уровня на соревнованиях Kaggle. Используется компаниями, производящими аудиопродукты нового поколения.
soundata — библиотека Python для загрузки, загрузки и работы с наборами звуковых данных.
auraloss — набор функций потери звука в PyTorch.
Neutone — аудиоплагин и сообщество AI. Преодоление разрыва между исследованиями в области ИИ и творчеством
Waveformer — эффективная архитектура для извлечения целевого звука в реальном времени.
EfficientAT — эффективная крупномасштабная маркировка аудио. Мы предоставляем предварительно обученные модели AudioSet, готовые к дальнейшему обучению и извлечению аудиовложений.
EfficientAT_HEAR — оценка моделей EfficientAT в тесте комплексной оценки аудиопредставлений.
VAD-python — детектор голосовой активности на Python. Код Python для применения детектора голосовой активности к волновому файлу. Детектор речевой активности, основанный на соотношении энергии в речевом диапазоне и полной энергии.
Diffsynth — дифференцируемый музыкальный синтезатор в PyTorch.
DDSP в реальном времени — DDSP в реальном времени (потоковый) в PyTorch, совместимый с neutone.
pc-ddsp — вокодеры DDSP с регулируемой высотой тона.
SSSSM-DDSP — полуконтролируемое согласование звука синтезатора с дифференцируемым DSP.
GOLF — нейронный вокодер на основе DDSP.
audacitorch — оболочки PyTorch для использования вашей модели в audacity!
Scyclone — Scyclone — это аудиоплагин, который использует технологию нейронной передачи тембра, чтобы предложить новый подход к производству звука.
Scyclone AI — создайте пресеты для Scyclone: подключаемого модуля нейронной передачи тембра в реальном времени.
Многозадачное автоматическое программирование синтезатора — это код проекта программирования многозадачного автоматического синтезатора VST.
NeuralNote — аудиоплагин для транскрипции аудио в MIDI с использованием глубокого обучения.
AudioDec — потоковый высококачественный нейронный аудиокодек с открытым исходным кодом.
PaSST — Эффективное обучение аудиотрансформаторов с помощью патчаута.
voice_data_augment — сводка алгоритмов увеличения речевых данных.
AugLy — библиотека дополнений данных для аудио, изображений, текста и видео.
NeuraFuzz — плагин Neural audio, созданный на основе индивидуальной конструкции аналоговых фазз-схем.
Ultimate Vocal Remover GUI — графический интерфейс для Vocal Remover, использующий глубокие нейронные сети.
Frechet Audio Distance — легкая библиотека для расчета расстояния аудио Frechet.
LAPE — унифицированная платформа для обработки и оценки аудио с низким уровнем ресурсов (предварительное обучение SSL и точная настройка нисходящего потока).
Azure SDK для Python. Этот репозиторий предназначен для активной разработки Azure SDK для Python.
Panotti — многоканальный классификатор звука нейронной сети, использующий Keras.
Allie — Allie — это платформа для создания моделей машинного обучения из аудио, текста, изображений, видео или файлов .CSV.
Плагины Torch — плагины Max/MSP, PureData и Unity для загрузки моделей Pytorch.
aeiou — (ML) утилиты аудиоинженерного ввода-вывода.
BirdNET-Analyzer — BirdNET-анализатор для научной обработки аудиоданных.
Spring-reverb-dl-models — виртуальное аналоговое моделирование пружинной реверберации с помощью глубокого обучения.
EVAR ~ - EVAR ~ Оценочный пакет для аудиопредставлений.
Julius — быстрый DSP на базе PyTorch для аудио и 1D-сигналов.
NeuralDX7 — случайные эксперименты по машинному обучению, связанные с классической Yamaha DX7.
HANCE — HANCE предлагает высококачественные методы обработки сигналов, разработанные специалистами по машинному обучению, звукорежиссерами и экспертами по обработке звука. Наша технология создана для того, чтобы предоставить пользователям максимально возможное качество звука за счет устранения шума, реверберации и других искажений сигнала.
IDEAW — надежное создание водяных знаков нейронного аудио с обратимым двойным встраиванием.
SyNEThesia — SyNEThesia — это визуализатор музыки и звука, основанный на глубоком обучении, а также игра слов на основе синестезии, неврологического состояния, при котором человек воспринимает стимул несколькими способами (например, видя звук).
Voxaboxen — Voxaboxen — это платформа глубокого обучения, предназначенная для определения времени начала и окончания (возможно, перекрывающихся) звуковых событий в записи.
voice-separate — Чрезвычайно простой инструмент для разделения вокала и фоновой музыки, полностью локализованный для работы в Интернете, с использованием моделей 2/4/5 стемов.
Улучшение речи — глубокое обучение шумоподавлению звука.
SNAC — многомасштабный нейронный аудиокодек (SNAC) сжимает звук частотой 44,1 кГц в дискретные коды с низкой скоростью передачи данных.
Supervoice GPT — модель GPT, которая преобразует текст в фонемы с длительностью, подходящей для подачи в голосовой синтезатор.
AudioEditing — редактирование звука без присмотра и на основе текста с использованием инверсии DDPM.
MAX-Audio-Classifier — IBM Developer Model Asset Exchange: Audio Classifier.
anira — архитектура нейросетевого вывода в аудиоприложениях в реальном времени.
FakeSound — общее обнаружение звука Deepfake.
Audio Mamba — двунаправленная модель пространства состояний для обучения представлению звука.
SSAMBA - SSAMBA: самостоятельное обучение представлению звука с помощью модели пространства состояний Mamba.
SLAM-LLM — SLAM-LLM — это набор инструментов глубокого обучения, который позволяет исследователям и разработчикам обучать пользовательскую мультимодальную модель большого языка (MLLM), уделяя особое внимание обработке речи, языка, аудио и музыки.
MIDI2vec - MIDI2vec: изучение вложений для представлений векторного пространства MIDI.

^ Вернуться к содержанию ^

Генерация звука (AG)

AudioLCM — генерация текста в аудио с использованием моделей скрытой согласованности.
Auffusion — Auffusion: использование возможностей распространения и больших языковых моделей для преобразования текста в аудио.
Audiobox — Audiobox: унифицированное создание аудио с подсказками на естественном языке.
Amphion — Amphion: набор инструментов для создания аудио, музыки и речи с открытым исходным кодом.
Nendo — набор аудиоинструментов Nendo AI.
Стабильный звук — быстрое распространение скрытого звука с временными условиями.
WavJourney — создание композиционного аудио с использованием больших языковых моделей.
Audiocraft — Audiocraft — это библиотека PyTorch для исследований в области глубокого обучения генерации звука.
vschaos2 — vschaos2: винтажный нейронный синтез звука.
Нейронный резонатор - синтез звука твердого тела с дифференцируемыми модальными резонаторами.
SoundStorm — SoundStorm: эффективная параллельная генерация звука.
SpeechGPT — SpeechGPT: расширение возможностей больших языковых моделей с помощью внутренних кросс-модальных разговорных возможностей.
CLAPSpeech - CLAPSpeech: изучение просодии из текстового контекста с предварительной тренировкой по контрастному языку и аудио.
AudioGPT — AudioGPT: понимание и генерация речи, музыки, звука и говорящей головы.
Bark — Bark — это модель преобразования текста в аудио на основе преобразователя, созданная Suno. Bark может генерировать очень реалистичную многоязычную речь, а также другой звук, включая музыку, фоновый шум и простые звуковые эффекты.
ТАНГО — ТАНГО — это модель скрытой диффузии (LDM) для генерации текста в аудио (TTA). TANGO может генерировать реалистичные звуки, включая звуки людей, животных, естественные и искусственные звуки, а также звуковые эффекты из текстовых подсказок.
ArchiSound — генерация звука с использованием моделей диффузии в PyTorch.
WaveGAN — WaveGAN: научитесь синтезировать необработанный звук с помощью генеративно-состязательных сетей.
NeuralSound — модальный синтез звука на основе обучения с акустической передачей.
RAVE — RAVE: вариационный автокодировщик звука в реальном времени. Вариационный автокодировщик для быстрого и качественного нейронного синтеза звука.
AudioLDM - AudioLDM: генерация текста в аудио с помощью скрытых моделей диффузии.
Make-An-Audio - Make-An-Audio: генерация текста в аудио с помощью моделей мгновенного расширения.
Make-An-Audio 3 - Make-An-Audio 3: Преобразование текста в аудио с помощью больших диффузионных преобразователей на основе потоков.
Мусай - Мусай: преобразование текста в аудио со скрытой диффузией длинного контекста.
Im2Wav — генерация звука с подсказками по изображению. Мы предлагаем Im2Wav, систему генерации звука в открытом домене с управлением по изображениям. Учитывая входное изображение или последовательность изображений, Im2Wav генерирует семантически релевантный звук.
Oobleck — открытые звуковые кодеки VAE для последующего нейронного синтеза звука.
USS — это реализация PyTorch универсального разделения источников со слабо маркированными данными. Система USS может автоматически обнаруживать и отделять классы звука от реальной записи. Система USS может разделять до сотен звуковых классов в иерархической онтологической структуре.
Диффузоры - ? Diffusers — это библиотека современных предварительно обученных моделей диффузии для создания изображений, аудио и даже трехмерных структур молекул.
ONE-PEACE — общее модальное представление, охватывающее зрительные, звуковые и языковые модальности.
tiny-audio-diffusion — это репозиторий для генерации коротких аудиосэмплов и обучения моделей диффузии сигналов на графическом процессоре с видеопамятью менее 2 ГБ.
стабильные аудио-инструменты — генеративные модели для условной генерации звука.
CTAG — творческое преобразование текста в аудио с помощью программирования синтезатора.
Audiogen Codec — стереонейронный аудиокодек с низким уровнем сжатия 48 кГц для обычного звука, оптимизирующий качество звука.
WavCraft — WavCraft — это AI-агент для создания и редактирования аудио.
FoleyCrafter — FoleyCrafter: оживите беззвучное видео с помощью реалистичных и синхронизированных звуков.

^ Вернуться к содержанию ^

Обработка аудиосигнала (ASP)

SouPyX — SouPyX — это очень красочное пространство для исследования звука, подходящее для исследований и исследований в различных областях аудио. В SouPyX вы можете проводить исследования и исследования в области обработки звука, синтеза звука, звуковых эффектов, пространственного звука, визуализации звука, звука AI и многого другого.
SoundFile — SoundFile — это аудиобиблиотека, основанная на libsndfile, CFFI и NumPy.
Audio DSPy — audio_dspy — это пакет Python для инструментов обработки аудиосигналов.
pyAudioDspTools — pyAudioDspTools — это пакет Python 3 для управления звуком с помощью простого использования numpy.
wave — модуль wave обеспечивает удобный интерфейс со звуковым форматом WAV. Он не поддерживает сжатие/декомпрессию, но поддерживает моно/стерео.
FFmpeg — FFmpeg — это набор библиотек и инструментов для обработки мультимедийного контента, такого как аудио, видео, субтитры и связанные метаданные.
Opus — современное сжатие звука для Интернета.
Pedalboard — Pedalboard — это библиотека Python для работы со звуком: чтения, записи, добавления эффектов и многого другого. Он поддерживает большинство популярных форматов аудиофайлов и ряд распространенных аудиоэффектов «из коробки», а также позволяет использовать форматы VST3 и Audio Unit для сторонних плагинов.
PyAudio — PyAudio предоставляет привязки Python для PortAudio v19, кроссплатформенной библиотеки ввода-вывода звука. С PyAudio вы можете легко использовать Python для воспроизведения и записи звука на различных платформах, таких как GNU/Linux, Microsoft Windows и Apple macOS.
PortAudio — PortAudio — это бесплатная кроссплатформенная библиотека аудио ввода-вывода с открытым исходным кодом. Он позволяет вам писать простые аудиопрограммы на C или C++, которые будут компилироваться и работать на многих платформах, включая Windows, Macintosh OS X и Unix (OSS/ALSA). Он предназначен для содействия обмену аудиопрограммами между разработчиками на разных платформах. Многие приложения используют PortAudio для ввода-вывода звука.
Pyo-pyo — это модуль Python, написанный на C, который помогает создавать сценарии цифровой обработки сигналов. Модуль Python DSP. С помощью pyo пользователь сможет включать цепочки обработки сигналов непосредственно в сценарии или проекты Python и манипулировать ими в реальном времени через интерпретатор.
tinytag — tinytag — это библиотека для чтения музыкальных метаданных наиболее распространенных аудиофайлов на чистом Python. Чтение метаданных аудио и музыки, а также продолжительность файлов MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave и AIFF с помощью Python 2 или 3.
Friture — Friture — это приложение для визуализации и анализа живых аудиоданных в режиме реального времени. Friture отображает аудиоданные в нескольких виджетах, таких как осциллограф, анализатор спектра или вращающаяся 2D-спектрограмма.
sounddevice — этот модуль Python предоставляет привязки для библиотеки PortAudio и несколько удобных функций для воспроизведения и записи массивов NumPy, содержащих аудиосигналы.
Pydub — управляйте звуком с помощью простого и удобного интерфейса высокого уровня.
NAudio — библиотека аудио и MIDI для .NET.
SoundCard — SoundCard — это библиотека для воспроизведения и записи звука без использования расширения CPython. Вместо этого он реализован с использованием замечательного CFFI и собственных аудиобиблиотек Linux, Windows и macOS.
TarsosDSP — TarsosDSP — это Java-библиотека для обработки звука. Его цель — предоставить простой в использовании интерфейс для практических алгоритмов обработки музыки, реализованный как можно проще, на чистой Java и без каких-либо других внешних зависимостей.
Maximilian — Maximilian — это кроссплатформенная и многоцелевая библиотека синтеза и обработки сигналов. Он был написан на C++ и обеспечивает привязку к Javascript.
Synthesis ToolKit на C++ (STK) — Synthesis ToolKit на C++ (STK) представляет собой набор классов обработки аудиосигналов и алгоритмического синтеза с открытым исходным кодом, написанных на языке программирования C++.
JUCE — JUCE — это кроссплатформенная среда приложений C++ с открытым исходным кодом для создания высококачественных настольных и мобильных приложений, включая аудиоподключаемые модули VST, VST3, AU, AUv3, AAX и LV2, а также хосты подключаемых модулей. JUCE можно легко интегрировать с существующими проектами через CMake или использовать в качестве инструмента создания проектов через Projucer, который поддерживает экспорт проектов для Xcode (macOS и iOS), Visual Studio, Android Studio, Code::Blocks и Linux Makefiles как а также содержит редактор исходного кода.
iPlug 2 — платформа подключаемых модулей аудио C++ для настольных компьютеров, мобильных устройств и Интернета.
CHOC — набор классов только заголовков, лицензируемых с разрешения, для выполнения основных полезных задач с минимальным количеством зависимостей.
Q-Q — это кроссплатформенная библиотека C++ для цифровой обработки аудиосигналов. Библиотека Q DSP, удачно названная в честь «добротности», безразмерного параметра, описывающего качество резонансного контура, спроектирована так, чтобы быть простой и элегантной, как следует из простоты ее названия, и достаточно эффективной для работы на небольших микроконтроллерах.
BasicDSP — BasicDSP — Инструмент для обработки звука/экспериментов с обработкой сигнала.
DaisySP — мощная библиотека DSP с открытым исходным кодом на C++.
Набор инструментов обработки речевых сигналов (SPTK). Набор инструментов обработки речевых сигналов (SPTK) представляет собой набор инструментов обработки речевых сигналов для сред UNIX, например, анализ LPC, анализ PARCOR, анализ LSP, фильтр синтеза PARCOR, фильтр синтеза LSP, методы векторного квантования. и другие их расширенные версии.
eDSP — eDSP (easy Digital Signal Processing) — это платформа цифровой обработки сигналов, написанная на современном C++, которая реализует некоторые общие функции и алгоритмы, часто используемые в цифровой обработке сигналов, аудиотехнике и телекоммуникационных системах.
KFR — KFR — это платформа C++ DSP с открытым исходным кодом, ориентированная на высокую производительность. Быстрая современная платформа C++ DSP, БПФ, преобразование частоты дискретизации, фильтры FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON).
MWEngine — аудиодвижок и DSP для Android, написанные на C++, обеспечивающие низкую задержку в музыкальном контексте и предоставляющие API Java/Kotlin. Поддерживает как OpenSL, так и AAudio.
LabSound — LabSound — это звуковой движок на основе графов C++. Движок упакован в виде статической библиотеки с батарейным питанием, предназначенной для интеграции во многие типы программного обеспечения: игры, визуализаторы, интерактивные установки, среды живого кодирования, плагины VST, приложения для редактирования/секвенирования звука и многое другое.
Gist — Gist — это библиотека анализа аудио на основе C++.
Realtime_PyAudio_FFT — анализ звука в реальном времени на Python с использованием PyAudio и Numpy для извлечения и визуализации функций БПФ из потокового аудио.
Спектр — спектральный анализ в Python. Spectrum — это библиотека Python, которая содержит инструменты для оценки спектральной плотности мощности на основе преобразования Фурье, параметрических методов или анализа собственных значений. Методы Фурье основаны на коррелограмме, периодограмме и оценках Уэлча. Доступны стандартные сужающиеся окна (Ханн, Хэмминг, Блэкман) и более экзотические (DPSS, Тейлор,…).
tidstream — Инструменты для создания и управления живыми потоками Vorbis и Opus.
AudioTraits — AudioTraits — это абстракция, призванная сделать тестирование обработки звука более удобным и читабельным. «Аудио признак» анализирует данный аудиосигнал (некоторые или все его каналы) и проверяет определенное свойство. Результатом этой проверки является логическое значение, что позволяет легко интегрировать ее в любую среду модульного тестирования.
genMDM Editor — веб-интерфейс для genMDM, MIDI-контроллера для Sega Mega Drive и Genesis. Также поддерживает MIDI-интерфейс Mega Drive.
3DAudioVisualizers — пакет визуализаторов звука OpenGL на C++ с использованием JUCE для аудио и графического интерфейса.
AudioStretchy — AudioStretchy — это библиотека Python, которая позволяет растягивать аудиосигналы по времени без изменения их высоты.
SwiftAudio — SwiftAudioEx — это аудиоплеер для iOS, написанный на Swift, упрощающий работу с воспроизведением звука из потоков и файлов.
WaveTools — WaveTools — это платформа для управления аудиофайлами; В частности, файлы WAVE (.wav).
ПростоCoreAudio - ? Платформа Swift, призванная сделать использование Core Audio менее утомительным в macOS.
DPF — платформа плагинов DISTRHO. DPF создан для того, чтобы сделать разработку новых плагинов легкой и приятной задачей.
Плагин Neural Amp Modeler — плагин VST3/AudioUnit для Neural Amp Modeler, созданный с помощью iPlug2.
lsp-dsp-lib — библиотека DSP для обработки сигналов.
Hip-Hop — библиотека для написания аудиоплагинов, которые запускают пользовательский интерфейс в веб-представлении. На основе ДПФ.
MGT-python — набор инструментов для музыкальных жестов для Python.
ASP — инструменты Python для обработки аудиосигналов.
TinyAudio — TinyAudio — это кроссплатформенная библиотека вывода звука.
pymixconsole — безголовая многодорожечная консоль микширования на Python.
effect-plugin — шаблон плагина аудиоэффектов с использованием Elementary и JUCE.
miniaudio — библиотека воспроизведения и захвата звука, написанная на C, в одном исходном файле.
AudioMass — бесплатный полнофункциональный веб-инструмент для редактирования аудио и сигналов.
Образец универсального музыкального проигрывателя Android — образец аудиоприложения для Android.
jsfx — бесплатная коллекция плагинов JS (JesuSonic) для Reaper.
Фурье — быстрые преобразования Фурье (БПФ) в Rust.
ProtoFaust — прототипирование DSP в Faust для модульного синтезатора VCV Rack.
Polar — аудиодвижок для обработки CUDA (Windows/Linux).
Конвертер аудио в MIDI — программа для определения высоты звука из WAV-файлов и записи квантованного во времени MIDI.
AudioTSM — AudioTSM — это библиотека Python для процедур изменения шкалы времени звука в реальном времени, то есть алгоритмов, которые изменяют скорость аудиосигнала без изменения его высоты.
Multi-Filter-Delay — оригинальный цифровой аудиоэффект, запрограммированный с помощью Juce/C++.
convoLV2 — convoLV2 — это плагин LV2 для свертки аудиосигналов с нулевой задержкой.
Cloud Seed — Cloud Seed — это плагин алгоритмической реверберации, созданный на C# и C++ для эмуляции огромных, бесконечных пространств и модулированного эха.
Фоновая музыка — Фоновая музыка, аудиоутилита для MacOS: автоматически приостанавливает музыку, устанавливает громкость отдельных приложений и записывает системный звук.
audiowaveform — программа на C++ для генерации данных сигналов и рендеринга изображений сигналов из аудиофайлов.
Mutagen — модуль Python для обработки аудиометаданных.
lewton — декодер Vorbis, написанный на чистом Rust.
Hound — библиотека кодирования и декодирования WAV в Rust.
Rodio — библиотека воспроизведения аудио Rust.
CPAL — кроссплатформенная библиотека аудио ввода-вывода на чистом Rust.
CSCore — CSCore — это бесплатная аудиобиблиотека .NET, полностью написанная на C#.
TinyOSC — минимальная библиотека Open Sound Control (OSC), написанная на ванильном C.
TinyWav — минимальная библиотека C для чтения и записи (16b-int и 32b-float) аудиофайлов WAV.
JAsioHost — хост ASIO на базе Java (ввод/вывод аудиопотока).
PyWavelets — PyWavelets — это бесплатная библиотека с открытым исходным кодом для вейвлет-преобразований в Python. Вейвлеты — это математические базисные функции, локализованные как по времени, так и по частоте.
ChowMultiTool — многофункциональный аудиоплагин.
RE201models — цифровые модели Roland RE201. Плагины VST3, AU и исходный код.
RtAudio — набор классов C++, которые предоставляют общий API для ввода/вывода звука в реальном времени в Linux (родные ALSA, JACK, PulseAudio и OSS), Macintosh OS X (CoreAudio и JACK) и Windows (DirectSound, ASIO и WASAPI). операционные системы.
RtAudio-rs — безопасная оболочка Rust и привязки к RtAudio.
PFFFT — довольно быстрое БПФ и быстрая свертка с PFFASTCONV.
SHAART — SHAART — это набор инструментов для анализа аудио на основе Python, предназначенный для образовательных целей.
TD-JUCE — аудио JUCE и VST в TouchDesigner.
JIVE — JIVE — это набор модулей JUCE, ориентированный на желание иметь более современный подход к разработке пользовательского интерфейса.
Amplituda — Amplituda — библиотека для Android на основе FFMPEG, которая обрабатывает аудиофайл и предоставляет массив сэмплов.
TagLib — библиотека метаданных аудио TagLib.
speexdsp — библиотека Python для подавления эха Speex.
PyPam — инструмент пассивного акустического анализа Python для пассивного акустического мониторинга (PAM).
AudioTools — объектно-ориентированная обработка аудиоданных с дополнениями на базе графического процессора и многим другим.
Equalize It - Проект VST-плагина для эквалайзера. Пользовательский интерфейс включает в себя анализатор спектра, панель управления фильтрами, кривые частотных характеристик и измерители уровня.
JDSP4Linux — процессор звуковых эффектов для клиентов PipeWire и PulseAudio.
FIRconv — реализации на Python фильтров с конечной импульсной характеристикой (FIR).
OpenDSP — встроенная ОС реального времени Headless Linux для DSP аудио и видео.
ultralight-juce — интеграция средства рендеринга Ultralight C++/HTML с JUCE для более красивых пользовательских интерфейсов.
Vult — Vult особенно полезен при программировании алгоритмов цифровой обработки сигналов (DSP), таких как звуковые эффекты или синтезаторы.
CloudSeed [JUCE] — пользовательский интерфейс на основе JUCE для плагина CloudSeed VST.
TFliteTemplatePlugin — плагины шаблонов JUCE для использования TensorFlow lite для вывода глубокого обучения.
DrumFixer — DrumFixer — это аудиоплагин, призванный помочь инженерам по микшированию добиться лучшего звучания барабанов.
BasicAudioPlayer — библиотека Swift, упрощающая создание аудиоплееров на базе AVAudioEngine.
PLAudioMixer — Простой аудиомикшер, основанный на режиме автономного рендеринга AVAudioEngine.
estratto — Estratto — это мощная и удобная библиотека Rust, предназначенная для извлечения богатых аудиофункций из цифровых аудиосигналов.
vampy — оболочка, позволяющая писать плагины аудиоанализа Vamp на Python.
SoundWave — SoundWave — это настраиваемое представление, представляющее звуки с течением времени.
PyAV — PyAV — это Pythonic-привязка для библиотек FFmpeg.
audio-dsp — экспериментируем с разработкой аудиоплагина + DSP.
openSMILE - openSMILE (интерпретация речи и музыки с открытым исходным кодом путем извлечения в большом пространстве) представляет собой полный набор инструментов с открытым исходным кодом для анализа, обработки и классификации звука, особенно предназначенный для приложений речи и музыки.
Carla — Carla — это полнофункциональный хост аудиоплагинов с поддержкой множества аудиодрайверов и форматов плагинов.
JUCE-HEAVY — шаблон проекта JUCE, показывающий, как соединить JUCE с исходными файлами, созданными Heavy C++ (HVCC).
Dplug — платформа аудиоплагинов. VST2/VST3/AU/AAX/LV2 для Linux/macOS/Windows.
DAWNet — DAWNet — это плагин DAW (цифровая аудиорабочая станция), который подключается к удаленному Google Colab или Script.
Fish Audio Preprocessor — предварительная обработка звука для обучения.
clap-validator — инструмент автоматической проверки и тестирования CLAP.
DSP Testbench — тестовый стенд DSP для пользователей платформы JUCE.
«Coupler» — «Coupler» — это фреймворк для написания аудио-плагинов на Rust. В настоящее время он поддерживает API-интерфейсы VST3 и CLAP, а в ближайшем будущем планируется поддержка AUv2 и AAX.
PyOgg — PyOgg предоставляет привязки Python для форматов аудиофайлов Opus, Vorbis и FLAC от Xiph.org, а также их формата контейнера Ogg.
streamlit-audiorecorder — аудиорекордер дляstreamlit.
DtBlkFx — DtBlkFx — это VST-плагин на основе быстрого преобразования Фурье (FFT).
SmartElectronix - версии с открытым исходным кодом всех плагинов Bram @ SmartElectronix.
CookieJuce - инструмент командной строки для создания современных проектов JUCE с Cmake.
Auglib - Auglib - это библиотека увеличения, которая предоставляет преобразования для изменения аудиосигналов и файлов.
Klang - Klang - это язык для дизайна и разработки аудио -процессов в реальном времени в C ++.

^ Назад к содержимому ^

Звуковой синтез (SS)

CSOUND - CSOUND - это звуковая и музыкальная компьютерная система, которая была первоначально разработана Барри Верко в 1985 году в MIT Media Lab. С 90 -х годов он был разработан группой основных разработчиков.
Pure Data - Pure Data ( PD ) - это визуальный язык программирования, разработанный Миллером Пакеттом в 1990 -х годах для создания интерактивной компьютерной музыки и мультимедийных работ. В то время как Puckette является основным автором программы, PD является проектом с открытым исходным кодом с большой базой разработчиков, работающей над новыми расширениями. Он выпущен в соответствии с BSD-3-Clause. Он работает на Linux, MacOS, iOS, Android «Android (операционная система)») и Windows. Порты существуют для FreeBSD и IRIX.
Plugdata - среда визуального программирования для аудио -экспериментов, прототипов и образования.
MAX/MSP/JUTTER - MAX , также известный как MAX/MSP/JUTTER, является визуальным языком программирования для музыки и мультимедиа, разработанного и поддерживаемого компанией -разработчиком программного обеспечения в Сан -Франциско '74. За более чем тридцатилетнюю историю он использовался композиторами, исполнителями, дизайнерами программного обеспечения, исследователями и художниками для создания записей, представлений и инсталляций.
Kyma (Language Sound Design) - Kyma - это язык визуального программирования для звукового дизайна, используемого музыкантами, исследователями и звуковыми дизайнерами. В Kyma пользователь программы Multiprocessor DSP путем графического подключения модулей на экране компьютера Macintosh или Windows.
SuperCollider - SuperCollider - это платформа для синтеза аудио и алгоритмической композиции, используемой музыкантами, артистами и исследователями, работающими со звуком. Аудио сервер, язык программирования и IDE для синтеза звука и алгоритмической композиции.
Sonic Pi - Sonic Pi - это живая среда кодирования, основанная на Ruby «Ruby (язык программирования)»), первоначально предназначенная для поддержки как компьютерных, так и музыки в школах, разработанных Сэмом Аароном в компьютерной лаборатории Кембриджа в Университете Кембриджа в сотрудничестве с Raspberry Pi Фундамент.
Reaktor - Reaktor - это графическая модульная музыкальная студия программного обеспечения, разработанная Native Instruments (NI). Это позволяет музыкантам и специалистам по звуку проектировать и создавать свои собственные инструменты, пробоотборники (Sampler (музыкальный инструмент) »), эффекты и инструменты дизайна звука. Он поставляется со многими готовыми к использованию инструментам и эффектам, от эмуляций классических синтезаторов до футуристических инструментов звука.
RTCMIX- RTCMIX -это язык программного обеспечения в реальном времени для выполнения цифрового синтеза звука и обработки сигналов. Он написан в C/C ++ и распределен с открытым исходным кодом бесплатно.
Чак - Чак - это язык программирования для синтеза звука в реальном времени и создания музыки. Чак предлагает уникальную, основанную на времени, одновременную модель программирования, которая является точной и выразительной (мы называем это сильно кратко), динамические скорости управления и возможность добавлять и изменять код на лету. Кроме того, Чак поддерживает MIDI, OpenSoundControl, HID-устройство и многоканальный звук. Он открыт и свободно доступен на MacOS X, Windows и Linux. Это весело и легко выучить, и предлагает композиторам, исследователям и исполнителям мощный инструмент программирования для построения и экспериментов со сложными программами синтеза/анализа звука, а также интерактивной музыки в реальном времени.
Faust-faust (функциональный аудио-поток)-это функциональный язык программирования для синтеза звука и обработки звука с сильным акцентом на дизайн синтезаторов, музыкальных инструментов, аудиоэффектов и т. Д. Для различных платформ и стандартов.
Душа - Язык программирования души и API. Soul (звуковой язык)-это попытка модернизировать и оптимизировать способ, которым высокопроизводительный аудиокод с низкой задержкой написан и выполнен.
CMAJOR - CMAJOR - это язык программирования для быстрого, портативного аудио -программного обеспечения. Вы слышали о C, C ++, C#, Objective-C ... ну, C Major -это язык C-семейства, разработанный специально для написания кода обработки сигналов DSP.
VCV Rack - Rack - это приложение для хоста для виртуальной платформы модульного синтезатора VCV Eurorack.
Gwion - Gwion - это язык программирования, нацеленный на создание музыки. сильно вдохновляется Чаком, но добавление куча высоких функций; Шаблон, первоклассные функции и многое другое. Он стремится быть простым, маленьким, быстрым, расширяемым и встроенным.
Elementary Audio - Elementary - это фреймворк JavaScript и высокопроизводительный аудио двигатель, который помогает вам быстро построить и вернуть уверенно. Декларативная функциональная структура для написания аудио -программного обеспечения в Интернете или для нативных приложений.
Elementary - Elementary - это библиотека JavaScript/C ++ для создания аудио приложений.
Sound2synth - Sound2synth: интерпретация звука с помощью оценки параметров синтезатора FM.
JSYN - JSYN - модульный аудио -синтезатор для Java Фила Берка. JSYN позволяет вам разрабатывать интерактивные компьютерные музыкальные программы в Java. Его можно использовать для генерации звуковых эффектов, аудио средств или музыки. JSYN основан на традиционной модели единичных генераторов, которые могут быть соединены вместе для формирования сложных звуков.
Synthax - быстрый модульный синтезатор в JAX ⚡celerating Audio Synthesis, далеко за пределы скорости в реальном времени, играет важную роль в продвижении интеллектуальных методов производства аудио. Synthax - быстрый виртуальный модульный синтезатор, написанный в JAX. На своем пике Synthax генерирует звук в 60 000 раз быстрее, чем в режиме реального времени, и значительно быстрее, чем современный в ускоренном синтезе звука.
MIDICA - MIDICA является переводчиком языка музыкального программирования. Это переводит исходный код в MIDI. Но его также можно использовать в качестве игрока MIDI, MIDI компилятора или декомпилятора, игрока караоке, игрока Alda, игрока ABC, игрока Lilypond или анализатора MIDI. Вы пишете музыку с одним из поддерживаемых языков (Midicapl, Alda или ABC).
Меркурий - Меркурий - минимальный и читаемый на человеке язык для живого кодирования алгоритмической электронной музыки. Все элементы языка разработаны вокруг того, чтобы сделать код более доступным и менее запутывающим для аудитории. Эта мотивация простирается до самого стиля кодирования, который использует четкие описательные имена для функций и прозрачный синтаксис.
Alda - Alda - это текстовый язык программирования для музыкальной композиции. Это позволяет вам писать и воспроизводить музыку, используя только текстовый редактор и командную строку. Дизайн языка в равной степени предпочитает эстетику, гибкость и простоту использования.
Платотонский музыкальный двигатель - Двигатель платонической музыки - это попытка создать компьютерные алгоритмы, которые поверхностно имитируют всю творческую человеческую культуру, прошлое, настоящее и будущее. Это происходит интерактивно, позволяя пользователю выбирать различные параметры и настройки, так что конечный результат будет уникальным для пользователя, в то же время сохраняя культурную идею, которая вдохновила работу.
Pyo-Tools-Репозиторий готовых к использованию классов Python для создания аудиоэффектов и синтезаторов с PYO.
PY -модулярный - модульная и экспериментальная структура аудио -программирования для Python. PY-модулярный-небольшая экспериментальная среда аудиопрограммирования для Python. Он предназначен для исследования новых аудио -технологий и рабочих процессов. Большинство всего в Py-модулярном построении построены вокруг рабочего процесса на основе узлов, что означает, что небольшие классы выполняют небольшие задачи и могут быть исправлены вместе для создания полных синтезаторов или более крупных идей.
BACH: Помощник автоматического композитора-кроссплатформенный набор патчей и внешних видов для MAX, направленного на то, чтобы ввести богатство компьютерной композиции в мир в реальном времени.
Audiokit - Audiokit - это аудио -синтез, обработка и анализ для iOS, macOS (включая катализатор) и TVOS.
TWANG - Библиотека для чистой ржавчины расширенного звукового синтеза.
Gensound - Pythonic Audio Обработка и структура генерации. Python Way к обработке и синтезу аудио.
OTTO - OTTO - это цифровой аппаратный канавку с синтезаторами, пробоотборниками, эффектами и секвенсором с аудио. Интерфейс плоский, модульный и прост в использовании, но, прежде всего, он направлен на поощрение экспериментов.
Лорис - Лорис - это библиотека для анализа звука, синтеза и морфинга, разработанной Келли Фитц и Липпольд Хаен в группе Cerl Sound. Лорис включает в себя библиотеку классов C ++, модуль Python, C-связанный интерфейс, утилиты командной строки и документацию.
Iannix - Iannix - это графический секвенсор с открытым исходным кодом, основанный на Яннис Ксенакис, для цифрового искусства. Iannix синхронизирует события и кривые открытого звука (OSC) и кривые в вашей среде в реальном времени.
Лейпциг - библиотека музыкальной композиции для Clojure и Clojurescript.
Nyquist - Nyquist - это звуковой синтез и язык композиции, предлагающий синтаксис LISP, а также синтаксис императивного языка и мощную интегрированную среду разработки. Nyquist - это элегантная и мощная система, основанная на функциональном программировании.
OpenMusic (OM) - OpenMusic (OM) - это язык визуального программирования, основанный на LISP. Визуальные программы создаются путем сборки и подключения значков, представляющих функции и структуры данных. Большинство программирования и операций выполняются путем перетаскивания значка из определенного места и отброса его в другое место. Представлены встроенные структуры визуального управления (например, петли), которые взаимодействуют с LISP. Существующий код Commonlisp/Clos можно легко использовать в OM, а новый код может быть разработан визуально.
ORCλ - ORCA - это эзотерический язык программирования, предназначенный для быстрого создания процедурных секвенсоров, в которых каждая буква алфавита является операцией, где строчные буквы работают на взрыве, буквы с заглавными буквами управляют каждым кадром.
Overtone - Overtone - это аудио -среда с открытым исходным кодом, предназначенную для изучения новых музыкальных идей от синтеза и отбора проб до построения инструментов, живого кодирования и совместного запуска. Мы объединяем мощный звуковой двигатель Supercollider с Clojure, состоянием LISP, чтобы создать опьяняющий интерактивный звуковой опыт.
Шв - устойчивая электроакустическая музыка - база. Устойчивая электроакустическая музыка -это проект, вдохновленный Alvise Vidolin и Никола Бернардини.
Glicol - Glicol (аббревиатура «Язык с графическим языком, ориентированным на график») - это язык компьютерной музыки, как с языком, так и с аудиопроизводством, написанным на языке программирования Rust, современной альтернативой C/C ++. Учитывая эту природу низкого уровня, Glicol может работать на многих различных платформах, таких как браузеры, плагины VST и Bela Poard. Синтезационный синтекс Glicol и мощный аудио-двигатель также позволяют комбинировать синтезатор синтезатора или секвенсора высокого уровня с низкоуровневым синтезом звука, все в режиме реального времени.
PapersyNth - Рукописный текст синтезаторам! PaperSynth - это проект, который направлен на чтение ключевых слов, которые вы написали на листе бумаги, и преобразовать его в синтезаторы, которые вы можете играть по телефону.
Нейронный резонатор VST - это плагин VST, который использует нейронную сеть для генерации фильтров на основе произвольных 2D -форм и материалов. Можно использовать MIDI для запуска простых импульсов, чтобы возбудить эти фильтры. Кроме того, любой аудиосигнал может быть использован в качестве входных данных для фильтров.
Scyclone - Scyclone - это аудио плагин, который использует технологию нейронного перевода Timbre, чтобы предложить новый подход к производству аудио. Плагин опирается на Rave Methogology, вариационного автокодера в реальном времени, облегчая передачу нервного тембра как в режиме единого, так и в режиме вывода.
Mlinmax - Ml для генерации и обработки звука в велосипедном языке 74 Max программирования.
ADLPLUG - FM -синтезатор чипа - OPL & OPN - VST/LV2/STANTALONE.
Surge - Synthesizer Plugin (ранее выпущенный в качестве Vember Audio Surge).
CSTOP - CSTOP - это плагин Audio Effect, доступный в AU & VST3 для Mac (скоро появятся Windows).
Compufart - Fart Sound Synthesizer и алгоритм в Cmajor.
PY -JS - EVERSALS PYTHON3 для MAX / MSP.
PD -Lua - Lua Bindings для PD, обновлено для Lua 5.3+.
Live 4 Life - инструмент SuperCollider для SuperCollider.
CAESARLOPER - CAESARLOOPER - это клон SuperCollider плагина VST VST Augustus Loop.
Dexed - DX7 FM Multi Plaform/Multi Format Plugin.
LeapMotion для макс - LeapMotion Внешнее для велосипедного времени 74 макс.
Kontakt -Public - Ресурсы для местных инструментов Kontakt Builders.
Pylive - запрос и контроль Ableton Live от Python.
ML -LIB - Библиотека машинного обучения для максимальных и чистых данных.
Zengarden - Zengarden - это отдельная библиотека для запуска чистых патчей данных.
MAX -SDK - Комплект для разработки программного обеспечения для Max By Cycling '74.
PD-HVCC-Создание среды, подобной PD, на основе тяжелого компилятора.
Kuroscillators - объекты MAX/MSP для аудио и ритмического синтеза с использованием сетей связанных генераторов.
ASCII -AUDIO - генерирует аудио PCM из строки ASCII. Текст виден на изображении спектрограммы.
Белуминимугемуляция - цифровая реализация аналогового синтезатора минимального аналога с анти -ализированными формами волны и воссозданием фильтра лестницы Moog.
Edisyn - Редактор Synthesizer Patch.
Soundgen - R Пакет для синтеза звука и акустического анализа.
Cardinal - виртуальный модульный синтезатор плагин.
Моделирование Echo Flutter - этот репозиторий представляет демо Matlab для синтеза Echo Flutter.
Ой - упс теперь лист! Библиотека AC для синтеза и обработки звука, предназначенная для встроенных приложений, написанная с использованием полуот.
Sonic Pi Tool -? Управление Sonic Pi из командной строки, в Python.
Sonicpi.vim - Sonic Pi плагин для Vim.
Контролируемый Chaos - Max4live Euclidian Rhythm Generator.
KPStrong-Это реализация синтезатора карпло-стринга, которое работает как C ++ в режиме реального времени на оборудовании Bela.
NN_TILDE - MAX / PD Внешний для обработки звука AI в реальном времени.
Grainbow - синтезатор, который использует обнаружение высоты тона, чтобы выбрать кандидатов для гранулированного синтеза или отбора проб.
Signalflow - структура синтеза звука для Python, предназначенная для четкого и краткого выражения сложных музыкальных идей.
Syntheon - Параметр вывод музыкальных синтезаторов для упрощения процесса звука. Поддерживает жизненно важные и декедные.
Rnbojucetemplate - шаблон Juce, включающий минимальный синтезатор, созданный с Rnbo ~ MaxMSP, который инкапсулирует состояние rnboobject в аудиопроцессор Juce с использованием современной аудиопроцессорной моды.
Fluidsynth.clap - мост хлопья -плугин в Fluidsynth.
LaunchPadx - простой интерфейс SuperCollider для контроллера Novation LaunchPadx.
FAUG - эмуляция MIMINOOG MODEL D с частью DSP, написанной в Фаусте. Moog + faust = faug.
Блоки - Blocks - это модульный синтезатор, доступный в качестве автономного, VST3 и AU для Windows и MacOS.
Трюк Бесселя - трюк Бесселя - это нейронный аудио плагин для быстрого, живого преобразования тона звуков музыкальных инструментов с использованием синтеза частотной модуляции (FM).

^ Назад к содержимому ^

Игровое аудио (GA)

Чунтити - Чак в единстве. Плагин для использования Чака в единстве. Доступно в магазине Unity Asset.
Raveler - плагин Wwise, который запускает восторженные модели, позволяя переносить тембр в реальном времени с помощью нейронного синтеза звука в настройке звука игры.
LASP - плагин по обработке аудиосигналов с низкой задержкой для Unity.
Pyreaper - обертка на питоне для Жнеца.
Жнец-кки-вим-связки для Жнеца.
Инструменты жнеца - Аудициокинетические инструменты Репера. Сбор расширений, сценариев и инструментов для Жнеца.
ReAwwise - ReAwwise - это расширение Reaper, которое звуковые дизайнеры могут использовать для передачи аудиофайлов из жнеца в проекты WWISE.
WWISER - WWERS. BNK PARSER, чтобы помочь в обработке звука из игр с использованием двигателя WWISE.
WAAPI-TEXT-TO SPEEAK-WWISE TEXT-TOPLEGE интеграция с использованием внешних редакторов.
JSFXR для WWISE - JSFXR (портированный из SFXR) с добавленной Wise Wise Sniefity, встроенным в электрон.
SOLOUD - SOLOUD - это прост в использовании, бесплатный, портативный аудио двигатель C/C ++ для игр.
Audiotoys - DSP Doodles для Unity.
Долби.
Долби.
Симулятор двигателя - симулятор двигателя сгорания, который генерирует реалистичный аудио.
Jack Audio для Unity - эта библиотека/плагин обеспечивает многоканальную аудио маршрутизацию между Unity3d и Jackaudio.
Плагин Voxel - плагин Voxel позволяет создавать полностью объемные, полностью разрушимые, бесконечные миры в нереальном двигателе. Он совместим с 4,24, 4,25, 4,26, 4,27 и Unreal 5.
Rev Unity - Rev Unity Tachometer Demo.
Unity Audio Manager (UAM) -? Используется для воспроизведения/изменения/остановки/смены/... один или несколько звуков при определенных обстоятельствах или событии в 2D и 3D просто через. код.
Audio-Manager-For-Unity-инструмент для определения и выполнения поведения аудио в Unity в редакторе на основе узлов.
Antricables Unity Wwise - этот пакет добавляет поддержку для распределения и загрузки Wise Acsets с использованием системы Addersables Unity.
RFXGEN-простой и простой в использовании генератор звуков FX.
ulipsync-плагин на основе MFCC Lipsync для Unity с использованием системы заданий и компилятора Burst.
Godot-Fmod-Integration-FMOD Studio Middleware Integration и Scripting API-привязки для игрового двигателя Годо.
FMOD Audio System - Audio System Unity с использованием FMOD.
WW2OGG - Преобразование аудиокинетического Wise Riff/RIFX Vorbis в Standard OGG Vorbis.
Cavern-Audio Engine на основе объектов и пакет кодеков с рендерингом Dolby Atmos, коррекцией комнаты, HRTF, однокромным явлением Unity Audio и многом другом.
Audio Plugin Rnbo Unity - адаптер RNBO для нативного аудио плагина Unity.
RNBO METASOUNDS - RNBO Adapter, который реализует Metasound узлы.

^ Назад к содержимому ^

Цифровое аудио рабочая станция (DAW)

Audacity-Audacity-это простой в использовании многоцепочечный аудио редактор и регистратор для Windows, MacOS, GNU/Linux и других операционных систем.
Tracktion - Tracktion - это кроссплатформенная аудиопроводная станция с интуитивно понятным пользовательским интерфейсом, а также мощные функции редактирования и микширования звука.
Pro Tools Scripting SDK - Pro Tools Scripting SDK позволяет сценариям Pro Tools, используя независимый от языка API для создания новых автоматизированных рабочих процессов в Pro Tools.
REAPY - Pythonic Orbper для Reseper's Recipt Python API.
Reaper -SDK - Reaper C/C ++ Extension SDK.
RESCRIPTS - Скрипты рентгеновских и с открытым исходным кодом для Cockos Reaper.
RESCRIPTS - Сценарии Cockos Reaper.
Reblink - Расширение плагина Reaper, обеспечивающее привязки Recription для сеанса ссылки Ableton, и соответствующие реализации плана тестирования ссылок Ableton для Reaper.
Voodoohop-Ableton-Tools-Ableton Live Harmony и Tempo Tools. Увеличивает Ableton Live с интуитивной визуализацией музыкальной гармонии, а также позволяет динамике темпа трека контролировать мастер-темп в режиме реального времени.
AbletonParsing - разобрать файл клипа ASD Ableton ASD (маркеры варп и многое другое) в Python.
Ableton push - библиотека для работы с Ableton push в браузере.
PYFLP - FL Studio Project File Parser.
VST3SDK - VST 3 Плагин SDK.
Tuneflow -?+ Создайте ваши музыкальные алгоритмы и модели искусственного искусства с помощью DAW следующего поколения
Tuneflow-Py-Tuneflow-Py-это Python SDK плагинов Tuneflow.
SO-VITS-SVC Плагин для TuneFlow-SO-VITS-SVC как плагин TuneFlow.
Радий - редактор графической музыки. Трекер следующего поколения.
Bass Studio - Bass Studio - это цифровая аудио рабочая станция (DAW), написанная в C ++. Представлены Windows, MacOS и Linux. Поддерживается как формат плагина VST2, так и CLAP.
GRIDSound-Gridsound-это работа с открытым исходным кодом, разработанная с помощью HTML5, и, точнее, с новым веб-аудио API.
Meadowlark - Meadowlark - это (работа) бесплатная DAW и с открытым исходным кодом (цифровое аудио рабочие станции) для Linux, Mac и Windows. Он направлен на то, чтобы стать мощным инструментом записи, сочинения, редактирования, звука, микширования и освоения для художников по всему миру, а также интуитивно понятно и настраиваемо.
Mixxx - Mixxx - это бесплатное программное обеспечение DJ, которое дает вам все необходимое для выполнения живых миксов.
Hybrid-DJ-SET-Synchronize DJ Software (MIXXX) с чистыми данными для улова виртуальных инструментов в живой производительности.
LV2 - LV2 - это стандарт плагина для аудиосистем. Он определяет расширяемый C API C для плагинов и формат для автономных каталогов «пучка», которые содержат плагины, метаданные и другие ресурсы.
Ardor - запишите, редактируйте и перемешайте на Linux, MacOS и Windows.
LMMS - LMMS - это бесплатная кроссплатформенная альтернатива коммерческим программам, таким как FL Studio®, которые позволяют создавать музыку с помощью вашего компьютера. Это включает в себя создание мелодий и ритмов, синтез и смешивание звуков и расположение образцов.
Qtractor - Qtractor - это приложение для последовательности Audio/MIDI, записанное в C ++ с помощью структуры QT. Target Platform-Linux, где набор для подключения к аудио JACK (JACK) для аудио, и Advanced Linux Sound Architecture (ALSA) для MIDI-основные инфраструктуры, которые развиваются как довольно сложный графический интерфейс Linux настольных рабочих станций, специально посвященный Личный домашний-удионер.
Smart-Audio-Mixer-современная цифровая аудио рабочая станция (DAW) с использованием C ++/JUCE.
Плагины OpenVino ™ AI для Audacity - набор эффектов с поддержкой AI, генераторов и анализаторов для Audacity.
Jackdaw-разряженная, ориентированная на клавишную цифровую аудиопроводную станцию (DAW), получая несколько дизайнерских сигналов от нелинейных видео редакторов, таких как Avid.
Оценка Ossia - последователь Intermedia, поддерживающий аудио (VST, VST3, LV2, JSFX и т. Д.), А также управление видео и оборудованием (OSC, MIDI, DMX, NDI, MQTT, COAP и т. Д.)

^ Назад к содержимому ^

Пространственный аудио (SA)

Spaudiopy - Пространственный аудио -пакет Python. Фокус (до сих пор) уделяется пространственным аудио -кодерам и декодерам. Пакет включает в себя обработку сферических гармоник и (бинауральные визуализации) декодеров громкоговорителей, таких как VBAP и Allrad.
Spatial_audio_framework (saf)-spatial_audio_framework (saf)-это рамка с открытым исходным кодом и кроссплатформенным платформенем для разработки алгоритмов пространственного аудио и программного обеспечения в C/C ++. Первоначально предназначенный как ресурс для исследователей в этой области, структура постепенно превратилась в довольно большую и хорошо документированную кодовую базу, включающую ряд различных модулей ; С каждым модулем, нацеленным на определенный подполе пространственного аудио (например, амбисонные кодирование/декодирование, обработка сферической массивы, амплитудный пантинг, обработка HRIR, моделирование помещений и т. Д.).
HO-SIRR-рендеринг пространственного импульсного отклика более высокого порядка (HO-SIRR)-это метод рендеринга, который может синтезировать выходные громкоговоритель-массивные ответы (RIR) с использованием входных сферических гармонических (Ambisonic/B-формат) RIRS произвольного порядка. Реализация MATLAB Алгоритма Rendering Spatial Impulse Response (HO-SIRR); Альтернативный подход для воспроизведения Ambisonic RIRS над громкоговорителями.
Spatgris - Spatgris - это программное обеспечение для пространственно -пространственной звуки, которое освобождает композиторов и звуковых дизайнеров из ограничений настройки динамиков реального мира. С плагином Controlgris, распределенным с SpatGris, богатые пространственные траектории могут быть составлены непосредственно в вашей DAW и воспроизведены в режиме реального времени на любой компоновке динамиков. Это быстрый, стабильный, кроссплатформенный, прост в изучении и работает с инструментами, которые вы уже знаете. Spatgris поддерживает любую настройку динамиков, в том числе 2D-макеты, такие как Quad, 5.1 или Octophonic Rings, и 3D-макеты, такие как куполы динамиков, концертные залы, театры и т. Д. панорамирование.
Audio Steam - Audio Steam обеспечивает полнофункциональное звуковое решение, которое объединяет моделирование среды и слушателя. HRTF значительно улучшает погружение в VR; Распространение звука на основе физики завершает погружение в слуховое погружение, постоянно воссоздавая, как звук взаимодействует с виртуальной средой.
Spatialaudiokit - Spatialaudiokit - это быстрый пакет, способствующий авторизации пространственных аудио приложений на платформах Apple.
Libmysofa - читатель для файлов AES SOFA, чтобы получить лучшие HRTF.
OMNITONE - OMNITONE: Пространственное аудио -рендеринг в Интернете. Omnitone - это надежная реализация Ambisonic Decoding и бинаурального рендеринга, написанного в веб -аудио API. Его процесс рендеринга питается быстрыми собственными функциями от веб -аудио API (Gainnode и Convolver), обеспечивая оптимальную производительность. Реализация омнитона основана на спецификации пространственных средств массовой информации Google и бинауральных фильтрах Сэди. Это также поддерживает резонансную аудио SDK для Интернета.
MACH1 Spatial - MACH1 Spatial SDK включает API, позволяющие разработчикам разрабатывать приложения, которые могут кодировать или паном в пространственное звуковое рендерин текущая ориентация. Кроме того, SDK MACH1 позволяет пользователям безопасно преобразовать объемные/пространственные аудио миксы в форматы VVBP Mach1 -Spatial или Mach1horizon.
Soundspaces - Soundspaces - это реалистичная акустическая симуляционная платформа для аудиовизуальных воплощенных исследований ИИ. От аудиовизуальной навигации, аудиовизуальной исследования до эхолокации и аудиовизуальной реконструкции плана этажа, эта платформа расширяет воплощенное исследование зрения до более широкого объема тем.
Визуальное акустическое сопоставление - мы вводим задачу визуального акустического сопоставления, в которой аудиоклип преобразован, чтобы звучать так, как будто она была записана в целевой среде. Учитывая изображение целевой среды и форму волны для исходного аудио, цель состоит в том, чтобы переосмыслить звук в соответствии с акустикой целевой комнаты, как это было предложено ее видимой геометрией и материалами.
Fast-RIR-это официальная реализация нашего генератора импульсного отклика на основе нейронных сетевых сетей (Fast-RIR) для создания импульсных ответов в помещении (RIR) для данной акустической среды.
PYGSOUND-Импульсная генерация реакции на основе современного двигателя размножения геометрического звука.
Riris - Riris - это Matlab реализация интерполяции импульсного отклика в помещении с использованием быстрых преобразований Shearlet.
Параллельно-реверб-райтрансер-raytracer для импульсных ответов (для реверберации), под влиянием растровых методов освещения графики.
Synth 3D - VST Synthesizer с объектами виртуальных осцилляторов, размещенных в трехмерном пространстве.
Libbasicsofa - очень базовая библиотека для чтения пространственно ориентированного формата для файлов акустики (SOFA), формат для хранения HRTF и/или BRIRS для размножения аудиозаписи бинуарального звука.
MESH2HRTF - открытое программное обеспечение для численного расчета функций переноса, связанных с головой.
Openal Soft - Openal Soft - это программная реализация API Openal 3D AUDIO.
Soundscape_ir - Soundscape_IR - это набор инструментов из поиска информации о звуковой лайне, направленный на то, чтобы помочь в анализе записей Soundscape.
Звуковые тела - мы представляем модель, которая может генерировать точные трехмерные звуковые поля человеческих тел из микрофонов гарнитуры и позы тела в качестве входов.
Soundscapy - библиотека Python для анализа и визуализации оценок Soundscape.
Ambix-кроссплатформенные Ambisonic VST, плагины LV2 с переменным заказом для использования на рабочих станциях цифровых аудио, таких как Reaper или Ardor или в качестве отдельных приложений Jack.
HOAC - Кодек Ambisonics высшего порядка для пространственного аудио.
OpenSoundLab - OpenSoundLab (OSL) делает модульный звук, устанавливающий трехмерный опыт в смешанной реальности, используя режим прохождения Meta Quest.
See-2-Sound? -Ноль-выстрел пространственной среды к пространственному звуку.

^ Назад к содержимому ^

Обработка веб -аудио (WAP)

Audio обработка WEBRTC - привязка Python с обработкой аудио WEBRTC.
WebChuck - WebChuck приносит Чака, сильно краткому языку аудио программирования, в Интернет! Исходный код Чака C ++ был составлен до Webassembly (WASM) и работает через интерфейс AudioWorkletNode в веб -API аудио.
Midi.js -? Облегчение жизни в Интернете облегчает жизнь. Включает библиотеку для программы синестезии в ваше приложение для распознавания памяти или для создания триппи -эффектов. Преобразовать Soundfonts для гитары, баса, барабанов, т. Д. в код, который может быть прочитал браузером. Midi.js связывается вместе и опирается на рамки, которые приводят Миди в браузер. Объедините его с Jasmid, чтобы создать Web-Radio MIDI-поток, похожий на эту демонстрацию, или с Three.js, sparks.js или GLSL, чтобы создать аудио/визуальные эксперименты.
Веб -голосовой процессор - библиотека для обработки голоса в реальном времени в веб -браузерах.
Tone.js - tone.js - это веб -аудио -фреймворк для создания интерактивной музыки в браузере. Архитектура Tone.js стремится быть знакомым как музыкантам, так и аудио-программистам, создающим веб-приложения. На высоком уровне Tone предлагает общие функции DAW (цифровой аудио рабочей станции), такие как глобальный транспорт для синхронизации и планирования событий, а также предварительно построенные синтезаторы и эффекты. Кроме того, Tone обеспечивает высокопроизводительные строительные блоки для создания собственных синтезаторов, эффектов и сложных контрольных сигналов.
Audio.js - AudioJS - это библиотека JavaScript, которая позволяет использовать тег HTML5 <audio> в любом месте. Он использует Native <audio> , где доступно, и возвращается к невидимому флеш -игроку, чтобы эмулировать его для других браузеров. Он также обслуживает постоянный пользовательский интерфейс HTML -плеер для всех браузеров, которые можно стилизовать используемые стандартные CSS.
Peaks.js - JavaScript UI -компонент для взаимодействия с аудио -сигналами.
Howler.js - Audio Library JavaScript для современной сети. Howler.js делает работу с аудио в JavaScript простым и надежным на всех платформах. Howler.js - это аудио библиотека для современной сети. По умолчанию по умолчанию веб -API и возвращается в HTML5 Audio. Это делает работу с аудио в JavaScript легкой и надежной на всех платформах.
COFFEECOLLIDER - COFFEECOLLIDER - это язык для синтеза аудио -аудио в реальном времени и алгоритмической композиции в HTML5. Концепция этого проекта спроектирована как «написать кофериппиз и обрабатываться как суперколлидер».
pico.js - аудиопроцессор для кроссплатформы.
Timbre.js - Timbre.js обеспечивает функциональную обработку и синтезирование звука в ваших веб -приложениях с современным путем JavaScript, например jQuery или Node.js. Он имеет много t-объекта (формально: Timbre Object), которые соединены вместе для определения маршрутизации на основе графиков для общего аудио-рендеринга. Цель этого проекта - подход к обработке звука следующего поколения для Интернета.
Rythm.js - библиотека JavaScript, которая делает вашу страницу танцевать.
P5.Sound - P5.Sound расширяет P5 с функциональностью веб -аудио, включая аудио ввод, воспроизведение, анализ и синтез.
Wadjs - библиотека JavaScript для манипулирования аудио. Веб -аудио -доу. Используйте API веб -аудио для динамического синтеза звука. Это как jQuery для ваших ушей.
Ableton.js - ableton.js позволяет управлять вашим экземпляром или экземплярами Ableton с помощью node.js. Он пытается покрыть как можно больше функций.
Sound.js - "sound.js" - это микро -библиотека, которая позволяет загружать, играть и генерировать звуковые эффекты и музыку для игр и интерактивных приложений. Это очень мало: менее 800 строк кода и без зависимостей. Нажмите здесь, чтобы попробовать интерактивную демонстрацию. You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (несколько кадров клонирования голоса).
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

Расширять