audio development tools Télécharger - audio development tools Téléchargement du code source

Outils de développement audio (ADT)

Il s'agit d'une liste d'outils de développement sonore, audio et musical qui contiennent l'apprentissage automatique, la génération audio, le traitement du signal audio, la synthèse sonore, l'audio de jeu, la station de travail audio numérique, l'audio spatial, la récupération d'informations musicales, la génération de musique, la reconnaissance vocale, la synthèse vocale, synthèse vocale chantée et plus encore.

Table des matières

Apprentissage automatique (ML)
Génération audio (AG)
Traitement du signal audio (ASP)
Synthèse sonore (SS)
Audio du jeu (GA)
Station de travail audio numérique (DAW)
Audio spatial (SA)
Traitement audio Web (WAP)
Récupération d'informations musicales (MIR)
Génération musicale (MG)
Reconnaissance vocale (ASR)
Synthèse vocale (TTS)
Synthèse de la voix chantée (SVS)

Liste des projets

Apprentissage automatique (ML)

librosa - Librosa est un package python pour l'analyse musicale et audio. Il fournit les éléments de base nécessaires à la création de systèmes de recherche d'informations musicales.
Essentia - Essentia est une bibliothèque C++ open source pour l'analyse audio et la récupération d'informations musicales basées sur l'audio, publiée sous la licence Affero GPLv3. Il contient une vaste collection d'algorithmes réutilisables qui implémentent des fonctionnalités d'entrée/sortie audio, des blocs de traitement du signal numérique standard, une caractérisation statistique des données et un large ensemble de descripteurs musicaux spectraux, temporels, tonals et de haut niveau. Bibliothèque C++ pour l'analyse, la description et la synthèse audio et musicale, y compris les liaisons Python.
DDSP - DDSP : Traitement Numérique du Signal Différenciable. DDSP est une bibliothèque de versions différenciables de fonctions DSP courantes (telles que les synthétiseurs, les waveshapers et les filtres). Cela permet d'utiliser ces éléments interprétables dans le cadre d'un modèle d'apprentissage en profondeur, notamment en tant que couches de sortie pour la génération audio.
MIDI-DDSP - MIDI-DDSP : Contrôle détaillé des performances musicales via la modélisation hiérarchique. MIDI-DDSP est un modèle de génération audio hiérarchique pour synthétiser le MIDI étendu à partir de DDSP.
DDSP-VST - Synthétiseur et effet neuronal DDSP en temps réel. Plugins VST3/AU et applications de bureau construits à l'aide du framework JUCE et DDSP.
torchsynth - Un synthétiseur modulaire en option GPU dans pytorch, 16 200 fois plus rapide que le temps réel, pour les chercheurs en ML audio.
aubio - aubio est un outil conçu pour l'extraction d'annotations à partir de signaux audio. Ses fonctionnalités incluent la segmentation d'un fichier audio avant chacune de ses attaques, la détection de la hauteur, la frappe du rythme et la production de flux midi à partir de l'audio en direct.
audioFlux - audioFlux est une bibliothèque d'outils d'apprentissage en profondeur pour l'analyse audio et musicale et l'extraction de fonctionnalités. Il prend en charge des dizaines de méthodes de transformation d'analyse temps-fréquence et des centaines de combinaisons de fonctionnalités correspondantes dans les domaines temporel et fréquentiel. Il peut être fourni aux réseaux d'apprentissage profond à des fins de formation et est utilisé pour étudier diverses tâches dans le domaine audio telles que la classification, la séparation, la recherche d'informations musicales (MIR) et l'ASR, etc.
Polymath - Polymath utilise l'apprentissage automatique pour convertir n'importe quelle bibliothèque musicale (par exemple à partir d'un disque dur ou de YouTube) en une bibliothèque d'échantillons de production musicale. L'outil sépare automatiquement les chansons en stems (beats, basse, etc.), les quantifie au même tempo et à la même grille rythmique (par exemple 120 bpm), analyse la structure musicale (par exemple couplet, refrain, etc.), la tonalité (par exemple C4, E3). , etc.) et d'autres informations (timbre, volume, etc.), et convertit l'audio en midi. Le résultat est une bibliothèque d'échantillons consultable qui rationalise le flux de travail pour les producteurs de musique, les DJ et les développeurs audio ML.
IPython - IPython fournit une riche boîte à outils pour vous aider à tirer le meilleur parti de l'utilisation interactive de Python.
torchaudio - une bibliothèque audio pour PyTorch. Manipulation et transformation de données pour le traitement du signal audio, optimisé par PyTorch.
TorchLibrosa - Implémentation PyTorch de Librosa.
torch-audiomentations - Augmentation rapide des données audio dans PyTorch. Inspiré des audiomentations. Utile pour l'apprentissage en profondeur.
PyTorch Audio Augmentations - Bibliothèque d'augmentations de données audio pour PyTorch pour l'audio dans le domaine temporel.
Asteroid - Asteroid est une boîte à outils de séparation de sources audio basée sur Pytorch qui permet une expérimentation rapide sur des ensembles de données courants. Il est livré avec un code source qui prend en charge un large éventail d'ensembles de données et d'architectures, ainsi qu'un ensemble de recettes pour reproduire certains articles importants.
Kapre - Kapre : préprocesseurs audio Keras. Préprocesseurs audio Keras - calculez STFT, InverseSTFT, Melspectrogram et autres sur GPU en temps réel.
praudio - Cadre de prétraitement audio pour les applications audio Deep Learning.
automix-toolkit - Modèles et ensembles de données pour la formation de modèles de mixage automatique d'apprentissage en profondeur.
DeepAFx - DeepAFx : effets audio profonds. Les effets de traitement du signal audio (FX) sont utilisés pour manipuler les caractéristiques sonores sur une variété de supports. De nombreux effets, cependant, peuvent être difficiles ou fastidieux à utiliser, en particulier pour les utilisateurs novices. Dans notre travail, nous visons à simplifier la façon dont les effets audio sont utilisés en entraînant une machine à utiliser directement les effets et à effectuer des tâches de production audio automatiques. En utilisant des outils familiers et existants pour traiter et suggérer des paramètres de contrôle, nous pouvons créer un paradigme unique qui allie la puissance de l’IA au contrôle créatif humain pour responsabiliser les créateurs.
nnAudio - nnAudio est une boîte à outils de traitement audio utilisant le réseau neuronal convolutionnel PyTorch comme backend. Ce faisant, des spectrogrammes peuvent être générés à partir de l'audio à la volée pendant l'entraînement du réseau neuronal et les noyaux de Fourier (par exemple les noyaux CQT) peuvent être entraînés.
WavEncoder - WavEncoder est une bibliothèque Python pour encoder des signaux audio, transformer pour l'augmentation audio et former des modèles de classification audio avec le backend PyTorch.
SciPy - SciPy (prononcé « Sigh Pie ») est un logiciel open source pour les mathématiques, les sciences et l'ingénierie. Il comprend des modules de statistiques, d'optimisation, d'intégration, d'algèbre linéaire, de transformations de Fourier, de traitement du signal et d'image, de solveurs ODE, etc.
pyAudioAnalysis - Bibliothèque d'analyse audio Python : extraction de fonctionnalités, classification, segmentation et applications.
Mutagen - Mutagen est un module Python pour gérer les métadonnées audio. Il prend en charge les fichiers audio ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG et AIFF. Toutes les versions d'ID3v2 sont prises en charge et toutes les trames ID3v2.4 standard sont analysées. Il peut lire les en-têtes Xing pour calculer avec précision le débit et la longueur des MP3. Les balises ID3 et APEv2 peuvent être modifiées quel que soit le format audio. Il peut également manipuler les flux Ogg au niveau d'un paquet/page individuel.
LibXtract - LibXtract est une bibliothèque simple, portable et légère de fonctions d'extraction de fonctionnalités audio. Le but de la bibliothèque est de fournir un ensemble relativement exhaustif de primitives d'extraction de fonctionnalités conçues pour être « en cascade » afin de créer des hiérarchies d'extraction.
dejavu - Empreinte digitale et reconnaissance audio en Python. Dejavu peut mémoriser l'audio en l'écoutant une fois et en prenant ses empreintes digitales. Ensuite, en lisant une chanson et en enregistrant l'entrée du microphone ou en lisant à partir du disque, Dejavu tente de faire correspondre l'audio aux empreintes digitales conservées dans la base de données, renvoyant ainsi la chanson en cours de lecture.
Matchering - ?️ Correspondance et mastering audio Open Source. Matchering 2.0 est une nouvelle application Web conteneurisée et une bibliothèque Python pour la correspondance et le mastering audio.
TimeSide - TimeSide est un framework Python permettant l'analyse audio, l'imagerie, le transcodage, le streaming et l'étiquetage de bas et haut niveaux. Son API de haut niveau est conçue pour permettre un traitement complexe sur de très grands ensembles de données de tout actif audio ou vidéo avec une architecture de plug-in, un backend évolutif sécurisé et une interface Web dynamique extensible.
Meyda - Meyda est une bibliothèque d'extraction de fonctionnalités audio Javascript. Meyda prend en charge à la fois l'extraction de fonctionnalités hors ligne et l'extraction de fonctionnalités en temps réel à l'aide de l'API Web Audio. Nous avons rédigé un article à ce sujet, disponible ici.
Audiomentations - Une bibliothèque Python pour l'augmentation des données audio. Inspiré des albumentations. Utile pour l'apprentissage en profondeur. Fonctionne sur CPU. Prend en charge l'audio mono et l'audio multicanal. Peut être intégré dans des pipelines de formation dans par exemple Tensorflow/Keras ou Pytorch. A aidé les gens à obtenir des résultats de classe mondiale dans les compétitions Kaggle. Est utilisé par les entreprises fabriquant des produits audio de nouvelle génération.
soundata - Bibliothèque Python pour télécharger, charger et travailler avec des ensembles de données sonores.
auraloss - Une collection de fonctions de perte axées sur l'audio dans PyTorch.
Neutone - Plugin audio AI et communauté. Combler le fossé entre la recherche en IA et la créativité
Waveformer - Une architecture efficace pour l'extraction sonore cible en temps réel.
EfficientAT - Marquage audio efficace à grande échelle. Nous fournissons des modèles pré-entraînés AudioSet prêts pour la formation en aval et l’extraction des intégrations audio.
EfficientAT_HEAR - Évaluez les modèles EfficientAT sur la base de référence de l'évaluation holistique des représentations audio.
VAD-python - Détecteur d'activité vocale en Python. Code Python pour appliquer le détecteur d'activité vocale au fichier wave. Détecteur d'activité vocale basé sur le rapport entre l'énergie dans la bande vocale et l'énergie totale.
Diffsynth - Un synthétiseur musical différenciable dans PyTorch.
DDSP en temps réel - DDSP en temps réel (streaming) dans PyTorch compatible avec neutone.
pc-ddsp - Vocodeurs DDSP à pitch contrôlable.
SSSSM-DDSP - Correspondance sonore de synthétiseur semi-supervisé avec DSP différenciable.
GOLF - Un vocodeur neuronal basé sur DDSP.
audacitorch - Wrappers PyTorch pour utiliser votre modèle avec audace !
Scyclone - Scyclone est un plugin audio qui utilise la technologie de transfert de timbre neuronal pour offrir une nouvelle approche de la production audio.
Scyclone AI - Créez des préréglages pour Scyclone : un plug-in de transfert de timbre neuronal en temps réel.
Programmation de synthétiseur automatique multi-tâches - Ceci est le code du projet de programmation de synthétiseur automatique multi-VST.
NeuralNote - Plugin audio pour la transcription audio vers MIDI utilisant le deep learning.
AudioDec - Un codec audio neuronal haute fidélité en streaming open source.
PaSST - Formation efficace des transformateurs audio avec Patchout.
Speech_data_augment - Un résumé des algorithmes d'augmentation des données vocales.
AugLy - Une bibliothèque d'augmentation de données pour l'audio, l'image, le texte et la vidéo.
NeuraFuzz - Plugin audio neuronal formé à la conception de circuits fuzz analogiques personnalisés.
Ultimate Vocal Remover GUI - Interface graphique pour un dissolvant vocal qui utilise des réseaux de neurones profonds.
Frechet Audio Distance - Une bibliothèque légère pour le calcul de Frechet Audio Distance.
LAPE - Un cadre unifié pour le traitement et l'évaluation audio à faibles ressources (pré-formation SSL et réglage fin en aval).
Azure SDK pour Python : ce référentiel est destiné au développement actif du SDK Azure pour Python.
Panotti - Un classificateur audio de réseau neuronal multicanal utilisant Keras.
Allie - Allie est un framework permettant de créer des modèles d'apprentissage automatique à partir de fichiers audio, texte, image, vidéo ou .CSV.
Torchplugins - Plugins Max/MSP, PureData et Unity pour charger des modèles Pytorch.
aeiou - (ML) utilitaires d'entrée/sortie d'ingénierie audio.
BirdNET-Analyzer - Analyseur BirdNET pour le traitement scientifique des données audio.
spring-reverb-dl-models - Modélisation analogique virtuelle de Spring Reverb avec Deep Learning.
EVAR ~ - EVAR ~ Package d'évaluation pour les représentations audio.
Julius - DSP rapide basé sur PyTorch pour les signaux audio et 1D.
NeuralDX7 - Expériences aléatoires d'apprentissage automatique liées au classique Yamaha DX7.
HANCE - HANCE propose des techniques de traitement du signal de qualité supérieure développées par des spécialistes de l'apprentissage automatique, des ingénieurs du son et des experts en traitement audio. Notre technologie est conçue pour offrir aux utilisateurs la meilleure expérience audio possible en supprimant le bruit, la réverbération et autres déficiences du signal.
IDEAW - Filigrane audio neuronal robuste avec double intégration réversible.
SyNETesia - SyNETesia est un visualiseur de musique et de sons basé sur l'apprentissage profond, ainsi qu'un jeu de mots sur la synesthésie, une maladie neurologique dans laquelle on perçoit un stimulus de plusieurs manières (par exemple voir un son).
Voxaboxen - Voxaboxen est un framework d'apprentissage en profondeur conçu pour trouver les heures de début et de fin des événements sonores (éventuellement se chevauchant) dans un enregistrement.
vocal-separate - Un outil extrêmement simple pour séparer le chant et la musique de fond, entièrement localisé pour le fonctionnement sur le Web, en utilisant des modèles 2stems/4stems/5stems.
Amélioration de la parole – Apprentissage profond pour le débruitage audio.
SNAC - Le codec audio neuronal multi-échelle (SNAC) compresse l'audio de 44,1 kHz en codes discrets à un faible débit.
Supervoice GPT - Un modèle GPT qui convertit le texte en phonèmes avec des durées adaptées pour alimenter le synthétiseur vocal.
Édition audio - Édition audio non supervisée et basée sur du texte Zero-Shot à l'aide de l'inversion DDPM.
MAX-Audio-Classifier - IBM Developer Model Asset Exchange : classificateur audio.
anira - une architecture pour l'inférence de réseau neuronal dans les applications audio en temps réel.
FakeSound - Détection audio générale Deepfake.
Audio Mamba - Modèle spatial d'état bidirectionnel pour l'apprentissage de la représentation audio.
SSAMBA - SSAMBA : Apprentissage de la représentation audio auto-supervisé avec le modèle spatial d'état Mamba.
SLAM-LLM - SLAM-LLM est une boîte à outils d'apprentissage en profondeur qui permet aux chercheurs et aux développeurs de former un modèle de langage multimodal (MLLM) personnalisé, axé sur le traitement de la parole, du langage, de l'audio et de la musique.
MIDI2vec - MIDI2vec : apprentissage des intégrations pour les représentations spatiales vectorielles MIDI.

^ Retour au sommaire ^

Génération audio (AG)

AudioLCM - Génération texte-audio avec modèles de cohérence latente.
Auffusion - Auffusion : exploiter la puissance de la diffusion et des grands modèles linguistiques pour la génération texte-audio.
Audiobox - Audiobox : génération audio unifiée avec invites en langage naturel.
Amphion - Amphion : une boîte à outils open source de génération audio, musicale et vocale.
Nendo - La suite d'outils audio Nendo AI.
Audio stable – Diffusion audio latente rapide conditionnée par le timing.
WavJourney - Création audio compositionnelle avec de grands modèles de langage.
Audiocraft - Audiocraft est une bibliothèque PyTorch pour la recherche en apprentissage profond sur la génération audio.
vschaos2 - vschaos2 : synthèse audio neuronale vintage.
Résonateur neuronal - Synthèse sonore à corps rigide avec résonateurs modaux différenciables.
SoundStorm - SoundStorm : génération audio parallèle efficace.
SpeechGPT - SpeechGPT : doter de grands modèles linguistiques de capacités conversationnelles multimodales intrinsèques.
CLAPSpeech - CLAPSpeech : apprentissage de la prosodie à partir du contexte textuel avec une pré-formation contrastée langage-audio.
AudioGPT - AudioGPT : Comprendre et générer la parole, la musique, le son et la tête parlante.
Bark - Bark est un modèle texte-audio basé sur un transformateur créé par Suno. Bark peut générer des paroles multilingues très réalistes ainsi que d'autres éléments audio, notamment de la musique, du bruit de fond et des effets sonores simples.
TANGO - TANGO est un modèle de diffusion latente (LDM) pour la génération texte-audio (TTA). TANGO peut générer des audios réalistes, notamment des sons humains, des sons d'animaux, des sons naturels et artificiels et des effets sonores à partir d'invites textuelles.
ArchiSound - Génération audio à l'aide de modèles de diffusion, dans PyTorch.
WaveGAN - WaveGAN : Apprenez à synthétiser de l'audio brut avec des réseaux adverses génératifs.
NeuralSound - Synthèse sonore modale basée sur l'apprentissage avec transfert acoustique.
RAVE - RAVE : autoEncodeur variationnel audio en temps réel. Un auto-encodeur variationnel pour une synthèse audio neuronale rapide et de haute qualité.
AudioLDM - AudioLDM : génération de texte en audio avec modèles de diffusion latente.
Make-An-Audio - Make-An-Audio : génération de texte en audio avec des modèles de diffusion améliorés par invite.
Make-An-Audio 3 - Make-An-Audio 3 : Transformation de texte en audio via des transformateurs à grande diffusion basés sur le flux.
Moûsai - Moûsai : Text-to-Audio avec diffusion latente à contexte long.
Im2Wav - Génération audio guidée par image. Nous proposons Im2Wav, un système de génération audio en domaine ouvert guidé par l'image. Étant donné une image d'entrée ou une séquence d'images, Im2Wav génère un son sémantiquement pertinent.
Oobleck - codecs VAE ouverts de type soundstream pour la synthèse audio neuronale en aval.
USS - Il s'agit de l'implémentation PyTorch de la séparation universelle des sources avec des données faiblement étiquetées. Le système USS peut détecter et séparer automatiquement les classes sonores d'un enregistrement réel. Le système USS peut séparer jusqu'à des centaines de classes sonores dans une structure ontologique hiérarchique.
Diffuseurs - ? Diffusers est la bibliothèque incontournable pour les modèles de diffusion pré-entraînés de pointe pour générer des images, de l'audio et même des structures 3D de molécules.
ONE-PEACE - Une représentation générale modale à travers les modalités de vision, d'audio et de langage.
tiny-audio-diffusion - Il s'agit d'un référentiel permettant de générer de courts échantillons audio et d'entraîner des modèles de diffusion de formes d'onde sur un GPU avec moins de 2 Go de VRAM.
stable-audio-tools - Modèles génératifs pour la génération audio conditionnelle.
CTAG - Génération créative de texte en audio via la programmation d'un synthétiseur.
Audiogen Codec - Un codec audio neuronal stéréo 48 kHz à faible compression pour l'audio général, optimisant la fidélité audio ?.
WavCraft - WavCraft est un agent IA pour la création et l'édition audio.
FoleyCrafter - FoleyCrafter : donnez vie à des vidéos silencieuses avec des sons réalistes et synchronisés.

^ Retour au sommaire ^

Traitement du signal audio (ASP)

SouPyX - SouPyX est un espace d'exploration audio très coloré, adapté à la recherche et à l'exploration dans une variété de domaines audio. Dans SouPyX, vous pouvez effectuer des recherches et des explorations dans les domaines du traitement audio, de la synthèse sonore, des effets audio, de l'audio spatial, de la visualisation audio, de l'audio IA et bien plus encore.
SoundFile - SoundFile est une bibliothèque audio basée sur libsndfile, CFFI et NumPy.
Audio DSPy - audio_dspy est un package Python pour les outils de traitement du signal audio.
pyAudioDspTools - pyAudioDspTools est un package Python 3 permettant de manipuler l'audio en utilisant simplement numpy.
wave - Le module wave fournit une interface pratique avec le format sonore WAV. Il ne prend pas en charge la compression/décompression, mais il prend en charge le mono/stéréo.
FFmpeg - FFmpeg est une collection de bibliothèques et d'outils pour traiter le contenu multimédia tel que l'audio, la vidéo, les sous-titres et les métadonnées associées.
Opus - Compression audio moderne pour Internet.
Pedalboard - Pedalboard est une bibliothèque Python pour travailler avec l'audio : lecture, écriture, ajout d'effets, etc. Il prend en charge les formats de fichiers audio les plus populaires et un certain nombre d'effets audio courants, et permet également l'utilisation des formats VST3 et Audio Unit pour des plugins tiers.
PyAudio - PyAudio fournit des liaisons Python pour PortAudio v19, la bibliothèque d'E/S audio multiplateforme. Avec PyAudio, vous pouvez facilement utiliser Python pour lire et enregistrer de l'audio sur diverses plates-formes, telles que GNU/Linux, Microsoft Windows et Apple macOS.
PortAudio - PortAudio est une bibliothèque d'E/S audio gratuite, multiplateforme et open source. Il vous permet d'écrire des programmes audio simples en « C » ou C++ qui seront compilés et exécutés sur de nombreuses plates-formes, notamment Windows, Macintosh OS X et Unix (OSS/ALSA). Il est destiné à favoriser l’échange de logiciels audio entre développeurs sur différentes plateformes. De nombreuses applications utilisent PortAudio pour les E/S audio.
Pyo - pyo est un module Python écrit en C pour aider à la création de scripts de traitement du signal numérique. Module Python DSP. Avec pyo, l'utilisateur pourra inclure des chaînes de traitement du signal directement dans des scripts ou des projets Python, et les manipuler en temps réel via l'interpréteur
tinytag - tinytag est une bibliothèque permettant de lire les métadonnées musicales des fichiers audio les plus courants en python pur. Lisez les métadonnées audio et musicales et la durée des fichiers MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave et AIFF avec python 2 ou 3.
Friture - Friture est une application pour visualiser et analyser des données audio en direct en temps réel. Friture affiche les données audio dans plusieurs widgets, tels qu'un oscilloscope, un analyseur de spectre ou un spectrogramme 2D déroulant.
sounddevice - Ce module Python fournit des liaisons pour la bibliothèque PortAudio et quelques fonctions pratiques pour lire et enregistrer des tableaux NumPy contenant des signaux audio.
Pydub - Manipulez l'audio avec une interface de haut niveau simple et conviviale.
NAudio - Bibliothèque audio et MIDI pour .NET.
SoundCard - SoundCard est une bibliothèque permettant de lire et d'enregistrer de l'audio sans recourir à une extension CPython. Au lieu de cela, il est implémenté en utilisant le merveilleux CFFI et les bibliothèques audio natives de Linux, Windows et macOS.
TarsosDSP - TarsosDSP est une bibliothèque Java pour le traitement audio. Son objectif est de fournir une interface facile à utiliser pour des algorithmes pratiques de traitement de la musique implémentés, aussi simplement que possible, en Java pur et sans aucune autre dépendance externe.
Maximilian - Maximilian est une bibliothèque de synthèse audio et de traitement du signal multiplateforme et multi-cible. Il a été écrit en C++ et fournit des liaisons vers Javascript.
Le Synthesis ToolKit en C++ (STK) - Le Synthesis ToolKit en C++ (STK) est un ensemble de classes open source de traitement du signal audio et de synthèse algorithmique écrites dans le langage de programmation C++.
JUCE - JUCE est un framework d'application C++ multiplateforme open source permettant de créer des applications de bureau et mobiles de haute qualité, notamment des plug-ins audio et des hôtes de plug-ins VST, VST3, AU, AUv3, AAX et LV2. JUCE peut être facilement intégré à des projets existants via CMake, ou peut être utilisé comme outil de génération de projets via Projucer, qui prend en charge l'exportation de projets pour Xcode (macOS et iOS), Visual Studio, Android Studio, Code :: Blocks et Linux Makefiles en tant que ainsi que contenant un éditeur de code source.
iPlug 2 - Framework de plug-ins audio C++ pour ordinateur de bureau, mobile et Web.
CHOC - Une collection de classes d'en-tête uniquement, sous licence permissive, pour fournir des tâches utiles de base avec le strict minimum de dépendances.
Q - Q est une bibliothèque C++ multiplateforme pour le traitement du signal audio numérique. Bien nommée d'après le « facteur Q », un paramètre sans dimension qui décrit la qualité d'un circuit résonant, la bibliothèque Q DSP est conçue pour être simple et élégante, comme la simplicité de son nom l'indique, et suffisamment efficace pour fonctionner sur de petits microcontrôleurs.
BasicDSP - BasicDSP - Un outil pour traiter l'audio/expérimenter le traitement du signal.
DaisySP - Une bibliothèque DSP puissante et open source en C++.
Speech Signal Processing Toolkit (SPTK) - Le Speech Signal Processing Toolkit (SPTK) est une suite d'outils de traitement du signal vocal pour les environnements UNIX, par exemple l'analyse LPC, l'analyse PARCOR, l'analyse LSP, le filtre de synthèse PARCOR, le filtre de synthèse LSP, les techniques de quantification vectorielle. , et d'autres versions étendues de ceux-ci.
eDSP - eDSP (easy Digital Signal Processing) est un framework de traitement du signal numérique écrit en C++ moderne qui implémente certaines des fonctions et algorithmes courants fréquemment utilisés dans les systèmes de traitement du signal numérique, d'ingénierie audio et de télécommunications.
KFR - KFR est un framework DSP C++ open source qui se concentre sur les hautes performances. Framework DSP C++ rapide et moderne, FFT, conversion de fréquence d'échantillonnage, filtres FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON).
MWEngine - Moteur audio et DSP pour Android, écrits en C++ offrant des performances à faible latence dans un contexte musical, tout en fournissant une API Java/Kotlin. Prend en charge OpenSL et AAudio.
LabSound - LabSound est un moteur audio basé sur des graphiques C++. Le moteur est présenté sous la forme d'une bibliothèque statique comprenant des piles et destinée à être intégrée dans de nombreux types de logiciels : jeux, visualiseurs, installations interactives, environnements de codage en direct, plugins VST, applications d'édition/séquençage audio, etc.
Gist - Gist est une bibliothèque d'analyse audio basée sur C++.
Realtime_PyAudio_FFT - Analyse audio en temps réel en Python, utilisant PyAudio et Numpy pour extraire et visualiser les fonctionnalités FFT du streaming audio.
Spectre - Analyse spectrale en Python. Spectrum est une bibliothèque Python qui contient des outils pour estimer les densités spectrales de puissance basées sur la transformation de Fourier, les méthodes paramétriques ou l'analyse des valeurs propres. Les méthodes de Fourier sont basées sur des estimations de corrélogramme, de périodogramme et de Welch. Des fenêtres effilées standards (Hann, Hamming, Blackman) et plus exotiques sont disponibles (DPSS, Taylor, …).
tidstream - Outils pour générer et manipuler des flux Vorbis et Opus en direct.
AudioTraits - AudioTraits est une abstraction conçue pour rendre les tests de traitement audio plus pratiques et plus lisibles. Un « trait audio » analyse un signal audio donné (certains ou tous ses canaux) et vérifie une certaine propriété. Le résultat de cette vérification est booléen, ce qui permet de l'intégrer facilement dans n'importe quel framework de tests unitaires.
genMDM Editor - Une interface Web pour genMDM, un contrôleur MIDI pour Sega Mega Drive et Genesis. Prend également en charge l'interface MIDI Mega Drive.
3DAudioVisualizers - Une suite OpenGL Audio Visualizer en C++ utilisant JUCE pour l'audio et l'interface graphique.
AudioStretchy - AudioStretchy est une bibliothèque Python qui vous permet d'étirer dans le temps les signaux audio sans modifier leur hauteur.
SwiftAudio - SwiftAudioEx est un lecteur audio iOS écrit en Swift, ce qui simplifie le travail avec la lecture audio à partir de flux et de fichiers.
WaveTools - WaveTools est un framework pour manipuler des fichiers audio ; Fichiers WAVE (.wav) notamment.
SimplyCoreAudio - ? Un framework Swift qui vise à rendre l'utilisation de Core Audio moins fastidieuse sous macOS.
DPF - Cadre de plugin DISTRHO. DPF est conçu pour faire du développement de nouveaux plugins une tâche facile et agréable.
Plug-in Neural Amp Modeler - Un plug-in VST3/AudioUnit pour Neural Amp Modeler, construit avec iPlug2.
lsp-dsp-lib - Bibliothèque DSP pour le traitement du signal.
Hip-Hop - Bibliothèque pour écrire des plugins audio qui exécutent l'interface utilisateur dans une vue Web. Basé sur DPF.
MGT-python - Boîte à outils de gestes musicaux pour Python.
ASP - Outils Python de traitement du signal audio.
TinyAudio - TinyAudio est une bibliothèque de sortie audio multiplateforme.
pymixconsole - Console de mixage multipiste sans tête en Python.
effect-plugin - Un modèle de plugin d'effets audio utilisant Elementary et JUCE.
miniaudio - Bibliothèque de lecture et de capture audio écrite en C, dans un fichier source unique.
AudioMass - Outil Web complet et gratuit d'édition audio et de forme d'onde.
Universal Android Music Player Sample - Un exemple d'application audio pour Android.
jsfx - Une collection gratuite de plugins JS (JesuSonic) pour Reaper.
Fourier - Transformations de Fourier rapides (FFT) dans Rust.
ProtoFaust - Prototypage DSP en Faust pour le synthétiseur modulaire VCV Rack.
Polar - Moteur audio pour le traitement CUDA (Windows/Linux).
Convertisseur audio-MIDI - Programme pour détecter la hauteur des fichiers wav et écrire du MIDI quantifié dans le temps.
AudioTSM - AudioTSM est une bibliothèque Python pour les procédures de modification d'échelle de temps audio en temps réel, c'est-à-dire des algorithmes qui modifient la vitesse d'un signal audio sans changer sa hauteur.
Multi-Filter-Delay - Un effet audio numérique original programmé via Juce/C++.
convoLV2 - convoLV2 est un plugin LV2 pour convoluer les signaux audio avec une latence nulle.
Cloud Seed - Cloud Seed est un plugin de réverbération algorithmique construit en C# et C++ pour émuler des espaces immenses et infinis et des échos modulés.
Musique de fond - Background Music, un utilitaire audio macOS : mettez automatiquement votre musique en pause, définissez le volume des applications individuelles et enregistrez l'audio du système.
audiowaveform - Programme C++ pour générer des données de forme d'onde et restituer des images de forme d'onde à partir de fichiers audio.
Mutagen - Module Python pour gérer les métadonnées audio.
lewton - Décodeur Vorbis écrit en Rust pur.
Hound - Une bibliothèque d'encodage et de décodage wav dans Rust.
rodio - Bibliothèque de lecture audio Rust.
CPAL - Bibliothèque d'E/S audio multiplateforme en pur Rust.
CSCore - CSCore est une bibliothèque audio .NET gratuite entièrement écrite en C#.
TinyOSC - Une bibliothèque minimale Open Sound Control (OSC) écrite en Vanilla C.
TinyWav - Une bibliothèque C minimale pour lire et écrire des fichiers audio WAV (16b-int et 32b-float).
JAsioHost - Un hôte ASIO basé sur Java (entrée/sortie de flux audio).
PyWavelets - PyWavelets est une bibliothèque Open Source gratuite pour les transformations en ondelettes en Python. Les ondelettes sont des fonctions de base mathématiques localisées à la fois en temps et en fréquence.
ChowMultiTool - Plugin audio multi-outils.
Modèles RE201 - Modèles numériques du Roland RE201. Plugins VST3, AU et code source.
RtAudio - Un ensemble de classes C++ qui fournissent une API commune pour l'entrée/sortie audio en temps réel sur Linux (ALSA natif, JACK, PulseAudio et OSS), Macintosh OS X (CoreAudio et JACK) et Windows (DirectSound, ASIO et WASAPI) systèmes d'exploitation.
RtAudio-rs - Wrapper Safe Rust et liaisons à RtAudio.
PFFFT - Une FFT assez rapide et une convolution rapide avec PFFASTCONV.
SHAART - SHAART est une boîte à outils d'analyse audio basée sur Python, à des fins éducatives.
TD-JUCE - JUCE audio et VST dans TouchDesigner.
JIVE - JIVE est un ensemble de modules JUCE centrés sur le désir d'avoir une approche plus moderne du développement de l'interface utilisateur.
Amplituda - Amplituda - une bibliothèque Android basée sur FFMPEG qui traite les fichiers audio et fournit une gamme d'échantillons.
TagLib - Bibliothèque de métadonnées audio TagLib.
speexdsp - Bibliothèque Python de l'annuleur d'écho Speex.
PyPam - Outil d'analyse acoustique passive Python pour la surveillance acoustique passive (PAM).
AudioTools - Gestion orientée objet des données audio, avec augmentations basées sur GPU, et bien plus encore.
Equalize It - Le projet est un plugin VST pour l'égalisation. L'interface utilisateur comprend un analyseur de spectre, un panneau de commande de filtre, des courbes de réponse en fréquence et des indicateurs de niveau.
JDSP4Linux - Un processeur d'effets audio pour les clients PipeWire et PulseAudio.
FIRconv - Implémentations Python des filtres FIR (Finite Impulse Response).
OpenDSP - Système d'exploitation temps réel intégré Linux sans tête pour DSP audio et vidéo.
ultralight-juce - Intégration du moteur de rendu Ultralight C++/HTML avec JUCE pour des interfaces utilisateur plus jolies.
Vult - Vult est particulièrement utile lors de la programmation d'algorithmes de traitement du signal numérique (DSP) tels que des effets audio ou des synthétiseurs.
CloudSeed [JUCE] - Interface utilisateur basée sur JUCE pour le plugin CloudSeed VST.
TFliteTemplatePlugin - Plugins de modèles JUCE pour utiliser TensorFlow Lite pour l'inférence d'apprentissage en profondeur.
DrumFixer - DrumFixer est un plugin audio conçu pour aider les ingénieurs du mixage à obtenir un meilleur son de batterie.
BasicAudioPlayer - Une bibliothèque Swift qui facilite la création de lecteurs audio basés sur AVAudioEngine.
PLAAudioMixer - Mélangeur audio simple basé sur le mode de rendu hors ligne AVAudioEngine.
estratto - Estratto est une bibliothèque Rust puissante et conviviale conçue pour extraire des fonctionnalités audio riches à partir de signaux audio numériques.
vampy - Un wrapper permettant d'écrire des plugins d'analyse audio Vamp en Python.
SoundWave - SoundWave est une vue personnalisable représentant les sons au fil du temps.
PyAV - PyAV est une liaison Pythonic pour les bibliothèques FFmpeg.
audio-dsp - Jouer avec le développement de plugins audio + DSP.
openSMILE - openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) est une boîte à outils complète et open source pour l'analyse, le traitement et la classification audio, particulièrement destinée aux applications vocales et musicales.
Carla - Carla est un hôte de plugin audio complet, prenant en charge de nombreux pilotes audio et formats de plugin.
JUCE-HEAVY - Modèle de projet JUCE montrant comment connecter JUCE aux fichiers source générés par Heavy C++ (HVCC).
Dplug - Cadre de plugins audio. VST2/VST3/AU/AAX/LV2 pour Linux/macOS/Windows.
DAWNet - Le DAWNet est un plugin DAW (digit audio workstation) qui se connecte à un Google Colab ou Script distant.
Fish Audio Preprocessor - Prétraitez l'audio pour la formation.
clap-validator - Un outil automatique de validation et de test CLAP.
DSP Testbench - Un banc de test DSP pour les utilisateurs du framework JUCE.
Coupler - Coupler est un framework pour écrire des plugins audio dans Rust. Il prend actuellement en charge les API VST3 et CLAP, et prévoit de prendre en charge AUv2 et AAX dans un avenir proche.
PyOgg - PyOgg fournit des liaisons Python pour les formats de fichiers audio Opus, Vorbis et FLAC de Xiph.org ainsi que leur format de conteneur Ogg.
streamlit-audiorecorder - Un enregistreur audio pour streamlit.
DtBlkFx - DtBlkFx est un plug-in VST basé sur Fast-Fourier-Transform (FFT).
SmartElectronix - Versions open source de tous les plugins Bram @ SmartElectronix.
CookieJuce - Un outil de ligne de commande pour générer des projets de Juce modernes avec Cmake.
Auglib - Auglib est une bibliothèque d'augmentation, qui fournit des transformations en modifications des signaux et des fichiers audio.
Klang - Klang est un langage pour la conception et le développement de processus audio en temps réel en C ++.

^ Retour au contenu ^

Synthèse sonore (SS)

CSOUND - CSOUND est un système informatique sonore et musical qui a été initialement développé par Barry Vercoe en 1985 au MIT Media Lab. Depuis les années 90, il a été développé par un groupe de développeurs de base.
Pure Data - Pure Data ( PD ) est un langage de programmation visuel développé par Miller Puckette dans les années 1990 pour créer des œuvres de musique informatique interactive et multimédia. Alors que Puckette est l'auteur principal du programme, PD est un projet open-source avec une grande base de développeurs travaillant sur de nouvelles extensions. Il est publié sous la clause BSD-3. Il fonctionne sur Linux, MacOS, iOS, Android "Android (système d'exploitation)") et Windows. Les ports existent pour FreeBSD et IRIX.
PlugData - Un environnement de programmation visuelle pour l'expérimentation audio, le prototypage et l'éducation.
Max / MSP / Jitter - Max , également connu sous le nom de Max / MSP / Jitter, est un langage de programmation visuelle pour la musique et le multimédia développé et entretenu par la société de logiciels basée à San Francisco Cycling '74. Au cours de ses plus de trente ans d'histoire, il a été utilisé par les compositeurs, les artistes, les concepteurs de logiciels, les chercheurs et les artistes pour créer des enregistrements, des performances et des installations.
Kyma (langage de conception sonore) - Kyma est un langage de programmation visuelle pour la conception sonore utilisée par les musiciens, les chercheurs et les concepteurs sonores. Dans Kyma, un utilisateur programme un DSP multiprocesseur en connectant graphiquement les modules à l'écran d'un ordinateur Macintosh ou Windows.
SuperCollider - SuperCollider est une plate-forme pour la synthèse audio et la composition algorithmique, utilisée par des musiciens, des artistes et des chercheurs travaillant avec Sound. Un serveur audio, un langage de programmation et IDE pour la synthèse du son et la composition algorithmique.
Sonic Pi - Sonic Pi est un environnement de codage en direct basé sur Ruby "Ruby (Language de programmation)"), conçu à l'origine pour soutenir à la fois les cours informatiques et musicaux dans les écoles, développé par Sam Aaron dans le laboratoire informatique de l'Université de Cambridge en collaboration avec Raspberry Pi Fondation.
Reaktor - Reaktor est un studio de musique logiciel modulaire graphique développé par les instruments natifs (NI). Il permet aux musiciens et aux spécialistes du son de concevoir et de construire leurs propres instruments, échantillonneurs "échantillonneur (instrument de musique)"), effets et outils de conception sonore. Il est fourni avec de nombreux instruments et effets prêts à l'emploi, des émulations de synthétiseurs classiques aux outils de conception sonore futuristes.
RTCMIX - RTCMIX est un "langage" logiciel en temps réel pour faire la synthèse du son numérique et le traitement du signal. Il est écrit en C / C ++ et est distribué gratuitement de source ouverte.
Chuck - Chuck est un langage de programmation pour la synthèse du son en temps réel et la création de musique. Chuck propose un modèle de programmation simultanée unique basé sur le temps qui est précis et expressif (nous appelons cela fortement chronométré), les taux de contrôle dynamiques et la possibilité d'ajouter et de modifier le code à la volée. De plus, Chuck prend en charge MIDI, OpenSSoundControl, Hid Device et Audio multicanal. Il est open-source et disponible librement sur MacOS X, Windows et Linux. C'est amusant et facile à apprendre, et offre aux compositeurs, aux chercheurs et aux artistes un puissant outil de programmation pour construire et expérimenter des programmes complexes de synthèse / analyse audio et de musique interactive en temps réel.
Faust - Faust (Stream audio fonctionnel) est un langage de programmation fonctionnelle pour la synthèse du son et le traitement audio avec un fort focus sur la conception des synthétiseurs, des instruments de musique, des effets audio, etc. Faust cible Faust les applications de traitement de signal haute performance et les plug-ins audio Pour une variété de plates-formes et de normes.
Soul - Le langage de programmation de l'âme et l'API. Soul (Language sonore) est une tentative de modernisation et d'optimiser la façon dont le code audio haute performance à faible latence est écrit et exécuté.
CMAJOR - CMAJOR est un langage de programmation pour écrire un logiciel audio rapide et portable. Vous avez entendu parler de C, C ++, C #, Objective-C ... eh bien, C Major est un langage de famille C conçu spécifiquement pour l'écriture de code de traitement du signal DSP.
VCV Rack - Rack est l'application hôte de la plate-forme de synthétiseur modulaire VCV Eurorack VCV.
Gwion - Gwion est un langage de programmation, visant à faire de la musique. fortement inspiré par Chuck, mais ajoutant des fonctionnalités de haut niveau ; Templage, fonctions de première classe et plus encore. Il vise à être simple, petit, rapide, extensible et intégré.
Audio élémentaire - Elementary est un cadre JavaScript et un moteur audio haute performance qui vous aide à construire rapidement et à expédier en toute confiance. Framework déclaratif et fonctionnel pour la rédaction d'un logiciel audio sur le Web ou pour les applications natives.
Elementary - Elementary est une bibliothèque JavaScript / C ++ pour la création d'applications audio.
Sound2Synth - Sound2Synth: Interprétation du son via l'estimation des paramètres du synthétiseur FM.
JSYN - JSYN est un synthétiseur audio modulaire pour Java de Phil Burk. JSYN vous permet de développer des programmes de musique informatique interactifs en Java. Il peut être utilisé pour générer des effets sonores, des environnements audio ou de la musique. JSYN est basé sur le modèle traditionnel des générateurs unitaires qui peut être connecté ensemble pour former des sons complexes.
Synthax - Un synthétiseur modulaire rapide dans Jax ⚡️Accelerant la synthèse audio bien au-delà des vitesses en temps réel a un rôle important à jouer dans la progression des techniques de production audio intelligentes. Synthax est un synthétiseur modulaire virtuel rapide écrit en Jax. À son apogée, Synthax génère de l'audio plus de 60 000 fois plus rapidement que en temps réel, et nettement plus rapide que l'état de l'art dans la synthèse sonore accélérée.
Midica - Midica est un interprète pour un langage de programmation musicale. Il traduit le code source en MIDI. Mais il peut également être utilisé comme joueur MIDI, compilateur MIDI ou décompilateur, joueur de karaoké, lecteur Alda, lecteur ABC, lecteur LilyPond ou un analyseur de fichiers MIDI. Vous écrivez de la musique avec l'une des langues prises en charge (Midicapl, Alda ou ABC).
Mercure - Mercure est un langage minimal et lisible par l'homme pour le codage en direct de la musique électronique algorithmique. Tous les éléments de la langue sont conçus pour rendre le code plus accessible et moins obscurcissant pour le public. Cette motivation s'étend jusqu'au style de codage lui-même qui utilise des noms descriptifs clairs pour les fonctions et une syntaxe claire.
Alda - Alda est un langage de programmation textuel pour la composition musicale. Il vous permet d'écrire et de lire de la musique en utilisant uniquement un éditeur de texte et la ligne de commande. La conception de la langue favorise également l'esthétique, la flexibilité et la facilité d'utilisation.
Platonic Music Engine - The Platonic Music Engine est une tentative de créer des algorithmes informatiques qui simulent superficiellement l'intégralité de la culture humaine créative, passé, présent et futur. Il le fait de manière interactive permettant à l'utilisateur de choisir divers paramètres et paramètres de telle sorte que le résultat final sera unique à l'utilisateur tout en préservant l'idée culturelle qui a inspiré le travail.
Pyo-Tools - Référentiel de classes Python prêtes à l'emploi pour la construction d'effets audio et de synthés avec PYO.
Py-modulaire - cadre de programmation audio modulaire et expérimentale pour Python. Py-modulaire est un petit environnement de programmation audio expérimentale pour Python. Il est destiné à être une base pour l'exploration de nouvelles technologies audio et flux de travail. Presque tout dans le py-modulaire est construit autour d'un flux de travail basé sur des nœuds, ce qui signifie que les petites classes effectuent de petites tâches et peuvent être corrigées pour créer des synthétiseurs complets ou des idées plus grandes.
Bach: Automated Composer's Helper - Un ensemble multiplateforme de correctifs et d'externes pour Max, visant à apporter la richesse de la composition assistée par ordinateur dans le monde en temps réel.
Audiokit - Audiokit est une plate-forme de synthèse, de traitement et d'analyse audio pour iOS, macOS (y compris catalyseur) et TVOS.
Twang - Library for Pure Rust Advanced Audio Synthesis.
Gensound - Framework Pythonic Audio Processing and Generation. La voie Python vers le traitement audio et la synthèse.
Otto - L'Otto est une boîte à groove matérielle numérique, avec des synthés, des échantillonneurs, des effets et un séquenceur avec un looper audio. L'interface est plate, modulaire et facile à utiliser, mais surtout, elle vise à encourager l'expérimentation.
Loris - Loris est une bibliothèque pour l'analyse sonore, la synthèse et le morphing, développées par Kelly Fitz et Lippold Haken au Cerl Sound Group. Loris comprend une bibliothèque de classe C ++, un module Python, une interface C-Linkable, des utilitaires de ligne de commande et une documentation.
Iannix - Iannix est un séquenceur graphique open source, basé sur Iannis Xenakis Works, pour l'art numérique. Iannix synchronise via des événements et des courbes d'Open Sound Control (OSC) dans votre environnement en temps réel.
Leipzig - Une bibliothèque de composition musicale pour Clojure et Clojurescript.
Nyquist - Nyquist est une synthèse solide et un langage de composition offrant une syntaxe LISP ainsi qu'une syntaxe de langage impérative et un environnement de développement intégré puissant. Nyquist est un système élégant et puissant basé sur la programmation fonctionnelle.
OpenMusic (OM) - OpenMusic (OM) est un langage de programmation visuel basé sur LISP. Les programmes visuels sont créés en assemblant et en connectant les icônes représentant des fonctions et des structures de données. La plupart des programmes et des opérations sont effectués en faisant glisser une icône à partir d'un endroit particulier et en le déposant à un autre endroit. Des structures de contrôle visuel intégrées (par exemple boucles) sont fournies, cette interface avec des lisp. Le code Commonlisp / Clos existant peut facilement être utilisé dans OM, et un nouveau code peut être développé de manière visuelle.
Orcλ - Orca est un langage de programmation ésotérique conçu pour créer rapidement des séquenceurs procéduraux, dans lesquels chaque lettre de l'alphabet est une opération, où les lettres minuscules fonctionnent sur bang, les lettres majuscules fonctionnent à chaque trame.
Overtone - Overtone est un environnement audio open source conçu pour explorer de nouvelles idées musicales, de la synthèse et de l'échantillonnage en passant par la construction d'instruments, le codage en direct et le brouillage collaboratif. Nous combinons le puissant moteur audio SuperCollider, avec Clojure, un état de Lisp, pour créer une expérience sonore interactive enivrante.
Seam - Musique électro-acoustique soutenue - base. La musique électro-acoustique soutenue est un projet inspiré d'Alvise Vidolin et Nicola Bernardini.
Glicol - Glicol (un acronyme de "Language de codage en direct orienté Graphée") est un langage de musique informatique avec son langage et son moteur audio écrit en langage de programmation de rouille, une alternative moderne à C / C ++. Compte tenu de cette nature de bas niveau, Glicol peut fonctionner sur de nombreuses plates-formes différentes telles que les navigateurs, les plugins VST et la carte Bela. La syntaxe de type synthée de Glicol et un moteur audio puissant permettent également de combiner le contrôle de synthage ou de séquenceur de haut niveau avec une synthèse audio précis de bas niveau, le tout en temps réel.
PAPERSYNTH - Texte manuscrit aux synthés! Paperynth est un projet qui vise à lire les mots clés que vous avez écrits sur un morceau de papier et à le convertir en synthétiseurs que vous pouvez jouer au téléphone.
Résonateur neuronal VST - Il s'agit d'un plugin VST qui utilise un réseau neuronal pour générer des filtres basés sur des formes et des matériaux 2D arbitraires. Il est possible d'utiliser MIDI pour déclencher des impulsions simples pour exciter ces filtres. De plus, tout signal audio peut être utilisé comme entrée dans les filtres.
Scyclone - Scyclone est un plugin audio qui utilise la technologie de transfert de timbre neural pour offrir une nouvelle approche de la production audio. Le plugin s'appuie sur la méthodologie rave, un encodeur automatique variationnel audio en temps réel, facilitant le transfert de timbre neuronal en mode d'inférence simple et couple.
Mlinmax - ML pour la génération et le traitement du son dans le langage de programmation maximum du cyclisme des 74.
ADLPlug - Synthétiseur de puce FM - OPL & OPN - VST / LV2 / Standalone.
Surge - Plug-in Synthesizer (précédemment publié sous le nom de Vember Audio Surge).
CSTOP - CSTOP est un plugin à effet audio d'arrêt de bande disponible dans AU & VST3 pour Mac (Windows à venir bientôt).
Compufart - synthétiseur sonore de pet et algorithme dans CMAJOR.
PY-JS - Python3 Externaux pour Max / MSP.
PD-LUA - LUA Bindings for PD, mis à jour pour LUA 5.3+.
Live 4 Life - Un outil de performance spatiale pour SuperCollider.
Caesarlooper - Caesarlooper est un clone SuperCollider du plugin Augustus Loop VST par des couchés experts.
Dexed - Plugin DX7 FM Multi Plaform / Multi Format.
Leapmotion pour max - leapmotion externe pour cyclisme '74 max.
Kontakt-Public - Ressources pour les instruments indigènes Kontakt Builders.
Pylive - Requête et contrôle Ableton en direct de Python.
ML-lib - Une bibliothèque d'apprentissage automatique pour les données max et pures.
Zengarden - Zengarden est une bibliothèque autonome pour exécuter des correctifs de données purs.
Max-SDK - Kit de développement de logiciels pour Max par cyclisme '74.
PD-HVCC - Création d'un environnement de type Gen ~ pour PD, basé sur le compilateur lourd.
Kuroscillateurs - objets max / MSP pour la synthèse audio et rythmique à l'aide de réseaux d'oscillateurs couplés.
ASCIII-AUDIO - Génération de l'audio PCM à partir d'une chaîne ASCII. Le texte est visible sur l'image du spectrogramme.
Bélamimoogemulation - Une implémentation numérique du synthétiseur analogique minimoog avec des formes d'onde anti-aliasées et une recréation du filtre à échelle Moog.
EDISYN - Éditeur de patch de synthétiseur.
Soundgen - R package pour la synthèse sonore et l'analyse acoustique.
Cardinal - Plugin de synthétiseur modulaire virtuel.
Modélisation de l'écho de flottement - Ce référentiel présente une démo MATLAB pour la synthèse de Flutter Echo.
Oups - Oups est maintenant la feuille! Bibliothèque AC pour la synthèse et le traitement audio, destinés aux applications intégrées, écrites à l'aide du style semi-oop.
Outil sonique PI -? Contrôlant Sonic Pi à partir de la ligne de commande, dans Python.
Sonicpi.vim - Sonic Pi Plugin pour VIM.
Chaos contrôlé - générateur de rythme euclidien max4live.
KPSTRONG - Il s'agit d'une implémentation d'un synthé à forte Karplus gratté, qui fonctionne comme C ++ en temps réel sur le matériel Bela.
NN_TILDE - Un maximum / PD externe pour le traitement audio AI en temps réel.
Grainbow - Un synthétiseur qui utilise la détection de hauteur pour choisir les candidats à une synthèse granulaire ou à l'échantillonnage.
Signalflow - Un cadre de synthèse sonore pour Python, conçu pour une expression claire et concise d'idées musicales complexes.
Syntheon - Inférence des paramètres des synthétiseurs musicaux pour simplifier le processus de conception sonore. Soutient vital et dexé.
RNBOJUCETÉTÉ - Un modèle de Juce comprenant un synthétiseur minimal créé avec RNBO ~ de MaxMSP, qui résume l'état de RNBOObject dans la mode audioprocestate de Juce en utilisant la mode audioprocessortreevalueState moderne.
FluidSynth.clap - un pont de couple à plagine à FluidSynth.
LaunchPadx - Une interface SuperCollider simple pour le contrôleur Novation LaunchPadx.
Faug - Une émulation minimoog du modèle D avec la partie DSP écrite en Faust. MOOG + FAUST = FAUG.
Blocks - Blocks est un synthétiseur modulaire disponible en tant que autonome, VST3 et AU pour Windows et MacOS.
Trick de Bessel - L'astuce de Bessel est un plugin audio neuronal pour la transformation rapide de la tonalité des sons d'instruments de musique en utilisant la synthèse de modulation de fréquence (FM).

^ Retour au contenu ^

Audio de jeu (GA)

Chune - Chuck dans l'unité. Plugin pour utiliser Chuck in Unity. Disponible sur le magasin Unity Asset.
Raveler - Plugin Wwise qui exécute des modèles rave, permettant un transfert de timbre en temps réel via la synthèse audio neuronale dans un paramètre audio de jeu.
LASP - Plugin de traitement du signal audio à faible latence pour l'unité.
PyRereat - un wrapper Python pour Reaper.
Reaper-keys - Vim-Bindings for Reaper.
Reaper Tools - Rediokinetic Reaper Tools Repository. Collection d'extensions, scripts et outils pour Reaper.
ReWWise - Reawwise est une extension Reaper que les concepteurs de son peuvent utiliser pour transférer des fichiers audio de Reaper dans les projets Wwise.
Wwister - Un analyseur WWiT.
waapi-text-to-disech - intégration text-to-disseops à l'aide des éditeurs externes.
jsfxr pour wwise - jsfxr (porté à partir de SFXR) avec une connectivité ajoutée Wwise, intégrée dans l'électron.
Soloud - Soloud est un moteur audio C / C ++ facile à utiliser, gratuit et portable pour les jeux.
AudioToys - DSP griffonnage pour l'unité.
Dolby.io Virtual World Plugin for Unity - Avec le plugin Dolby.io Virtual World For Unity, vous pouvez facilement intégrer l'audio spatial Dolby.io, alimenté par la technologie Dolby Atmos dans vos applications mondiales virtuelles.
Dolby.io Virtual Worlds Plugin for Unreal Engine - Avec le plugin Dolby.io Virtual Worlds pour un moteur Unreal, vous pouvez facilement intégrer l'audio spatial Dolby.io, alimenté par la technologie Dolby Atmos dans vos applications mondiales virtuelles.
Simulator de moteur - Simulator de moteur de combustion qui génère un audio réaliste.
Jack Audio for Unity - Ce bibliothèque / plugin permet le routage audio multicanal entre Unity3d et Jackaudio.
Plugin Voxel - Le plugin Voxel permet de créer des mondes infinis entièrement volumétriques, entièrement destructibles dans un moteur Unreal. Il est compatible avec 4,24, 4,25, 4,26, 4,27 et Unreal 5.
Rev Unity - Rev Unity Tachomètre Demo.
Unity Audio Manager (UAM) -? Utilisé pour jouer / modifier / stop / mue / ... un ou plusieurs sons à une certaine circonstance ou événement en 2D et 3D simplement via. code.
Audio-Manager-for-Unity - un outil pour définir et exécuter les comportements audio dans Unity dans un éditeur basé sur le nœud.
Unity Wwise Addressables - Ce package ajoute la prise en charge de la distribution et du chargement des actifs Wwise à l'aide du système d'adressables Unity.
RFXGEN - Un générateur de sons FX simple et facile à utiliser.
Plug-in LIPSync Ulipsync - MFCC LIPSYNC pour Unity Utilisation du système de travail et du compilateur Burst.
Godot-Fmod-Integration - FMOD Studio Middleware Intégration et Scripting API Bindings for the Godot Game Engine.
Système audio FMOD - Système Audio Unity Utilisation de FMOD.
ww2ogg - convertir audiokinetic wwise riff / rifx vorbis en standard ogg vorbis.
Caverne - Pack de moteur audio basé sur des objets avec rendu Dolby Atmos, correction de la salle, HRTF, prise de contrôle audio Unity en un clic, et bien plus encore.
RNBO Unity Audio Plugin - Adaptateur RNBO pour le plugin audio natif d'Unity.
RNBO Metasounds - adaptateur RNBO qui implémente les nœuds métasonds.

^ Retour au contenu ^

Passe de travail audio numérique (DAW)

Audacity - Audacity est un éditeur audio et un enregistreur audio faciles à utiliser et à utiliser pour Windows, MacOS, GNU / Linux et d'autres systèmes d'exploitation.
Tracktion - Tracktion est une station de travail audio open source basée sur une plate-forme avec une interface utilisateur intuitive et de puissantes fonctions d'édition et de mélange audio.
SDK SDK de PRO Tools - Le SDK de Scripting Pro Tools vous permet de scripter les outils Pro à l'aide d'une API indépendante du langage pour créer de nouveaux flux de travail automatisés dans Pro Tools.
Reapy - un wrapper pythonique pour l'API Rescript Python de Reaper.
SDK d'extension Reaper-Sdk - Reaper C / C ++.
Reascrits - Les scripts gratuits et open source des rayons X pour Cockos Reaper.
Reascrits - Cockos Reaper Scripts.
REABLINK - Extension du plug-in Reaper Fournissant des liaisons Reascript pour la session Ableton Link et Ableton Link Test Plan Implémentations conformes pour Reaper.
VOODOOHOP-ABLETON-TOOLS - Ableton Live Harmony and Tempo Tools. Augmente Ableton Live avec une visualisation intuitive de l'harmonie musicale et permettant à la dynamique du tempo d'une piste de contrôler le tempo maître en temps réel.
AbleTonParsing - Analyser un fichier clip Ableton ASD (marqueurs de guerre et plus) dans Python.
Ableton Push - Une bibliothèque pour travailler avec Ableton Push dans le navigateur.
PYFLP - FL Studio Project File Parser.
VST3SDK - VST 3 SDK plug-in.
Tune-Flow -? + Construisez vos algorithmes musicaux et les modèles AI avec la DAW de nouvelle génération
Tuneflow-Py - Tuneflow-Py est le SDK Python des plugins Tourflow.
Plugin So-vits-SVC pour Tourflow - So-vits-SVC en tant que plugin Tourflow.
Radium - un éditeur de musique graphique. Un tracker de prochaine génération.
Bass Studio - Bass Studio est une station de travail audio numérique (DAW) écrite en C ++. Des versions Windows, MacOS et Linux sont fournies. Le format du plugin VST2 et CLAP est pris en charge.
Gridsound - Gridsound est un poste de travail audio numérique open-source en cours de travail développé avec HTML5 et plus précisément avec la nouvelle API audio Web.
Meadowlark - Meadowlark est une DAW (Work in Progress) gratuite et open source (station de travail audio numérique) pour Linux, Mac et Windows. Il vise à être un puissant enregistrement, composition, montage, conception sonore, mixage et maîtrise pour les artistes du monde entier, tout en étant intuitif et personnalisable.
Mixxx - mixxx est un logiciel DJ gratuit qui vous donne tout ce dont vous avez besoin pour effectuer des mixages en direct.
Hybrid-DJ-Set - Synchroniser le logiciel DJ (Mixxx) avec des données pures pour superposer des instruments virtuels dans une performance en direct.
LV2 - LV2 est une norme de plugin pour les systèmes audio. Il définit une API C extensible pour les plugins et un format pour les répertoires "bundle" autonomes qui contiennent des plugins, des métadonnées et d'autres ressources.
Ardor - enregistrer, modifier et mélanger sur Linux, macOS et Windows.
LMMS - LMMS est une alternative multiplateforme gratuite aux programmes commerciaux comme FL Studio®, qui vous permettent de produire de la musique avec votre ordinateur. Cela comprend la création de mélodies et de battements, la synthèse et le mélange des sons, et l'organisation d'échantillons.
Qtractor - Qtractor est une application audio / MIDI Multi-Track Séquencer écrite en C ++ avec le framework QT. La plate-forme cible est Linux, où le kit de connexion audio Jack (Jack) pour l'audio, et l'architecture sonore avancée Linux (ALSA) pour MIDI, sont les principales infrastructures à évoluer en tant que GUI de poste de travail audio Linux de bureau Linux, spécialement dédié à la Home-studio personnel.
Smart-Audio-Mixer - Un poste de travail audio numérique moderne (DAW) utilisant C ++ / Juce.
Plugins OpenVino ™ AI pour Audacity - un ensemble d'effets compatibles AI, de générateurs et d'analyseurs pour Audacity.
JACDAW - Un poste de travail audio numérique (DAW) dépouillé et axé sur le clavier prenant des indices de conception d'éditeurs vidéo non linéaires comme Avid.
SCORE OSSIA - Un séquenceur Intermedia prenant en charge l'audio (VST, VST3, LV2, JSFX, etc.) ainsi que le contrôle vidéo et matériel (OSC, MIDI, DMX, NDI, MQTT, COAP, etc.)

^ Retour au contenu ^

Audio spatial (SA)

Spaudiopy - package spatial audio python. L'objectif (jusqu'à présent) est sur les encodeurs audio spatiaux et les décodeurs. Le package comprend par exemple le traitement des harmoniques sphériques et les (rendus binauraux de) des décodeurs de haut-parleurs, tels que VBAP et Allrad.
Spatial_Audio_Framework (SAF) - Le spatial_audio_framework (SAF) est un cadre open-source et multiplateforme pour développer des algorithmes et un logiciel liés à l'audio spatial en C / C ++. Initialement conçu comme une ressource pour les chercheurs dans le domaine, le cadre est progressivement transformé en une base de code assez grande et bien documentée comprenant un certain nombre de modules distincts; avec chaque module ciblant un sous-champ spécifique de l'audio spatial (par exemple, codage / décodage des ambisés, traitement de la tablette sphérique, panoramique d'amplitude, traitement de HRIR, simulation de salle, etc.).
HO-SIRR - Le rendu des réponses à l'impulsion spatiale d'ordre supérieur (HO-SIRR) est une méthode de rendu, qui peut synthétiser les réponses à l'impulsion de la salle de haut-parleur de haut-parleur (RIRS) en utilisant des rires harmoniques sphériques (ambisoniques / b-format) de l'ordre arbitraire. Une mise en œuvre MATLAB de l'algorithme de rendu de réponse à l'impulsion spatiale d'ordre supérieur (HO-SIRR); Une approche alternative pour reproduire les rires ambisants sur des haut-parleurs.
SpatGris - Spatgris est un logiciel de spatialisation sonore qui libère des compositeurs et des concepteurs sonores à partir des contraintes des configurations de haut-parleurs réelles. Avec le plugin ControlGris distribué avec Spatgris, des trajectoires spatiales riches peuvent être composées directement dans votre DAW et reproduites en temps réel sur n'importe quelle disposition des haut-parleurs. Il est rapide, stable, multiplateforme, facile à apprendre et travaille avec les outils que vous connaissez déjà. Spatgris prend en charge toute configuration de haut-parleur, y compris les dispositions 2D comme le quad, 5.1 ou les anneaux octophoniques, et des dispositions 3D comme des dômes d'enceintes, des salles de concert, des théâtres, etc. Panning.
Steam Audio - Steam Audio fournit une solution audio complète qui intègre l'environnement et la simulation des écouteurs. Le HRTF améliore considérablement l'immersion dans la VR; La propagation sonore basée sur la physique complète l'immersion auditive en recréant régulièrement comment le son interagit avec l'environnement virtuel.
SpatialAudiokit - Spatialaudiokit est un package rapide pour faciliter la création d'applications audio spatiales sur les plates-formes Apple.
Libmysofa - Lecteur pour les fichiers de canapés AES pour obtenir un meilleur HRTFS.
OmniTone - OmniTone: rendu audio spatial sur le Web. OmniTone est une implémentation solide du décodage ambisé et du rendu binaural écrit dans l'API audio Web. Son processus de rendu est alimenté par les fonctionnalités natives rapides de l'API audio Web (Gainnode et Convolver), garantissant les performances optimales. L'implémentation d'OmniTone est basée sur la spécification des médias spatiaux Google et les filtres binauraux de Sadie. Il alimente également le SDK audio Resonance pour le Web.
Mach1 Spatial - MACH1 SDK spatial comprend des API pour permettre aux développeurs de concevoir des applications qui peuvent coder ou se pan en un rendu audio spatial à partir de flux audio et / ou de lecture et de décoder Mach1 Spatial Spatial Mixes Spatial Mélanges pour décoder la somme de sortie stéréo correcte de l'utilisateur de l'utilisateur orientation de courant. De plus, le SDK spatial Mach1 permet aux utilisateurs de convertir en toute sécurité les mélanges audio surround / spatiaux vers et depuis les formats Mach1Spatial ou Mach1horizon VVBP .
SoundSpaces - Soundpaces est une plate-forme de simulation acoustique réaliste pour la recherche sur l'IA incarnée audiovisuelle. De la navigation audiovisuelle, de l'exploration audiovisuelle à l'écholocation et à la reconstruction du plan d'étage audiovisuel, cette plate-forme étend la recherche de vision incarnée à une portée plus large de sujets.
Correspondance acoustique visuelle - Nous présentons la tâche de correspondance acoustique visuelle, dans laquelle un clip audio est transformé pour sonner comme s'il avait été enregistré dans un environnement cible. Étant donné une image de l'environnement cible et une forme d'onde pour l'audio source, l'objectif est de re-synthétiser l'audio pour correspondre à l'acoustique de la salle cible comme suggéré par sa géométrie et ses matériaux visibles.
Fast-RIR - Il s'agit de la mise en œuvre officielle de notre générateur de réponse à l'impulsion de salle diffus rapide basé sur le réseau neural (Fast-RIR) pour générer des réponses à l'impulsion de la pièce (RIRS) pour un environnement acoustique donné.
PYGSOUND - Génération de réponse impulsionnelle basée sur le moteur de propagation du son géométrique de pointe.
RIRIS - RIRIS est la mise en œuvre MATLAB de l'interpolation de la réponse à l'impulsion de la pièce à l'aide de transformations de silets rapides.
Raytracer parallèle-réverbe - Un raytracer pour les réponses impulsifs (pour la réverbération), influencée par les techniques d'éclairage graphiques raster.
Synth 3D - synthétiseur VST avec des objets d'oscillateur virtuels placés dans l'espace 3D.
Libbasicsofa - Une bibliothèque très basique pour la lecture du format orienté spatialement pour les fichiers d'acoustique (SOFA), un format pour stocker des HRTF et / ou des BRIRS pour la reproduction audio binuarale.
MESH2HRTF - Open Software pour le calcul numérique des fonctions de transfert liées à la tête.
Openal Soft - Openal Soft est une implémentation logicielle de l'API Audio OpenAL 3D.
SoundScape_ir - SoundScape_ir est une boîte à outils basée sur Python de la récupération d'informations Soundscape, visant à aider à l'analyse des enregistrements Soundscape.
Corps au son - Nous présentons un modèle qui peut générer des champs sonores 3D précis des corps humains à partir de microphones de casque et de pose de corps comme entrées.
SoundCapy - Une bibliothèque Python pour analyser et visualiser les évaluations du paysage sonore.
Ambix - Plug-ins Ambisonic VST, LV2 avec commande variable pour une utilisation dans des postes de travail audio numériques comme Reaper ou Ardor ou en tant qu'applications autonomes Jack.
HOAC - Codec Ambisonics d'ordre supérieur pour l'audio spatial.
OpenSoundLab - OpenSENSOUNDLAB (OSL) fait du correctif modulaire en trois dimensions dans une expérience de réalité mixte en utilisant le mode pasthrough de Meta Quest.
See-2-Sound? - Sound environnement spatial zéro-shot à spatial.

^ Retour au contenu ^

Traitement audio Web (WAP)

Traitement audio WebBrTC - Bondage Python du traitement audio WebBrTC.
WebChuck - WebChuck apporte Chuck, un langage de programmation audio à peuple fortement chronométré, sur le Web! Le code source C ++ de Chuck a été compilé à WebAssembly (WASM) et s'exécute via l'interface AudioworkletNode de l'API audio Web.
Midi.js -? Rendre la vie facile pour créer une application midi sur le Web. Comprend une bibliothèque pour programmer la synesthésie dans votre application pour la reconnaissance de la mémoire ou pour la création d'effets trippants. Convertir des soundfonts pour la guitare, les basses, la batterie, ect. en code qui peut être lu par le navigateur. MIDI.JS se fixe et s'appuie sur des cadres qui amènent MIDI au navigateur. Combinez-le avec Jasmid pour créer un flux MIDI Web-radio similaire à cette démo, ou avec trois.js, sparks.js ou GLSL pour créer des expériences audio / visuelles.
Processeur vocal Web - une bibliothèque pour le traitement vocal en temps réel dans les navigateurs Web.
Tone.js - Tone.js est un framework audio Web pour créer de la musique interactive dans le navigateur. L'architecture de Tone.js vise à être familière aux musiciens et aux programmeurs audio créant des applications audio basées sur le Web. Sur le niveau de haut niveau, Tone offre des fonctionnalités DAW (Digital Audio Workstation) comme un transport global pour la synchronisation et la planification des événements ainsi que des synthés et des effets prédéfinis. De plus, Tone fournit des blocs de construction haute performance pour créer vos propres synthétiseurs, effets et signaux de contrôle complexes.
Audio.js - Audiojs est une bibliothèque JavaScript enrout qui permet d'utiliser la balise <audio> de HTML5 n'importe où. Il utilise Native <audio> le cas échéant et retombe sur un lecteur flash invisible pour l'imiter pour d'autres navigateurs. Il sert également une interface utilisateur de lecteur HTML cohérente à tous les navigateurs qui peuvent être stylisés par CSS standard.
Pics.js - Composant d'interface utilisateur JavaScript pour interagir avec les formes d'onde audio.
Howler.js - bibliothèque audio JavaScript pour le Web moderne. Howler.js facilite le travail avec l'audio dans JavaScript facile et fiable sur toutes les plateformes. Howler.js est une bibliothèque audio pour le Web moderne. Il est par défaut à l'API audio Web et revient à HTML5 Audio. Cela rend le travail avec l'audio dans JavaScript facile et fiable sur toutes les plateformes.
CoffeeCollider - CoffeCollider est une langue pour la synthèse audio en temps réel et la composition algorithmique dans HTML5. Le concept de ce projet est conçu comme «Écrire CoffeeScript et être traité comme SuperCollider».
Pico.js - Processeur audio pour la plate-forme multipliée.
Timbre.js - Timbre.js fournit un traitement fonctionnel et synthétisant l'audio dans vos applications Web à la manière de JavaScript moderne comme jQuery ou Node.js. Il dispose de nombreux objets T (formellement: objet de timbre) qui se connectent ensemble pour définir le routage basé sur les graphiques pour le rendu audio global. C'est l'objectif de ce projet d'approcher le traitement audio de prochaine génération pour le Web.
Rythm.js - Une bibliothèque JavaScript qui fait danser votre page.
P5.Sound - P5.Sound étend P5 avec les fonctionnalités audio Web, y compris l'entrée audio, la lecture, l'analyse et la synthèse.
WADJS - Une bibliothèque JavaScript pour manipuler l'audio. DAW audio Web. Utilisez l'API audio Web pour la synthèse du son dynamique. C'est comme jQuery pour vos oreilles.
Ableton.js - Ableton.js vous permet de contrôler votre instance ou les instances d'Ableton à l'aide de Node.js. Il essaie de couvrir autant de fonctions que possible.
Sound.js - "Sound.js" est un micro-bibliothèque qui vous permet de charger, de jouer et de générer des effets sonores et de la musique pour les jeux et les applications interactives. C'est très petit: moins de 800 lignes de code et aucune dépendance. Cliquez ici pour essayer une démo interactive. You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (quelques clonages de voix).
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

Développer