Audio-Entwicklungstools (ADT)
Dies ist eine Liste von Sound-, Audio- und Musikentwicklungstools, die maschinelles Lernen, Audiogenerierung, Audiosignalverarbeitung, Soundsynthese, Game-Audio, digitale Audio-Workstation, räumliches Audio, Musikinformationsabruf, Musikgenerierung, Spracherkennung, Sprachsynthese usw. umfassen. Gesangsstimmensynthese und mehr.
Inhaltsverzeichnis
- Maschinelles Lernen (ML)
- Audioerzeugung (AG)
- Audiosignalverarbeitung (ASP)
- Klangsynthese (SS)
- Spiel-Audio (GA)
- Digitale Audio-Workstation (DAW)
- Räumliches Audio (SA)
- Web-Audioverarbeitung (WAP)
- Musikinformationsabruf (MIR)
- Musikgeneration (MG)
- Spracherkennung (ASR)
- Sprachsynthese (TTS)
- Gesangsstimmensynthese (SVS)
Projektliste
Maschinelles Lernen (ML)
- librosa – Librosa ist ein Python-Paket für Musik- und Audioanalyse. Es stellt die notwendigen Bausteine bereit, um Systeme zum Abrufen von Musikinformationen zu erstellen.
- Essentia – Essentia ist eine Open-Source-C++-Bibliothek für Audioanalyse und audiobasierten Musikinformationsabruf, die unter der Affero GPLv3-Lizenz veröffentlicht wird. Es enthält eine umfangreiche Sammlung wiederverwendbarer Algorithmen, die Audio-Eingabe-/Ausgabefunktionen, standardmäßige digitale Signalverarbeitungsblöcke, statistische Charakterisierung von Daten und einen großen Satz spektraler, zeitlicher, tonaler und hochwertiger Musikdeskriptoren implementieren. C++-Bibliothek für Audio- und Musikanalyse, -beschreibung und -synthese, einschließlich Python-Bindungen.
- DDSP – DDSP: Differenzierbare digitale Signalverarbeitung. DDSP ist eine Bibliothek differenzierbarer Versionen gängiger DSP-Funktionen (wie Synthesizer, Waveshaper und Filter). Dadurch können diese interpretierbaren Elemente als Teil eines Deep-Learning-Modells verwendet werden, insbesondere als Ausgabeebenen für die Audiogenerierung.
- MIDI-DDSP – MIDI-DDSP: Detaillierte Steuerung der musikalischen Darbietung durch hierarchische Modellierung. MIDI-DDSP ist ein hierarchisches Audiogenerierungsmodell zur Synthetisierung von MIDI, das aus DDSP erweitert wurde.
- DDSP-VST – Echtzeit-DDSP-Neuronal-Synthesizer und -Effekt. VST3/AU-Plugins und Desktop-Anwendungen, die mit dem JUCE-Framework und DDSP erstellt wurden.
- Torchsynth – Ein GPU-optionaler modularer Synthesizer in Pytorch, 16200x schneller als Echtzeit, für Audio-ML-Forscher.
- aubio - aubio ist ein Tool zur Extraktion von Anmerkungen aus Audiosignalen. Zu seinen Funktionen gehören das Segmentieren einer Sounddatei vor jedem ihrer Angriffe, die Durchführung einer Tonhöhenerkennung, das Tippen des Beats und das Erzeugen von Midi-Streams aus Live-Audio.
- audioFlux – audioFlux ist eine Deep-Learning-Toolbibliothek für Audio- und Musikanalyse und Merkmalsextraktion. Es unterstützt Dutzende von Zeit-Frequenz-Analyse-Transformationsmethoden und Hunderte von entsprechenden Zeitbereichs- und Frequenzbereichs-Merkmalskombinationen. Es kann Deep-Learning-Netzwerken für Schulungen zur Verfügung gestellt werden und wird zur Untersuchung verschiedener Aufgaben im Audiobereich wie Klassifizierung, Trennung, Music Information Retrieval (MIR) und ASR usw. verwendet.
- Polymath – Polymath nutzt maschinelles Lernen, um jede Musikbibliothek (z. B. von der Festplatte oder YouTube) in eine Sample-Bibliothek für die Musikproduktion umzuwandeln. Das Tool unterteilt Songs automatisch in Notenhälse (Beats, Bass usw.), quantisiert sie auf das gleiche Tempo und Beat-Grid (z. B. 120 BPM) und analysiert die musikalische Struktur (z. B. Strophe, Refrain usw.) sowie die Tonart (z. B. C4, E3). usw.) und andere Informationen (Klangfarbe, Lautstärke usw.) und wandelt Audio in Midi um. Das Ergebnis ist eine durchsuchbare Beispielbibliothek, die den Arbeitsablauf für Musikproduzenten, DJs und ML-Audioentwickler optimiert.
- IPython – IPython bietet ein umfangreiches Toolkit, mit dem Sie die interaktive Nutzung von Python optimal nutzen können.
- Torchaudio – eine Audiobibliothek für PyTorch. Datenmanipulation und -transformation für die Audiosignalverarbeitung, unterstützt von PyTorch.
- TorchLibrosa – PyTorch-Implementierung von Librosa.
- Torch-Audiomentations – Schnelle Audiodatenerweiterung in PyTorch. Inspiriert von Audiomentationen. Nützlich für tiefes Lernen.
- PyTorch Audio Augmentations – Audiodaten-Erweiterungsbibliothek für PyTorch für Audio im Zeitbereich.
- Asteroid – Asteroid ist ein Pytorch-basiertes Toolkit zur Audioquellentrennung, das schnelles Experimentieren mit gängigen Datensätzen ermöglicht. Es enthält einen Quellcode, der eine Vielzahl von Datensätzen und Architekturen unterstützt, sowie eine Reihe von Rezepten zur Reproduktion einiger wichtiger Veröffentlichungen.
- Kapre - Kapre: Keras Audio-Präprozessoren. Keras Audio-Präprozessoren – berechnen STFT, InverseSTFT, Melspectrogram und andere in GPU-Echtzeit.
- paudio – Audio-Vorverarbeitungs-Framework für Deep-Learning-Audioanwendungen.
- automix-toolkit – Modelle und Datensätze zum Trainieren von automatischen Deep-Learning-Mischmodellen.
- DeepAFx - DeepAFx: Tiefe Audioeffekte. Audiosignalverarbeitungseffekte (FX) werden verwendet, um Klangeigenschaften in einer Vielzahl von Medien zu manipulieren. Viele Effekte können jedoch schwierig oder mühsam zu bedienen sein, insbesondere für Anfänger. Ziel unserer Arbeit ist es, die Verwendung von Audioeffekten zu vereinfachen, indem wir einer Maschine beibringen, Effekte direkt zu verwenden und automatische Audioproduktionsaufgaben auszuführen. Durch die Verwendung bekannter und vorhandener Tools zur Verarbeitung und zum Vorschlagen von Steuerungsparametern können wir ein einzigartiges Paradigma schaffen, das die Leistungsfähigkeit der KI mit der kreativen Kontrolle des Menschen verbindet, um Schöpfern die Macht zu geben.
- nnAudio – nnAudio ist eine Audioverarbeitungs-Toolbox, die das Faltungs-Neuronale Netzwerk PyTorch als Backend verwendet. Auf diese Weise können während des neuronalen Netzwerktrainings spontan Spektrogramme aus Audio generiert und die Fourier-Kernel (z. B. CQT-Kernel) trainiert werden.
- WavEncoder – WavEncoder ist eine Python-Bibliothek zum Kodieren von Audiosignalen, Transformationen zur Audioerweiterung und zum Trainieren von Audioklassifizierungsmodellen mit dem PyTorch-Backend.
- SciPy – SciPy (ausgesprochen „Sigh Pie“) ist eine Open-Source-Software für Mathematik, Naturwissenschaften und Ingenieurwesen. Es umfasst Module für Statistik, Optimierung, Integration, lineare Algebra, Fourier-Transformationen, Signal- und Bildverarbeitung, ODE-Löser und mehr.
- pyAudioAnalysis – Python-Audioanalysebibliothek: Merkmalsextraktion, Klassifizierung, Segmentierung und Anwendungen.
- Mutagen – Mutagen ist ein Python-Modul zur Verarbeitung von Audio-Metadaten. Es unterstützt ASF-, FLAC-, MP4-, Monkey's Audio-, MP3-, Musepack-, Ogg Opus-, Ogg FLAC-, Ogg Speex-, Ogg Theora-, Ogg Vorbis-, True Audio-, WavPack-, OptimFROG- und AIFF-Audiodateien. Alle Versionen von ID3v2 werden unterstützt und alle Standard-ID3v2.4-Frames werden analysiert. Es kann Xing-Header lesen, um die Bitrate und Länge von MP3s genau zu berechnen. ID3- und APEv2-Tags können unabhängig vom Audioformat bearbeitet werden. Es kann auch Ogg-Streams auf der Ebene einzelner Pakete/Seiten manipulieren.
- LibXtract – LibXtract ist eine einfache, portable und leichte Bibliothek mit Funktionen zur Audio-Feature-Extraktion. Der Zweck der Bibliothek besteht darin, einen relativ umfassenden Satz von Merkmalsextraktionsprimativen bereitzustellen, die so konzipiert sind, dass sie „kaskadiert“ werden, um Extraktionshierarchien zu erstellen.
- dejavu – Audio-Fingerprinting und -Erkennung in Python. Dejavu kann sich Audiodaten merken, indem es sie einmal anhört und einen Fingerabdruck davon macht. Indem Dejavu dann einen Song abspielt und Mikrofoneingaben aufzeichnet oder von der Festplatte liest, versucht er, den Ton mit den in der Datenbank gespeicherten Fingerabdrücken abzugleichen, und gibt so den gerade abgespielten Song zurück.
- Matchering – ?️ Open Source Audio Matching und Mastering. Matchering 2.0 ist eine neuartige Container-Webanwendung und Python-Bibliothek für Audio-Matching und -Mastering.
- TimeSide – TimeSide ist ein Python-Framework, das Audioanalyse, Bildgebung, Transkodierung, Streaming und Beschriftung auf niedriger und hoher Ebene ermöglicht. Seine High-Level-API ist darauf ausgelegt, mit einer Plug-in-Architektur, einem sicheren skalierbaren Backend und einem erweiterbaren dynamischen Web-Frontend eine komplexe Verarbeitung sehr großer Datensätze beliebiger Audio- oder Video-Assets zu ermöglichen.
- Meyda – Meyda ist eine Javascript-Bibliothek zur Extraktion von Audiofunktionen. Meyda unterstützt sowohl die Offline-Feature-Extraktion als auch die Echtzeit-Feature-Extraktion mithilfe der Web-Audio-API. Wir haben einen Artikel darüber geschrieben, der hier verfügbar ist.
- Audiomentations – Eine Python-Bibliothek zur Audiodatenerweiterung. Inspiriert von Albumentationen. Nützlich für tiefes Lernen. Läuft auf der CPU. Unterstützt Mono-Audio und Mehrkanal-Audio. Kann in Trainingspipelines integriert werden, z. B. in Tensorflow/Keras oder Pytorch. Hat Menschen dabei geholfen, bei Kaggle-Wettbewerben erstklassige Ergebnisse zu erzielen. Wird von Unternehmen verwendet, die Audioprodukte der nächsten Generation herstellen.
- soundata – Python-Bibliothek zum Herunterladen, Laden und Arbeiten mit Sound-Datensätzen.
- auraloss – Eine Sammlung audiofokussierter Verlustfunktionen in PyTorch.
- Neutone – KI-Audio-Plugin und Community. Überbrückung der Lücke zwischen KI-Forschung und Kreativität
- Waveformer – Eine effiziente Architektur für die Zielklangextraktion in Echtzeit.
- EfficientAT – Effizientes groß angelegtes Audio-Tagging. Wir stellen vorab trainierte AudioSet-Modelle bereit, die für das nachgelagerte Training und die Extraktion von Audioeinbettungen bereit sind.
- EfficientAT_HEAR – Bewerten Sie EfficientAT-Modelle anhand des Holistic Evaluation of Audio Representations Benchmark.
- VAD-python – Sprachaktivitätsdetektor in Python. Python-Code zum Anwenden des Sprachaktivitätsdetektors auf die Wave-Datei. Sprachaktivitätsdetektor basierend auf dem Verhältnis zwischen Energie im Sprachband und Gesamtenergie.
- Diffsynth – Ein differenzierbarer Musiksynthesizer in PyTorch.
- Echtzeit-DDSP – Echtzeit-DDSP (Streaming) in PyTorch, kompatibel mit Neuton.
- pc-ddsp – Tonhöhensteuerbare DDSP-Vocoder.
- SSSSM-DDSP – Halbüberwachte Synthesizer-Klanganpassung mit differenzierbarem DSP.
- GOLF – Ein DDSP-basierter neuronaler Vocoder.
- audacitorch – PyTorch-Wrapper für die Verwendung Ihres Modells in Audacity!
- Scyclone – Scyclone ist ein Audio-Plugin, das neuronale Klangfarbenübertragungstechnologie nutzt, um einen neuen Ansatz für die Audioproduktion zu bieten.
- Scyclone AI – Erstellen Sie Voreinstellungen für Scyclone: ein Echtzeit-Plug-in für die Übertragung neuronaler Klangfarben.
- Automatische Multi-Task-Synthesizer-Programmierung – Dies ist der Code für das Multi-VST-Programm zur automatischen Synthesizer-Programmierung.
- NeuralNote – Audio-Plugin für die Audio-zu-MIDI-Transkription mithilfe von Deep Learning.
- AudioDec – Ein Open-Source-Streaming-High-Fidelity-Neural-Audio-Codec.
- PaSST – Effizientes Training von Audiotransformatoren mit Patchout.
- speech_data_augment – Eine Zusammenfassung der Algorithmen zur Sprachdatenerweiterung.
- AugLy – Eine Datenerweiterungsbibliothek für Audio, Bild, Text und Video.
- NeuraFuzz – Neuronales Audio-Plugin, das auf dem Design benutzerdefinierter analoger Fuzz-Schaltungen trainiert wurde.
- Ultimative Vocal Remover-GUI – GUI für einen Vocal Remover, der Deep Neural Networks verwendet.
- Frechet Audio Distance – Eine leichtgewichtige Bibliothek zur Berechnung der Frechet Audio Distance.
- LAPE – Ein einheitliches Framework für die ressourcenschonende Audioverarbeitung und -bewertung (SSL-Vortraining und Downstream-Feinabstimmung).
- Azure SDK für Python – Dieses Repository dient der aktiven Entwicklung des Azure SDK für Python.
- Panotti – Ein Mehrkanal-Audioklassifikator für neuronale Netzwerke, der Keras verwendet.
- Allie – Allie ist ein Framework zum Erstellen von Modellen für maschinelles Lernen aus Audio-, Text-, Bild-, Video- oder CSV-Dateien.
- Torchplugins – Max/MSP-, PureData- und Unity-Plugins zum Laden von Pytorch-Modellen.
- aeiou – (ML) Audio-Engineering-I/O-Dienstprogramme.
- BirdNET-Analyzer – BirdNET-Analysator für die wissenschaftliche Audiodatenverarbeitung.
- spring-reverb-dl-models – Virtuelle analoge Modellierung des Federhalls mit Deep Learning.
- EVAR ~ - EVAR ~ Evaluierungspaket für Audiodarstellungen.
- Julius – Schneller PyTorch-basierter DSP für Audio- und 1D-Signale.
- NeuralDX7 – Zufällige maschinelle Lernexperimente im Zusammenhang mit dem klassischen Yamaha DX7.
- HANCE – HANCE bietet hochwertige Signalverarbeitungstechniken, die von Spezialisten für maschinelles Lernen, Toningenieuren und Audioverarbeitungsexperten entwickelt wurden. Unsere Technologie ist darauf ausgelegt, Benutzern das bestmögliche Audioerlebnis zu bieten, indem Rauschen, Hall und andere Signalbeeinträchtigungen entfernt werden.
- IDEAW – Robustes neuronales Audio-Wasserzeichen mit invertierbarer Dual-Embedding.
- SyNEThesia – SyNEThesia ist ein Deep-Learning-basierter Musik- und Klangvisualisierer und ein Wortspiel über Synästhesie, eine neurologische Erkrankung, bei der man einen Reiz auf unterschiedliche Weise wahrnimmt (zum Beispiel durch das Sehen von Geräuschen).
- Voxaboxen – Voxaboxen ist ein Deep-Learning-Framework, das entwickelt wurde, um die Start- und Stoppzeiten von (möglicherweise überlappenden) Klangereignissen in einer Aufnahme zu finden.
- Vocal-Separate – Ein äußerst einfaches Tool zum Trennen von Gesang und Hintergrundmusik, vollständig lokalisiert für den Webbetrieb, unter Verwendung von 2stems/4stems/5stems-Modellen.
- Sprachverbesserung – Deep Learning zur Audio-Rauschunterdrückung.
- SNAC – Multi-Scale Neural Audio Codec (SNAC) komprimiert 44,1-kHz-Audio in diskrete Codes mit einer niedrigen Bitrate.
- Supervoice GPT – Ein GPT-Modell, das Text in Phoneme mit einer Dauer umwandelt, die für die Einspeisung in einen Sprachsynthesizer geeignet ist.
- AudioEditing – Zero-Shot unbeaufsichtigte und textbasierte Audiobearbeitung mit DDPM-Inversion.
- MAX-Audio-Classifier – IBM Developer Model Asset Exchange: Audio-Classifier.
- anira – eine Architektur für neuronale Netzwerkinferenz in Echtzeit-Audioanwendungen.
- FakeSound – Allgemeine Deepfake-Audioerkennung.
- Audio Mamba – Bidirektionales Zustandsraummodell für das Lernen der Audiodarstellung.
- SSAMBA – SSAMBA: Selbstüberwachtes Lernen der Audiodarstellung mit dem Mamba State Space Model.
- SLAM-LLM – SLAM-LLM ist ein Deep-Learning-Toolkit, das es Forschern und Entwicklern ermöglicht, ein benutzerdefiniertes multimodales Large Language Model (MLLM) zu trainieren, das sich auf die Verarbeitung von Sprache, Sprache, Audio und Musik konzentriert.
- MIDI2vec – MIDI2vec: Einbettungen für MIDI-Vektorraumdarstellungen lernen.
^ Zurück zum Inhalt ^
Audioerzeugung (AG)
- AudioLCM – Text-to-Audio-Generierung mit latenten Konsistenzmodellen.
- Auffusion – Auffusion: Nutzung der Kraft der Diffusion und großer Sprachmodelle für die Text-zu-Audio-Generierung.
- Audiobox – Audiobox: Einheitliche Audiogenerierung mit Eingabeaufforderungen in natürlicher Sprache.
- Amphion – Amphion: Ein Open-Source-Toolkit zur Audio-, Musik- und Sprachgenerierung.
- Nendo – Die Nendo AI Audio Tool Suite.
- Stabiles Audio – Schnelle, zeitbedingte latente Audiodiffusion.
- WavJourney – Kompositionelle Audio-Erstellung mit großen Sprachmodellen.
- Audiocraft – Audiocraft ist eine PyTorch-Bibliothek für Deep-Learning-Forschung zur Audioerzeugung.
- vschaos2 – vschaos2: Vintage neuronale Audiosynthese.
- Neuronaler Resonator – Starrkörper-Klangsynthese mit differenzierbaren Modalresonatoren.
- SoundStorm - SoundStorm: Effiziente parallele Audioerzeugung.
- SpeechGPT – SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen modalübergreifenden Konversationsfähigkeiten.
- CLAPSpeech - CLAPSpeech: Erlernen der Prosodie aus dem Textkontext mit kontrastivem Sprach-Audio-Vortraining.
- AudioGPT – AudioGPT: Sprache, Musik, Ton und sprechenden Kopf verstehen und erzeugen.
- Bark – Bark ist ein transformatorbasiertes Text-to-Audio-Modell, das von Suno entwickelt wurde. Bark kann äußerst realistische, mehrsprachige Sprache sowie andere Audioinhalte erzeugen – einschließlich Musik, Hintergrundgeräuschen und einfachen Soundeffekten.
- TANGO – TANGO ist ein latentes Diffusionsmodell (LDM) für die Text-to-Audio (TTA)-Generierung. TANGO kann aus Textaufforderungen realistische Audiodateien erzeugen, darunter menschliche Geräusche, Tiergeräusche, natürliche und künstliche Geräusche sowie Soundeffekte.
- ArchiSound – Audioerzeugung mithilfe von Diffusionsmodellen in PyTorch.
- WaveGAN – WaveGAN: Lernen Sie, Rohaudio mit generativen gegnerischen Netzwerken zu synthetisieren.
- NeuralSound – Lernbasierte modale Klangsynthese mit akustischer Übertragung.
- RAVE - RAVE: Echtzeit-Audio-Variations-AutoEncoder. Ein Variations-Autoencoder für eine schnelle und hochwertige neuronale Audiosynthese.
- AudioLDM – AudioLDM: Text-to-Audio-Generierung mit latenten Diffusionsmodellen.
- Make-An-Audio - Make-An-Audio: Text-To-Audio-Generierung mit Prompt-Enhanced Diffusion-Modellen.
- Make-An-Audio 3 - Make-An-Audio 3: Text in Audio über flussbasierte Large Diffusion Transformers umwandeln.
- Moûsai - Moûsai: Text-to-Audio mit latenter Langkontextdiffusion.
- Im2Wav – Bildgesteuerte Audioerzeugung. Wir schlagen Im2Wav vor, ein bildgesteuertes Open-Domain-Audioerzeugungssystem. Ausgehend von einem Eingabebild oder einer Bildfolge erzeugt Im2Wav einen semantisch relevanten Ton.
- Oobleck – offene Soundstream-VAE-Codecs für die nachgeschaltete neuronale Audiosynthese.
- USS – Dies ist die PyTorch-Implementierung der Universal Source Separation mit schwach gekennzeichneten Daten. Das USS-System kann Geräuschklassen automatisch aus einer echten Aufnahme erkennen und trennen. Das USS-System kann bis zu Hunderte von Klangklassen in einer hierarchischen Ontologiestruktur trennen.
- Diffusoren - ? Diffusers ist die Anlaufstelle für hochmoderne vortrainierte Diffusionsmodelle zur Erzeugung von Bildern, Audio und sogar 3D-Strukturen von Molekülen.
- ONE-PEACE – Ein allgemeines Darstellungsmodalität über Bild-, Audio- und Sprachmodalitäten hinweg.
- tiny-audio-diffusion – Dies ist ein Repository zum Generieren kurzer Audio-Samples und zum Trainieren von Wellenform-Diffusionsmodellen auf einer GPU mit weniger als 2 GB VRAM.
- Stable-Audio-Tools – Generative Modelle für die bedingte Audiogenerierung.
- CTAG – Kreative Text-to-Audio-Generierung über Synthesizer-Programmierung.
- Audiogen-Codec – Ein 48-kHz-Stereo-Neuronal-Audio-Codec mit geringer Komprimierung für allgemeines Audio, der die Audio-Wiedergabetreue optimiert.
- WavCraft – WavCraft ist ein KI-Agent für die Audioerstellung und -bearbeitung.
- FoleyCrafter - FoleyCrafter: Erwecken Sie stumme Videos mit lebensechten und synchronisierten Sounds zum Leben.
^ Zurück zum Inhalt ^
Audiosignalverarbeitung (ASP)
- SouPyX – SouPyX ist ein sehr farbenfroher Raum für die Audio-Erkundung, der sich für die Forschung und Erkundung in einer Vielzahl von Audio-Bereichen eignet. In SouPyX können Sie Forschung und Erkundung in den Bereichen Audioverarbeitung, Klangsynthese, Audioeffekte, räumliches Audio, Audiovisualisierung, KI-Audio und vieles mehr durchführen.
- SoundFile – SoundFile ist eine Audiobibliothek basierend auf libsndfile, CFFI und NumPy.
- Audio DSPy – audio_dspy ist ein Python-Paket für Tools zur Audiosignalverarbeitung.
- pyAudioDspTools – pyAudioDspTools ist ein Python-3-Paket zum Bearbeiten von Audio durch einfache Verwendung von Numpy.
- wave – Das Wave-Modul bietet eine praktische Schnittstelle zum WAV-Soundformat. Es unterstützt keine Komprimierung/Dekomprimierung, aber Mono/Stereo.
- FFmpeg – FFmpeg ist eine Sammlung von Bibliotheken und Tools zur Verarbeitung von Multimedia-Inhalten wie Audio, Video, Untertiteln und zugehörigen Metadaten.
- Opus – Moderne Audiokomprimierung für das Internet.
- Pedalboard – Pedalboard ist eine Python-Bibliothek zum Arbeiten mit Audio: Lesen, Schreiben, Hinzufügen von Effekten und mehr. Es unterstützt die gängigsten Audiodateiformate und eine Reihe gängiger Audioeffekte und ermöglicht außerdem die Verwendung von VST3- und Audio Unit-Formaten für Plugins von Drittanbietern.
- PyAudio – PyAudio bietet Python-Bindungen für PortAudio v19, die plattformübergreifende Audio-I/O-Bibliothek. Mit PyAudio können Sie Python problemlos zum Abspielen und Aufzeichnen von Audio auf verschiedenen Plattformen wie GNU/Linux, Microsoft Windows und Apple macOS verwenden.
- PortAudio – PortAudio ist eine kostenlose, plattformübergreifende Open-Source-Audio-I/O-Bibliothek. Sie können damit einfache Audioprogramme in „C“ oder C++ schreiben, die auf vielen Plattformen kompiliert und ausgeführt werden können, darunter Windows, Macintosh OS X und Unix (OSS/ALSA). Es soll den Austausch von Audiosoftware zwischen Entwicklern auf verschiedenen Plattformen fördern. Viele Anwendungen verwenden PortAudio für Audio-I/O.
- Pyo – Pyo ist ein in C geschriebenes Python-Modul, das die Erstellung von Skripten für die digitale Signalverarbeitung unterstützt. Python-DSP-Modul. Mit pyo können Benutzer Signalverarbeitungsketten direkt in Python-Skripte oder -Projekte einbinden und diese in Echtzeit über den Interpreter bearbeiten
- tinytag – tinytag ist eine Bibliothek zum Lesen von Musik-Metadaten der gängigsten Audiodateien in reinem Python. Lesen Sie Audio- und Musik-Metadaten und die Dauer von MP3-, OGG-, OPUS-, MP4-, M4A-, FLAC-, WMA-, Wave- und AIFF-Dateien mit Python 2 oder 3.
- Friture – Friture ist eine Anwendung zur Visualisierung und Analyse von Live-Audiodaten in Echtzeit. Friture zeigt Audiodaten in mehreren Widgets an, beispielsweise einem Oszilloskop, einem Spektrumanalysator oder einem rollierenden 2D-Spektrogramm.
- sounddevice – Dieses Python-Modul stellt Bindungen für die PortAudio-Bibliothek und einige praktische Funktionen zum Abspielen und Aufzeichnen von NumPy-Arrays mit Audiosignalen bereit.
- Pydub – Bearbeiten Sie Audio mit einer einfachen und benutzerfreundlichen Benutzeroberfläche.
- NAudio – Audio- und MIDI-Bibliothek für .NET.
- SoundCard – SoundCard ist eine Bibliothek zum Abspielen und Aufzeichnen von Audio, ohne auf eine CPython-Erweiterung zurückgreifen zu müssen. Stattdessen wird es mithilfe des wunderbaren CFFI und der nativen Audiobibliotheken von Linux, Windows und macOS implementiert.
- TarsosDSP – TarsosDSP ist eine Java-Bibliothek für die Audioverarbeitung. Ziel ist es, eine benutzerfreundliche Schnittstelle zu praktischen Musikverarbeitungsalgorithmen bereitzustellen, die möglichst einfach in reinem Java und ohne weitere externe Abhängigkeiten implementiert ist.
- Maximilian – Maximilian ist eine plattformübergreifende und zielgerichtete Audiosynthese- und Signalverarbeitungsbibliothek. Es wurde in C++ geschrieben und stellt Bindungen zu Javascript bereit.
- Das Synthesis ToolKit in C++ (STK) – Das Synthesis ToolKit in C++ (STK) ist eine Reihe von Open-Source-Klassen für Audiosignalverarbeitung und algorithmische Synthese, die in der Programmiersprache C++ geschrieben sind.
- JUCE – JUCE ist ein plattformübergreifendes Open-Source-C++-Anwendungsframework zur Erstellung hochwertiger Desktop- und Mobilanwendungen, einschließlich VST-, VST3-, AU-, AUv3-, AAX- und LV2-Audio-Plug-Ins und Plug-In-Hosts. JUCE lässt sich einfach über CMake in bestehende Projekte integrieren oder über den Projucer als Projektgenerierungstool verwenden, das den Export von Projekten für Xcode (macOS und iOS), Visual Studio, Android Studio, Code::Blocks und Linux Makefiles unterstützt sowie einen Quellcode-Editor enthalten.
- iPlug 2 – C++ Audio Plug-in Framework für Desktop, Mobilgeräte und Web.
- CHOC – Eine Sammlung von Nur-Header-Klassen mit freizügiger Lizenz, um grundlegende nützliche Aufgaben mit einem Minimum an Abhängigkeiten bereitzustellen.
- Q – Q ist eine plattformübergreifende C++-Bibliothek für die digitale Audiosignalverarbeitung. Passenderweise nach dem „Q-Faktor“ benannt, einem dimensionslosen Parameter, der die Qualität eines Resonanzkreises beschreibt, ist die Q DSP-Bibliothek einfach und elegant konzipiert, wie der schlichte Name schon sagt, und effizient genug, um auf kleinen Mikrocontrollern zu laufen.
- BasicDSP – BasicDSP – Ein Tool zur Audioverarbeitung / zum Experimentieren mit der Signalverarbeitung.
- DaisySP – Eine leistungsstarke Open-Source-DSP-Bibliothek in C++.
- Speech Signal Processing Toolkit (SPTK) – Das Speech Signal Processing Toolkit (SPTK) ist eine Suite von Sprachsignalverarbeitungstools für UNIX-Umgebungen, z. B. LPC-Analyse, PARCOR-Analyse, LSP-Analyse, PARCOR-Synthesefilter, LSP-Synthesefilter, Vektorquantisierungstechniken und andere erweiterte Versionen davon.
- eDSP – eDSP (easy Digital Signal Processing) ist ein in modernem C++ geschriebenes Framework für die digitale Signalverarbeitung, das einige der allgemeinen Funktionen und Algorithmen implementiert, die häufig in digitalen Signalverarbeitungs-, Audiotechnik- und Telekommunikationssystemen verwendet werden.
- KFR – KFR ist ein Open-Source-C++-DSP-Framework, das sich auf hohe Leistung konzentriert. Schnelles, modernes C++-DSP-Framework, FFT, Abtastratenkonvertierung, FIR/IIR/Biquad-Filter (SSE, AVX, AVX-512, ARM NEON).
- MWEngine – Audio-Engine und DSP für Android, geschrieben in C++, bietet Leistung mit geringer Latenz in einem musikalischen Kontext und bietet gleichzeitig eine Java/Kotlin-API. Unterstützt sowohl OpenSL als auch AAudio.
- LabSound – LabSound ist eine C++-graphbasierte Audio-Engine. Die Engine ist als batteriebetriebene statische Bibliothek verpackt, die für die Integration in viele Arten von Software gedacht ist: Spiele, Visualisierer, interaktive Installationen, Live-Coding-Umgebungen, VST-Plugins, Audiobearbeitungs-/Sequenzierungsanwendungen und mehr.
- Gist – Gist ist eine C++-basierte Audioanalysebibliothek.
- Realtime_PyAudio_FFT – Echtzeit-Audioanalyse in Python mit PyAudio und Numpy zum Extrahieren und Visualisieren von FFT-Funktionen aus Streaming-Audio.
- Spektrum – Spektralanalyse in Python. Spectrum ist eine Python-Bibliothek, die Werkzeuge zur Schätzung der spektralen Leistungsdichten basierend auf Fourier-Transformation, parametrischen Methoden oder Eigenwertanalyse enthält. Die Fourier-Methoden basieren auf Korrelogramm-, Periodogramm- und Welch-Schätzungen. Standardmäßige konische Fenster (Hann, Hamming, Blackman) und exotischere Fenster sind verfügbar (DPSS, Taylor, …).
- tidstream – Tools zum Generieren und Bearbeiten von Live-Vorbis- und Opus-Streams.
- AudioTraits – AudioTraits ist eine Abstraktion, die das Testen der Audioverarbeitung komfortabler und lesbarer machen soll. Ein „Audio-Merkmal“ analysiert ein bestimmtes Audiosignal (einige oder alle seiner Kanäle) und prüft auf eine bestimmte Eigenschaft. Das Ergebnis dieser Prüfung ist boolesch, was eine einfache Integration in jedes Unit-Test-Framework ermöglicht.
- genMDM Editor – Eine webbasierte Schnittstelle für genMDM, einen MIDI-Controller für Sega Mega Drive und Genesis. Unterstützt auch die Mega Drive MIDI-Schnittstelle.
- 3DAudioVisualizers – Eine OpenGL Audio Visualizer-Suite in C++ mit JUCE für Audio und GUI.
- AudioStretchy – AudioStretchy ist eine Python-Bibliothek, mit der Sie Audiosignale zeitlich strecken können, ohne ihre Tonhöhe zu ändern.
- SwiftAudio – SwiftAudioEx ist ein in Swift geschriebener iOS-Audioplayer, der die Arbeit mit der Audiowiedergabe von Streams und Dateien vereinfacht.
- WaveTools – WaveTools ist ein Framework zum Bearbeiten von Audiodateien; Insbesondere WAVE-Dateien (.wav).
- SimplyCoreAudio - ? Ein Swift-Framework, das darauf abzielt, die Verwendung von Core Audio in macOS weniger mühsam zu gestalten.
- DPF – DISTRHO-Plugin-Framework. DPF wurde entwickelt, um die Entwicklung neuer Plugins zu einer einfachen und unterhaltsamen Aufgabe zu machen.
- Neural Amp Modeler Plug-in – Ein VST3/AudioUnit Plug-in für Neural Amp Modeler, erstellt mit iPlug2.
- lsp-dsp-lib – DSP-Bibliothek für die Signalverarbeitung.
- Hip-Hop – Bibliothek zum Schreiben von Audio-Plugins, die die Benutzeroberfläche in einer Webansicht ausführen. Basierend auf DPF.
- MGT-python – Musikgesten-Toolbox für Python.
- ASP – Python-Tools zur Audiosignalverarbeitung.
- TinyAudio – TinyAudio ist eine plattformübergreifende Audioausgabebibliothek.
- pymixconsole – Headless Mehrspur-Mischkonsole in Python.
- effects-plugin – Eine Audioeffekt-Plugin-Vorlage mit Elementary und JUCE.
- miniaudio – In C geschriebene Audiowiedergabe- und Aufnahmebibliothek in einer einzigen Quelldatei.
- AudioMass – Kostenloses webbasiertes Audio- und Wellenformbearbeitungstool mit vollem Funktionsumfang.
- Universal Android Music Player Sample – Eine Beispiel-Audio-App für Android.
- jsfx – Eine kostenlose Sammlung von JS-Plugins (JesuSonic) für Reaper.
- Fourier – Schnelle Fourier-Transformationen (FFTs) in Rust.
- ProtoFaust – DSP-Prototyping in Faust für den modularen Synthesizer VCV Rack.
- Polar – Audio-Engine für die CUDA-Verarbeitung (Windows/Linux).
- Audio-zu-MIDI-Konverter – Programm zur Tonhöhenerkennung aus WAV-Dateien und zum Schreiben zeitquantisierter MIDI-Daten.
- AudioTSM – AudioTSM ist eine Python-Bibliothek für Verfahren zur Änderung der Audio-Zeitskala in Echtzeit, dh Algorithmen, die die Geschwindigkeit eines Audiosignals ändern, ohne seine Tonhöhe zu ändern.
- Multi-Filter-Delay – Ein originaler digitaler Audioeffekt, programmiert über Juce/C++.
- convoLV2 – convoLV2 ist ein LV2-Plugin zum Falten von Audiosignalen ohne Latenz.
- Cloud Seed – Cloud Seed ist ein in C# und C++ erstelltes algorithmisches Hall-Plugin zur Emulation riesiger, endloser Räume und modulierter Echos.
- Hintergrundmusik – Hintergrundmusik, ein macOS-Audiodienstprogramm: Pausieren Sie Ihre Musik automatisch, stellen Sie die Lautstärke einzelner Apps ein und zeichnen Sie Systemaudio auf.
- audiowaveform – C++-Programm zum Generieren von Wellenformdaten und Rendern von Wellenformbildern aus Audiodateien.
- Mutagen – Python-Modul zur Verarbeitung von Audio-Metadaten.
- lewton – Vorbis-Decoder, geschrieben in reinem Rust.
- Hound – Eine WAV-Kodierungs- und Dekodierungsbibliothek in Rust.
- rodio – Rust-Audiowiedergabebibliothek.
- CPAL – Plattformübergreifende Audio-I/O-Bibliothek in reinem Rust.
- CSCore – CSCore ist eine kostenlose .NET-Audiobibliothek, die vollständig in C# geschrieben ist.
- TinyOSC – Eine minimale Open Sound Control (OSC)-Bibliothek, geschrieben in Vanilla C.
- TinyWav – Eine minimale C-Bibliothek zum Lesen und Schreiben (16b-int & 32b-float) WAV-Audiodateien.
- JAsioHost – Ein Java-basierter (Audio Stream Input/Output) ASIO-Host.
- PyWavelets – PyWavelets ist eine kostenlose Open-Source-Bibliothek für Wavelet-Transformationen in Python. Wavelets sind mathematische Basisfunktionen, die sowohl in der Zeit als auch in der Frequenz lokalisiert sind.
- ChowMultiTool – Multi-Tool-Audio-Plugin.
- RE201models – Digitale Modelle des Roland RE201. VST3, AU-Plugins und Quellcode.
- RtAudio – Eine Reihe von C++-Klassen, die eine gemeinsame API für die Echtzeit-Audioeingabe/-ausgabe unter Linux (natives ALSA, JACK, PulseAudio und OSS), Macintosh OS X (CoreAudio und JACK) und Windows (DirectSound, ASIO und WASAPI) bereitstellen. Betriebssysteme.
- RtAudio-rs – Safe Rust Wrapper und Bindungen an RtAudio.
- PFFFT – Eine ziemlich schnelle FFT und schnelle Faltung mit PFFASTCONV.
- SHAART - SHAART ist ein Python-basiertes Audioanalyse-Toolkit für Bildungszwecke.
- TD-JUCE – JUCE-Audio und VSTs in TouchDesigner.
- JIVE – JIVE ist ein Bündel von JUCE-Modulen, bei dem der Wunsch nach einem moderneren Ansatz für die UI-Entwicklung im Mittelpunkt steht.
- Amplituda – Amplituda – eine auf FFMPEG basierende Android-Bibliothek, die Audiodateien verarbeitet und eine Reihe von Samples bereitstellt.
- TagLib – TagLib Audio-Metadatenbibliothek.
- speexdsp – Speex Echo Canceller Python-Bibliothek.
- PyPam – Python Passive Acoustic Analysis Tool für Passive Acoustic Monitoring (PAM).
- AudioTools – Objektorientierte Verarbeitung von Audiodaten, mit GPU-gestützten Erweiterungen und mehr.
- Equalize It – Das Projekt ist ein VST-Plugin für die Entzerrung. Die Benutzeroberfläche umfasst einen Spektrumanalysator, ein Filterbedienfeld, Frequenzgangkurven und Pegelmesser.
- JDSP4Linux – Ein Audioeffektprozessor für PipeWire- und PulseAudio-Clients.
- FIRconv – Python-Implementierungen von FIR-Filtern (Finite Impulse Response).
- OpenDSP – Headless Linux eingebettetes Echtzeit-Betriebssystem für Audio- und Video-DSP.
- ultralight-juce – Integration des Ultralight C++/HTML-Renderers mit JUCE für schönere Benutzeroberflächen.
- Vult – Vult ist besonders nützlich bei der Programmierung von DSP-Algorithmen (Digital Signal Processing) wie Audioeffekten oder Synthesizern.
- CloudSeed [JUCE] – JUCE-basierte Benutzeroberfläche für das CloudSeed VST-Plugin.
- TFliteTemplatePlugin – JUCE-Vorlagen-Plugins zur Verwendung von TensorFlow Lite für Deep-Learning-Inferenz.
- DrumFixer – DrumFixer ist ein Audio-Plugin, das Mischtechnikern dabei helfen soll, besser klingende Drums zu erzielen.
- BasicAudioPlayer – Eine Swift-Bibliothek, die die Erstellung von AVAudioEngine-basierten Audioplayern erleichtert.
- PLAudioMixer – Einfacher Audiomixer basierend auf dem Offline-Rendering-Modus von AVAudioEngine.
- estratto – Estratto ist eine leistungsstarke und benutzerfreundliche Rust-Bibliothek, die zum Extrahieren umfangreicher Audiofunktionen aus digitalen Audiosignalen entwickelt wurde.
- vampy – Ein Wrapper, der es ermöglicht, Vamp-Audioanalyse-Plugins in Python zu schreiben.
- SoundWave – SoundWave ist eine anpassbare Ansicht, die Klänge im Zeitverlauf darstellt.
- PyAV – PyAV ist eine Pythonic-Bindung für die FFmpeg-Bibliotheken.
- audio-dsp – Herumspielen mit der Entwicklung von Audio-Plugins + DSP.
- openSMILE – openSMILE (Open-Source Speech and Music Interpretation by Large-space Extraction) ist ein vollständiges Open-Source-Toolkit für die Audioanalyse, -verarbeitung und -klassifizierung, das speziell auf Sprach- und Musikanwendungen ausgerichtet ist.
- Carla – Carla ist ein voll ausgestatteter Audio-Plugin-Host mit Unterstützung für viele Audiotreiber und Plugin-Formate.
- JUCE-HEAVY – Vorlage für ein JUCE-Projekt, das zeigt, wie JUCE mit von Heavy C++ (HVCC) generierten Quelldateien verbunden wird.
- Dplug – Audio-Plugin-Framework. VST2/VST3/AU/AAX/LV2 für Linux/macOS/Windows.
- DAWNet – Das DAWNet ist ein DAW-Plugin (Digit Audio Workstation), das eine Verbindung zu einem entfernten Google Colab oder Script herstellt.
- Fish Audio Preprocessor – Audio für das Training vorverarbeiten.
- clap-validator – Ein automatisches CLAP-Validierungs- und Testtool.
- DSP-Testbench – Eine DSP-Testbench für Benutzer des JUCE-Frameworks.
- Coupler – Coupler ist ein Framework zum Schreiben von Audio-Plugins in Rust. Derzeit werden die VST3- und CLAP-APIs unterstützt. In naher Zukunft ist die Unterstützung von AUv2 und AAX geplant.
- PyOgg – PyOgg bietet Python-Bindungen für die Audiodateiformate Opus, Vorbis und FLAC von Xiph.org sowie deren Ogg-Containerformat.
- streamlit-audiorecorder – Ein Audiorecorder für Streamlit.
- DtBlkFx – DtBlkFx ist ein auf Fast-Fourier-Transformation (FFT) basierendes VST-Plug-in.
- Smartelectronix - Open Source -Versionen aller Bram @ Smartelectronix -Plugins.
- Cookiejuce - Ein Befehlszeilen -Tool zur Erzeugung moderner Juce -Projekte mit CMake.
- Auglib - Auglib ist eine Augmentationsbibliothek, die Transformationen zur Änderung von Audiosignalen und -dateien bietet.
- Klang - Klang ist eine Sprache für das Design und die Entwicklung von Echtzeit -Audioprozessen in C ++.
^ Zurück zum Inhalt ^
Tonsynthese (SS)
- CSOUND - CSOUND ist ein Sound- und Musik -Computersystem, das ursprünglich 1985 von Barry Vercoe im MIT Media Lab entwickelt wurde. Seit den 90er Jahren wurde es von einer Gruppe von Kernentwicklern entwickelt.
- Pure Data - Pure Data ( PD ) ist eine visuelle Programmiersprache, die von Miller Puckette in den 1990er Jahren entwickelt wurde, um interaktive Computermusik und Multimedia -Arbeiten zu erstellen. Während Puckette der Hauptautor des Programms ist, ist PD ein Open-Source-Projekt mit einer großen Entwicklerbasis, die an neuen Erweiterungen arbeitet. Es wird unter BSD-3-Klausel veröffentlicht. Es läuft auf Linux, macOS, iOS, Android "Android (Betriebssystem)") und Windows. Ports existieren für FreeBSD und Irix.
- Plugdata - Eine visuelle Programmierumgebung für Audio -Experimente, Prototypen und Bildung.
- MAX/MSP/Jitter - Max , auch bekannt als Max/MSP/Jitter, ist eine visuelle Programmiersprache für Musik und Multimedia, die von der in San Francisco ansässigen Softwareunternehmen Cycling '74 entwickelt und verwaltet wurden. In seiner mehr als dreißigjährigen Geschichte wurde es von Komponisten, Darstellern, Software-Designern, Forschern und Künstlern verwendet, um Aufnahmen, Performances und Installationen zu erstellen.
- KYMA (Sound -Design -Sprache) - KYMA ist eine visuelle Programmiersprache für Sounddesign, die von Musikern, Forschern und Sounddesigner verwendet wird. In KYMA programmiert ein Benutzer einen Multiprozessor -DSP, indem Module auf dem Bildschirm eines Macintosh oder eines Windows -Computers grafisch angeschlossen werden.
- Supercollider - Supercollider ist eine Plattform für die Audio -Synthese und die algorithmische Komposition, die von Musikern, Künstlern und Forschern verwendet wird, die mit Sound arbeiten. Ein Audioserver, eine Programmiersprache und eine IDE für die Klangsynthese und die algorithmische Komposition.
- Sonic Pi - Sonic Pi ist eine Live -Codierungsumgebung, die auf Ruby "Ruby (Programmiersprache)") basiert, die ursprünglich sowohl Computer- Stiftung.
- REAKTOR - REAKTOR ist ein von Native Instruments (NI) entwickeltes grafisches modulares Software -Musikstudio. Es ermöglicht Musikern und Soundspezialisten, ihre eigenen Instrumente zu entwerfen und zu bauen, Sampler "Sampler (Musikinstrument)")), Effekte und Sound -Design -Tools. Es wird mit vielen Instrumenten und Effekten versehen, von Emulationen klassischer Synthesizer bis hin zu futuristischen Sounddesign-Tools.
- RTCMIX- RTCMIX ist eine "Sprache" in Echtzeit-Software für die digitale Soundsynthese und Signalverarbeitung. Es ist in C/C ++ geschrieben und frei von Open-Source verteilt.
- Chuck - Chuck ist eine Programmiersprache für die Echtzeit -Klangsynthese und die Musikerstellung. Chuck bietet ein einzigartiges zeitbasiertes, gleichzeitiges Programmiermodell, das präzise und ausdrucksstark ist (wir nennen dies stark abgestimmt), dynamische Kontrollraten und die Fähigkeit, den Code im Fliege hinzuzufügen und zu ändern. Darüber hinaus unterstützt Chuck MIDI, OpenSoundControl, HID-Gerät und Multi-Channel-Audio. Es ist Open-Source und frei unter MacOS X, Windows und Linux verfügbar. Es ist lustig und leicht zu lernen und bietet Komponisten, Forschern und Darstellern ein leistungsstarkes Programmierwerkzeug zum Aufbau und Experimentieren mit komplexen Audio-Synthese-/-analyseprogrammen und interaktiver Echtzeit-Musik.
- Faust-Faust (funktionaler Audiostrom) ist eine funktionale Programmiersprache für die Klangsynthese und Audioverarbeitung mit einem starken Fokus auf das Design von Synthesizern, Musikinstrumenten, Audio-Effekt Für eine Vielzahl von Plattformen und Standards.
- Seele - Die Seelenprogrammiersprache und API. Soul (Sound Language) ist ein Versuch, die Art und Weise zu modernisieren und zu optimieren, wie der Audiocode mit hoher Leistung und niedriger Latenz geschrieben und ausgeführt wird.
- CMAJOR - CMAJOR ist eine Programmiersprache zum Schreiben einer schnellen, tragbaren Audio -Software. Sie haben von C, C ++, C#, Objective-C gehört ... nun, C -Dur ist eine C-Familiensprache, die speziell zum Schreiben von DSP-Signalverarbeitungscode entwickelt wurde.
- VCV Rack - Rack ist die Host -Anwendung für die VCV Virtual Eurorack Modular Synthesizer -Plattform.
- Gwion - Gwion ist eine Programmiersprache, die darauf abzielt, Musik zu machen. stark inspiriert von Chuck, aber ein Haufen hochrangiger Funktionen hinzufügen; Vorlagen, erstklassige Funktionen und mehr. Es zielt darauf ab, einfach, klein, schnell, ausziehbar und einbettbar zu sein.
- Elementary Audio - Elementary ist ein JavaScript -Framework und eine Hochleistungs -Audio -Engine, mit der Sie schnell bauen und zuversichtlich versenden. Deklaratives, funktionales Framework für das Schreiben von Audio -Software im Web oder für native Apps.
- Elementary - Elementary ist eine JavaScript/C ++ - Bibliothek zum Erstellen von Audioanwendungen.
- Sound2Synth - Sound2Synth: Sound über FM -Synthesizer -Parameterschätzungen interpretieren.
- JSYN - JSYN ist ein modularer Audio -Synthesizer für Java von Phil Burk. Mit JSYN können Sie interaktive Computermusikprogramme in Java entwickeln. Es kann verwendet werden, um Soundeffekte, Audioumgebungen oder Musik zu generieren. JSYN basiert auf dem herkömmlichen Modell von Einheitsgeneratoren, das zusammen mit komplexen Geräuschen verbunden werden kann.
- SYNTHAX - Ein schneller modularer Synthesizer in JAX. Die Audio -Synthese über die Echtzeitgeschwindigkeiten spielt eine wichtige Rolle bei der Förderung intelligenter Audioproduktionstechniken. Synthax ist ein schneller virtueller modularer Synthesizer, der in JAX geschrieben wurde. Synthax erzeugt auf seinem Höhepunkt Audio über 60.000 Mal schneller als Echtzeit und erheblich schneller als die hochmoderne in der beschleunigten Klangsynthese.
- Midica - Midica ist ein Dolmetscher für eine Musikprogrammiersprache. Es übersetzt Quellcode in MIDI. Es kann aber auch als MIDI -Spieler, MIDI -Compiler oder Dekompiler, Karaoke -Spieler, ALDA -Spieler, ABC -Spieler, Lilypond -Spieler oder MIDI -Dateianalysator verwendet werden. Sie schreiben Musik mit einer der unterstützten Sprachen (Midicapl, Alda oder ABC).
- Mercury - Quecksilber ist eine minimale und menschlich lesbare Sprache für die Live -Codierung algorithmischer elektronischer Musik. Alle Elemente der Sprache sind darauf ausgelegt, Code zugänglicher und weniger verschleiert für das Publikum. Diese Motivation erstreckt sich auf den Codierungsstil selbst, der klare beschreibende Namen für Funktionen und eine klare Syntax verwendet.
- ALDA - ALDA ist eine textbasierte Programmiersprache für Musikkomposition. Sie können Musik mit nur einem Texteditor und der Befehlszeile schreiben und zurückspielen. Das Design der Sprache bevorzugt gleichermaßen Ästhetik, Flexibilität und Benutzerfreundlichkeit.
- Platonische Musik -Engine - Die platonische Musik -Engine ist ein Versuch, Computeralgorithmen zu erstellen, die die gesamte kreative menschliche Kultur, Vergangenheit, Gegenwart und Zukunft oberflächlich simulieren. Dies ermöglicht es in einer interaktiven Weise, dass der Benutzer verschiedene Parameter und Einstellungen so auswählen kann, dass das Endergebnis für den Benutzer einzigartig ist und gleichzeitig die kulturelle Idee beibehalten wird, die die Arbeit inspiriert hat.
- Pyo-Tools-Repository von Python-Klassen mit referenzieren, um Audioeffekte und Synthesizungen mit Pyo zu erstellen.
- PY -Modular - Modular und experimentelles Audio -Programmiergerüst für Python. PY-Modular ist eine kleine, experimentelle Audio-Programmierumgebung für Python. Es soll eine Basis für die Erforschung neuer Audio -Technologien und Workflows sein. Fast alles in Py-Modular basiert auf einem knotenbasierten Workflow, was bedeutet, dass kleine Klassen kleine Aufgaben erledigen und zusammengeflüssig sind, um vollständige Synthesizer oder größere Ideen zu erstellen.
- Bach: Helfer des automatisierten Komponisten-ein plattformübergreifender Satz von Patches und Extern für Max, zielte darauf ab, den Reichtum der computergestützten Komposition in die Echtzeitwelt zu bringen.
- Audiokit - Audiokit ist eine Audio -Synthese-, Verarbeitungs- und Analyse -Plattform für iOS, macOS (einschließlich Katalysator) und TVOS.
- TWANG - Bibliothek für reine Rust Advanced Audio Synthese.
- Genound - Pythonische Audioverarbeitung und -generierungsrahmen. Der Python -Weg zur Audioverarbeitung und -synthese.
- OTTO - Der Otto ist eine digitale Hardware -Groovebox mit Synthesizer, Sampler, Effekten und einem Sequenzer mit einem Audio -Looper. Die Schnittstelle ist flach, modular und einfach zu bedienen, aber vor allem zielt darauf ab, das Experimentieren zu fördern.
- Loris - Loris ist eine Bibliothek für Klanganalyse, Synthese und Morphing, die von Kelly Fitz und Lippold Haken von der CERL Sound Group entwickelt wurde. Loris enthält eine C ++-Klassenbibliothek, ein Python-Modul, eine c-linkbare Schnittstelle, die Befehlszeilen-Dienstprogramme und die Dokumentation.
- Iannix - Iannix ist ein grafischer Open -Source -Sequenzer, der auf Iannis Xenakis Works für digitale Kunst basiert. Iannix synchronisiert über OSC (Open Sound Control) und Kurven in Ihrer Echtzeitumgebung.
- Leipzig - Eine Musikkompositionsbibliothek für Clojure und ClojureScript.
- Nyquist - Nyquist ist eine Klangsynthese und Kompositionssprache, die eine Lisp -Syntax sowie eine imperative Sprachsyntax und eine leistungsstarke integrierte Entwicklungsumgebung bietet. Nyquist ist ein elegantes und leistungsstarkes System, das auf funktionaler Programmierung basiert.
- OpenMusic (OM) - OpenMusic (OM) ist eine visuelle Programmiersprache, die auf LISP basiert. Visuelle Programme werden erstellt, indem Symbole zusammengestellt und verbinden, die Funktionen und Datenstrukturen darstellen. Die meisten Programmierungen und Operationen werden durchgeführt, indem ein Symbol von einem bestimmten Ort gezogen und an einen anderen Ort fallen gelassen wird. Es werden integrierte visuelle Steuerungsstrukturen (z. B. Schleifen) bereitgestellt, diese Schnittstelle mit lispenen. Der vorhandene CommonLisp/CLOS -Code kann problemlos in OM verwendet werden und neuer Code kann visuell entwickelt werden.
- Orcλ - Orca ist eine esoterische Programmiersprache, mit der schneller Sequenzer erstellt werden sollen, bei denen jeder Buchstabe des Alphabets eine Operation ist, bei der Kleinbuchstaben auf Knall betrieben werden, und Großbuchstaben jeden Rahmen betreiben.
- OUPONE - Oppone ist eine Open -Source -Audioumgebung, mit der neue musikalische Ideen von Synthese und Probenahme bis hin zu Instrumentenaufbau, Live -Coding und kollaborativem Jamming erforscht werden sollen. Wir kombinieren die leistungsstarke Supercollider-Audio-Engine mit Clojure, einem Zustand des Kunstlispelns, um ein berauschendes interaktives Klangerlebnis zu schaffen.
- Naht - anhaltende elektroakustische Musik - Basis. Anhaltende elektroakustische Musik ist ein Projekt, das von Alvise Vidolin und Nicola Bernardini inspiriert ist.
- Glicol - Glicol (ein Akronym für "graphorientierte Live -Codierungssprache") ist eine Computermusiksprache mit ihrer Sprache und seiner Audio -Engine in Rust -Programmiersprache, eine moderne Alternative zu C/C ++. Angesichts dieser wesentlichen Natur kann Glicol auf vielen verschiedenen Plattformen wie Browsern, VST-Plugins und Bela Board ausgeführt werden. Glicols synth-ähnliche Syntax und leistungsstarke Audio-Engine ermöglichen es auch, eine Synth- oder Sequenzerregelung auf hoher Ebene mit einer probengenauigen Audio-Synthese mit niedrigem Ebenen in Echtzeit zu kombinieren.
- Papiersynth - handgeschriebener Text mit Synthesizer! Papersynth ist ein Projekt, das darauf abzielt, Keywords zu lesen, die Sie auf einem Stück Papier geschrieben haben und es in Synthesizer umwandeln können, die Sie am Telefon spielen können.
- NEURAL -Resonator VST - Dies ist ein VST -Plugin, das ein neuronales Netzwerk verwendet, um Filter basierend auf willkürlichen 2D -Formen und -materialien zu generieren. Es ist möglich, MIDI zu verwenden, um einfache Impulse auszulösen, um diese Filter zu erregen. Zusätzlich kann jedes Audiosignal als Eingang für die Filter verwendet werden.
- Scyclone - Scyclone ist ein Audio -Plugin, das neuronale Timbre -Transfertechnologie verwendet, um einen neuen Ansatz für die Audioproduktion zu bieten. Das Plugin baut auf Rave -Methodik auf, einem Echtzeit -Audio -Variation -Auto -Encoder, der die neuronale Timbre -Übertragung sowohl im Einzel- als auch im Paar -Inferenzmodus erleichtert.
- MLINMAX - ML für die Schallgenerierung und -verarbeitung in der Max -Programmiersprache von Cycling '74.
- ADLPLUG - FM -Chip -Synthesizer - OPL & OPN - VST/LV2/Standalone.
- Surge - Synthesizer -Plug -In (zuvor als Vember Audio Surge veröffentlicht).
- CSTOP - CSTOP ist ein in AU & VST3 für Mac erhältliches Tape -Stop -Audio -Effect -Plugin (in Kürze erfolgt Windows).
- Compufart - Fart -Sound -Synthesizer und Algorithmus in CMAJOR.
- PY -JS - Python3 -Externale für max / msp.
- PD -LUA - LUA -Bindungen für PD, aktualisiert für LUA 5.3+.
- Live 4 Life - Ein räumliches Performance -Tool für Supercollider.
- Caesarlooper - Caesarlooper ist ein Supercollider -Klon des Augustus Loop VST -Plugins von Expertenschläfer.
- Dexed - DX7 FM Multi -Plaform/Multi -Format -Plugin.
- LeapMotion für Max - Speakmotion extern für das Radfahren max.
- BONTAKT -PUBLIC - Ressourcen für native Instrumente Kontaktbauer.
- Pylive - Abfrage und Kontrolle Ableton leben von Python.
- ML -Lib - Eine Bibliothek für maschinelles Lernen für maximale und reine Daten.
- Zengarden - Zengarden ist eine eigenständige Bibliothek zum Ausführen von reinen Datenpatches.
- Max -SDK - Softwareentwicklungskit für Max durch Radfahren '74.
- PD-HVCC-Schaffung einer gen ~-ähnlichen Umgebung für PD, basierend auf dem schweren Compiler.
- Kuroskillatoren - Max/MSP -Objekte für Audio- und Rhythmische Synthese unter Verwendung von Netzwerken gekoppelter Oszillatoren.
- ASCII -ADIO - Generiert PCM -Audio aus einer ASCII -Zeichenfolge. Der Text ist auf dem Spektrogrammbild sichtbar.
- Belaminimoogemulation - Eine digitale Implementierung des minimierten analogen Synthesizers mit anti -aliierten Wellenformen und eine Erholung des Moog -Leiterfilters.
- EDISYN - Synthesizer Patch Editor.
- Soundgen - R -Paket für die Klangsynthese und akustische Analyse.
- Kardinal - virtuelles modulares Synthesizer -Plugin.
- Flutter -Echo -Modellierung - Dieses Repository präsentiert eine Matlab -Demo für die Synthese von Flutter -Echo.
- Oops - oops ist jetzt Blatt! Wechselstrombibliothek für Audio-Synthese und -verarbeitung, für eingebettete Anwendungen vorgesehen, die mit dem Semi-Oop-Stil geschrieben wurde.
- Sonic Pi Tool -? Schallpi aus der Befehlszeile in Python kontrollieren.
- Sonicpi.vim - Sonic Pi Plugin für Vim.
- Kontrollierte Chaos - Max4Live Euclidian Rhythmusgenerator.
- KPSRONG-Dies ist eine Implementierung eines von KARPLUS-STRONG-Synthesizer, der in Echtzeit in Echtzeit auf der Bela-Hardware als C ++ ausgeführt wird.
- NN_TILDE - A MAX / PD EXTERNAL für Echtzeit -AI -Audioverarbeitung.
- Getreidebogen - Ein Synthesizer, der die Tonhöhenerkennung verwendet, um Kandidaten für die körnige Synthese oder Probenahme auszuwählen.
- Signalflow - Ein Gerüstsynthese -Framework für Python, das für einen klaren und prägnanten Ausdruck komplexer musikalischer Ideen entwickelt wurde.
- Syntheon - Parameterinferenz von Musiksynthesizern zur Vereinfachung des Sound -Design -Prozesses. Unterstützt lebenswichtig und dexed.
- RNBOJUCETEMPLATE - Eine JUCE -Vorlage mit einem minimalen Synthesizer, das mit Rnbo ~ von MaxMSP erstellt wurde und das RNBoobject's State in Juces Audioprozessor unter Verwendung der modernen AudioprocessOrtreevalUestate -Mode zusammenfasst.
- Fluidsynth.Clap - Eine Klappe -Plugin -Brücke bis Fluidsynth.
- LaunchPadX - Eine einfache Supercollider -Schnittstelle für den Novation StartPadx Controller.
- FAUG - Ein Minimoog -Modell -D -Emulation mit dem in Faust geschriebenen DSP -Anteil. Moog + Faust = Faug.
- Blocks - Blöcke ist ein modularer Synthesizer, der als eigenständige, vst3 und au für Windows und MacOS erhältlich ist.
- Bessels Trick - Bessels Trick ist ein neuronales Audio -Plugin für die schnelle, lebende Tontransformation von Musikinstrumenten -Sounds unter Verwendung der FM -Synthese (Frequenzmodulation).
^ Zurück zum Inhalt ^
Game Audio (GA)
- Chunity - Chuck in Einheit. Plugin für die Verwendung von Chuck in Einheit. Erhältlich im Unity Asset Store.
- Raveler - WWiS -Plugin, das Rave -Modelle ausführt und die Timbre -Übertragung in Echtzeit über die neuronale Audio -Synthese in einer Audioeinstellung für Spiele ermöglicht.
- LASP - Niedrig -Latenz -Audiosignalverarbeitungs -Plugin für Einheit.
- Pyraper - Eine Python -Wrapper für Reaper.
- Reaper-Keys-Vim-Bindungen für Reaper.
- Reaper Tools - Audiokinetic Reaper Tools Repository. Sammlung von Erweiterungen, Skripten und Tools für Reaper.
- Reawwise - Reawwise ist eine Reaper -Erweiterung, mit der Sound -Designer Audiodateien von Reaper in Wise -Projekte übertragen können.
- WWISER - Ein Witle .BnK -Parser, um bei der Behandlung von Audio aus Spielen mit der Wise Engine zu helfen.
- WAAPI-TEXT-TO-Speech-Wise Text-to-Speech-Integration mit externen Redakteuren.
- JSFXR für WWise - JSFXR (aus SFXR portiert) mit zusätzlicher Wise -Konnektivität, in Elektron eingebettet.
- Soloud - Soloud ist eine einfach zu bedienende, kostenlose, tragbare C/C ++ - Audio -Engine für Spiele.
- AUDIOTOYS - DSP Doodles für Einheit.
- Dolby.io Virtual World Plugin für Unity - Mit dem Virtual World Plugin Dolby.io Virtual World für Unity können Sie Dolby.
- Dolby.io Virtual Worlds Plugin für unwirkliche Engine - Mit dem Plugin Dolby.io Virtual Worlds für Unreal Engine können Sie Dolby.io Räumliche Audio problemlos in Ihre virtuellen Weltanwendungen integrieren.
- Motorsimulator - Verbrennungsmotorensimulator, der realistische Audio erzeugt.
- Jack Audio für Unity - Dieses Bibliothek/dieses Plugin ermöglicht das Multichannel -Audio -Routing zwischen Unity3D und Jackaudio.
- Voxel -Plugin - Voxel -Plugin ermöglicht es, vollständig volumetrische, völlig zerstörbare, unendliche Welten in Unreal Engine zu erstellen. Es ist mit 4,24, 4,25, 4,26, 4,27 und Unreal 5 kompatibel.
- Rev Einheit - Rev. Unity Tachometer Demo.
- Unity Audio Manager (UAM) -? Wird verwendet, um zu spielen/zu ändern/stoppen/stumm/... Eins oder mehrere Klänge unter einem bestimmten Umstand oder Ereignis in 2D und 3D einfach über. Code.
- Audio-Manager-For-Unity-Ein Tool zum Definieren und Ausführen von Audioverhalten in Einheit in einem Knotenbasis-Editor.
- UNITY WWIS adressables - Dieses Paket unterstützt die Unterstützung für das Verteilungs- und Laden von Wise -Assets mithilfe des Systems von Unity Adressables.
- RFXGEN-Ein einfacher und benutzerfreundlicher FX-Sound-Generator.
- ULIPSYNC-MFCC-basiertes Lipsync-Plug-In für Einheit mit Jobsystem und Burst-Compiler.
- Godot-fmod-Integration-FMOD Studio Middleware Integration und Skript-API-Bindungen für die Godot Game Engine.
- FMOD -Audiosystem - Einheit -Audio -System mit FMOD.
- WW2OGG - Konvertieren Sie audiokinetische Wise Riff/RIFX -Vorbis in Standard -OGG -Vorbis.
- Höhle-Objektbasierte Audio-Engine und Codec-Pack mit Dolby Atmos-Rendering, Raumkorrektur, HRTF, One-Click-Unity-Audioübernahme und vieles mehr.
- RNBO Unity Audio Plugin - RNBO -Adapter für das native Audio -Plugin von Unity.
- RNBO -Metasounds - RNBO -Adapter, der Metasound -Knoten implementiert.
^ Zurück zum Inhalt ^
Digital Audio Workstation (DAW)
- Audacity-Audacity ist ein benutzerfreundlicher Multi-Spur-Audio-Editor und Rekorder für Windows, MacOS, GNU/Linux und andere Betriebssysteme.
- Trackion - Trackion ist eine plattformbasierte Open -Source -Audio -Workstation mit einer intuitiven Benutzeroberfläche und leistungsstarken Audiobearbeitungs- und Mischfunktionen.
- Pro Tools Scripting SDK - Mit dem Pro -Tools -Scripting -SDK können Sie Pro -Tools mit einer sprachunabhängigen API mit neuen automatisierten Workflows in Pro -Tools erstellen.
- Reapy - Eine pythonische Wrapper für Reaper's Recript Python API.
- Reaper -SDK - Reaper C/C ++ Extension SDK.
- Wiederaufnahme - Röntgen- und Open -Source -Skripte für Cockos Reaper.
- Wiederaufnahmen - Cockos Reaper Skripte.
- Reablink - Reaper -Plug -In -Erweiterung Bereitstellung von Bindungen für Ableton Link Session und Ableton Link Test Plan Konforme Implementierungen für Reaper.
- Voodoohop-Ableton-Tools-Ableton Live Harmony und Tempo-Werkzeuge. Augments Ableton leben mit einer intuitiven Visualisierung der musikalischen Harmonie und ermöglicht es der Tempo-Dynamik eines Tracks, das Master-Tempo in Echtzeit zu steuern.
- AbletonParsing - Analysieren Sie eine Ableton -ASD -Clip -Datei (Warp -Marker und mehr) in Python.
- Ableton Push - Eine Bibliothek für die Arbeit mit dem Ableton -Push im Browser.
- PYFLP - FL Studio -Projektdatei Parser.
- VST3SDK - VST 3 Plug -in SDK.
- Tuneflow -?+ Erstellen Sie Ihre Musikalgorithmen und KI -Modelle mit der nächsten Generation DAW
- Tuneflow-Py-Tuneflow-Py ist der Python SDK der Melflow-Plugins.
- SO-Vits-SVC-Plugin für Tuneflow-SO-Vits-SVC als Tuneflow-Plugin.
- Radium - Ein grafischer Musik -Editor. Ein Tracker der nächsten Generation.
- Bass Studio - Bass Studio ist eine in C ++ geschriebene digitale Audio -Workstation (DAW). Windows, MacOS und Linux -Builds werden bereitgestellt. Sowohl das VST2- als auch das Clap -Plugin -Format werden unterstützt.
- GridSound-GridSound ist eine Arbeitstation für digitale Open-Source-Audio-Workstation, die mit HTML5 entwickelt wurde, und genauer gesagt mit der neuen Web-Audio-API.
- Meadowlark - Meadowlark ist eine (Arbeit in Bearbeitung) frei und Open -Source -DAW (Digital Audio Workstation) für Linux, Mac und Windows. Ziel ist es, eine leistungsstarke Aufnahme, Komposition, Bearbeitung, Sounddesign, Mischung und Mastering für Künstler auf der ganzen Welt zu sein und gleichzeitig intuitiv und anpassbar zu sein.
- MIXXX - MIXXX ist eine kostenlose DJ -Software, mit der Sie alles erhalten, was Sie benötigen, um Live -Mixe auszuführen.
- Hybrid-DJ-Set-Synchronisieren Sie die DJ-Software (MIXXX) mit reinen Daten, um virtuelle Instrumente in einer Live-Aufführung zu lenken.
- LV2 - LV2 ist ein Plugin -Standard für Audiosysteme. Es definiert eine erweiterbare C-API für Plugins und ein Format für in sich geschlossene "Bündel" -Verzeichnungen, die Plugins, Metadaten und andere Ressourcen enthalten.
- Begeisterung - Aufnehmen, bearbeiten und mischen Sie Linux, MacOS und Windows.
- LMMS - LMMS ist eine kostenlose plattformübergreifende Alternative zu kommerziellen Programmen wie FL Studio®, mit der Sie Musik mit Ihrem Computer produzieren können. Dies beinhaltet die Schaffung von Melodien und Beats, die Synthese und Mischung von Geräuschen sowie die Anordnung von Proben.
- Qractor - Qractor ist eine Audio/MIDI -Multi -Track -Sequenzanwendung, die in C ++ mit dem QT -Framework geschrieben wurde. Zielplattform ist Linux, wo das Jack Audio Connection Kit (Jack) für Audio und die Advanced Linux Sound Architecture (ALSA) für MIDI die Hauptinfrastrukturen sind, die sich als ziemlich faszinierte Linux-Desktop-Audio-Workstation-GUI entwickelt haben, die speziell dem dem speziell für den dediziert sind Persönliches Heimstudio.
- Smart-Audio-Mixer-Eine moderne digitale Audio-Workstation (DAW) mit C ++/JUCE.
- OpenVino ™ AI -Plugins für Audacity - eine Reihe von AI -fähigen Effekten, Generatoren und Analysatoren für Audacity.
- JAFTDAW-Eine abgespeckte, tastaturorientierte digitale Audio-Workstation (DAW), die einige Design-Cues von nichtlinearen Video-Editoren wie Avid enthält.
- OSsia Score - Ein intermedia -Sequenzer, der Audio unterstützt (VST, VST3, LV2, JSFX usw.) sowie Video- und Hardwarekontrolle (OSC, MIDI, DMX, NDI, MQTT, COAP usw.)
^ Zurück zum Inhalt ^
Räumliche Audio (SA)
- Spaudiopy - Räumliches Audio -Python -Paket. Der Fokus (bisher) liegt auf räumlichen Audiocodierern und Decodern. Das Paket umfasst die z.
- RAPILIAL_AUDIO_FRAMEWORK (SAF)-Das räumliche_audio_Framework (SAF) ist ein Open-Source- und plattformübergreifender Framework für die Entwicklung räumlicher audiobezogener Algorithmen und Software in C/C ++. Der Framework, der ursprünglich als Ressource für Forscher auf diesem Gebiet gedacht war, ist allmählich zu einer ziemlich großen und gut dokumentierten Codebasis gewachsen, die eine Reihe verschiedener Module umfasst. Mit jedem Modul, das auf ein bestimmtes Unterfeld räumlicher Audio abzielt (z. B. Codierung/Decodierung, kugelförmige Array-Verarbeitung, Amplituden-Panning, HRIR-Verarbeitung, Raumsimulation usw.).
- HO-SIRR-Räumliche Rendering der räumlichen Impulsreaktion höherer Ordnung (HO-SRR) ist eine Rendering-Methode, mit der die Ausgangs-Lautsprecher-Array-Raum-Impulsantworten (RIRs) unter Verwendung einer kugelförmigen harmonischen Eingabe (Ambisonic/B-Formal) RIRs der Belästigungsordnung synthetisieren können. Eine MATLAB-Implementierung des HO-SRR-Algorithmus (räumliche Impulsantwort des Impuls Response Rendering (-SRR); Ein alternativer Ansatz zur Reproduktion von Ambisonischen RIRs über Lautsprecher.
- SPATGRIS - Spatgris ist eine Software für eine solide Räumlichkeit, die Komponisten und Sounddesigner von den Einschränkungen der realen Lautsprecher -Setups freigibt. Mit dem mit Spatgris verteilten ControlGris-Plugin können reichhaltige räumliche Trajektorien direkt in Ihre DAW komponiert und in Echtzeit auf jedem Lautsprecherlayout reproduziert werden. Es ist schnell, stabil, plattformübergreifend, leicht zu erlernen und arbeitet mit den Tools zusammen, die Sie bereits kennen. Spatgris unterstützt jedes Lautsprecher-Setup, einschließlich 2D-Layouts wie Quad-, 5.1- oder Oktophonischen Ringen sowie 3D Schwung.
- Steam Audio - Steam Audio liefert eine Audio -Lösung mit vollem Funktionsumfang, die Umgebung und Hörersimulation integriert. HRTF verbessert das Eintauchen in VR signifikant; Die physikbasierte Klangausbreitung vervollständigt das Eintauchen der akustischen Einsteigung, indem er konsequent wieder erstellt, wie Sound mit der virtuellen Umgebung interagiert.
- Räumlichaukit - SpatialAudioKit ist ein schnelles Paket zur Erleichterung der Verfasser räumlicher Audio -Apps auf Apple -Plattformen.
- libmysofa - Leser für AES -Sofa -Dateien, um bessere HRTFs zu erhalten.
- Omnitone - Omnitone: Räumliche Audio -Rendering im Web. Omnitone ist eine robuste Implementierung von inbisonischer Decodierung und binauralem Rendering in Web -Audio -API. Der Rendering -Prozess wird durch die schnell nativen Funktionen der Web -Audio -API (Gainnode und Convolver) betrieben, um die optimale Leistung zu gewährleisten. Die Implementierung von Omnitone basiert auf der Spezifikation von Google Spatial Media und der Binaura -Filter von Sadie. Es versorgt auch Resonance von Audio SDK für Web.
- Mach1 räumlich - mach1 räumlich sdk beinhaltet APIs, mit denen Entwickler Anwendungen entwerfen können, die ein räumliches Audio -Render aus Audio -Streams und/oder Wiedergabe von Mach1spatial 8Channel Räumliche Audio -Mischungen mit Ausrichtung zum Entschlüsseln der korrekten Stereoausgangsumme der Benutzersumme des Benutzers ermöglichen können Aktuelle Ausrichtung. Zusätzlich ermöglicht das mach1 -räumliche SDK Benutzer, Surround-/Räum -Audio -Mischungen sicher in und von den VVBP -Formaten von Mach1spatial oder Mach1Horizon umzuwandeln.
- Soundspaces - Soundspaces ist eine realistische akustische Simulationsplattform für audiovisuelle KI -Forschung. Von der audiovisuellen Navigation über die audiovisuelle Exploration bis hin zur Rekonstruktion von Echolocation und Audio-Visual-Grundriss erweitert diese Plattform die verkörperte Sichtforschung zu einem breiteren Bereich der Themen.
- Visuelle akustische Matching - Wir stellen die visuelle akustische Matching -Aufgabe vor, bei der ein Audioclip so in einer Zielumgebung aufgenommen wurde. Bei einem Bild der Zielumgebung und einer Wellenform für das Quell-Audio ist es das Ziel, das Audio neu zu synchronisieren, um die Akustik der Zielzimmer zu entsprechen, wie sie sichtbare Geometrie und Materialien vorschlägt.
- FAST-RIR-Dies ist die offizielle Implementierung unseres neuronal-network-basierten Fast Diffuse Room Impulse Response Generators (Fast-RIR) zur Erzeugung von Raumimpulsreaktionen (RIRs) für eine bestimmte akustische Umgebung.
- PygSound-Impulsreaktionserzeugung basierend auf dem hochmodernen geometrischen Schallausbreitungsmotor.
- RIRIS - RIRIS ist die MATLAB -Implementierung von Raumimpulsreaktionsinterpolation unter Verwendung von schnellen Shearlet -Transformationen.
- Parallel-Reverb-Raytracer-Ein Raytracer für Impulsantworten (für Reverb), beeinflusst durch Raster-Grafikbeleuchtungstechniken.
- Synth 3D - VST -Synthesizer mit virtuellen Oszillatorobjekten, die im 3D -Raum platziert sind.
- libbasicsofa - Eine sehr grundlegende Bibliothek zum Lesen räumlich orientierter Format für Akustikdateien (SOFA), ein Format zum Speichern von HRTFs und/oder Bridel für die Binuaral -Audio -Reproduktion.
- MESH2HRTF - Offene Software für die numerische Berechnung von Kopfbezogenen Übertragungsfunktionen.
- Openal Soft - Openal Soft ist eine Software -Implementierung der Openal 3D -Audio -API.
- Soundscape_ir - Soundscape_IR ist eine pythonbasierte Toolbox mit Soundscape -Informationsabruf, mit der die Analyse von Soundscape -Aufnahmen behilflich ist.
- Klangkörper - Wir präsentieren ein Modell, das von Headset -Mikrofonen und Körperpose als Eingänge genau 3D -Schallfelder menschlicher Körper erzeugen kann.
- Soundscapy - Eine Python -Bibliothek zur Analyse und Visualisierung von Soundscape -Bewertungen.
- Ambix-plattformübergreifende ambisonische VST, LV2-Plug-Ins mit variabler Reihenfolge für die Verwendung in digitalen Audio-Arbeitsstationen wie Reaper oder Leidenschaft oder als Jack-Standalone-Anwendungen.
- HOAC - Ambisonics Codec höherer Ordnung für räumliche Audio.
- OpenSOUNDLAB - OpenSOUNDLAB (OSL) macht den modularen Sound -Patching dreidimensional in einer gemischten Reality -Erfahrung im Pass -Through -Modus von Meta Quest.
- Siehe 2-kling? -räumliche Umgebung zu räumlicher Klang.
^ Zurück zum Inhalt ^
Web -Audioverarbeitung (WAP)
- WEBRTC -Audioverarbeitung - Python -Bindung der WEBRTC -Audioverarbeitung.
- Webchuck - Webchuck bringt Chuck, eine stark zeitlich stark zeitliche Audio -Programmiersprache, ins Web! Der C ++ - Quellcode von Chuck wurde zu WebAssembly (WASM) zusammengestellt und wird über die AudioWorkletNode -Schnittstelle der Web -Audio -API ausgeführt.
- Midi.js -? Das Leben einfach machen, um eine Midi-App im Web zu erstellen. Beinhaltet eine Bibliothek, um Synästhesie in Ihre App zur Speichererkennung oder zum Erstellen von Trippy -Effekten zu programmieren. Konvertieren Sie Soundfonts für Gitarre, Bass, Schlagzeug, ect. in Code, der vom Browser gelesen werden kann. Midi.js verbindet zusammen und baut auf Frameworks auf, die MIDI zum Browser bringen. Kombinieren Sie es mit Jasmid, um einen Web-Radio-MIDI-Stream zu erstellen, der dieser Demo ähnelt, oder mit drei.Js, Sparks.js oder GLSL, um Audio-/visuelle Experimente zu erstellen.
- Web -Voice -Prozessor - eine Bibliothek für die Echtzeit -Sprachverarbeitung in Webbrowsern.
- Tone.js - tone.js ist ein Web -Audio -Framework zum Erstellen interaktiver Musik im Browser. Die Architektur von tone.js zielt darauf ab, Musikern und Audio-Programmierern, die webbasierte Audioanwendungen erstellen, bekannt zu sein. Auf der hohen Ebene bietet Tone gemeinsame DAW-Funktionen (Digital Audio Workstation) wie einen globalen Transport für Synchronisierungs- und Planungsereignisse sowie vorgefertigte Synthesizungen und Effekte. Darüber hinaus bietet Tone Hochleistungsbausteine, um Ihre eigenen Synthesizer, Effekte und komplexen Kontrollsignale zu erstellen.
- Audio.js - AudioJS ist eine Drop -In -JavaScript -Bibliothek, mit der HTML5
<audio>
Tag überall verwendet werden kann. Es verwendet native <audio>
, soweit verfügbar und fällt es zu einem unsichtbaren Flash -Player zurück, um es für andere Browser zu emulieren. Es serviert auch eine konsistente HTML -Player -Benutzeroberfläche für alle Browser, die verwendet werden können. - Peaks.js - JavaScript UI -Komponente für die Interaktion mit Audiowellenformen.
- Howler.js - JavaScript -Audiobibliothek für das moderne Web. Howler.js macht die Arbeit mit Audio in JavaScript auf allen Plattformen einfach und zuverlässig. Howler.js ist eine Audiobibliothek für das moderne Web. Es wird standardmäßig auf Web -Audio -API geführt und fällt auf HTML5 -Audio zurück. Dies macht die Arbeit mit Audio in JavaScript auf allen Plattformen einfach und zuverlässig.
- CoffeeCollider - CoffeeCollider ist eine Sprache für die Echtzeit -Audio -Synthese und die algorithmische Komposition in HTML5. Das Konzept dieses Projekts ist als "CoffeeScript schreiben und als Supercollider verarbeitet".
- Pico.js - Audioprozessor für die plattformübergreifende.
- Timbre.js - Timbre.js bietet eine funktionale Verarbeitung und Synthese von Audio in Ihren Web -Apps mit modernen JavaScript -Weg wie jQuery oder node.js. Es verfügt über viele T-Objekte (formal: Timbre-Objekt), die sich miteinander verbunden haben, um das graphbasierte Routing für die allgemeine Audio-Rendering zu definieren. Es ist ein Ziel dieses Projekts, sich der Audioverarbeitung der nächsten Generation für Web zu nähern.
- Rythm.js - Eine JavaScript -Bibliothek, die Ihre Seiten tanzt.
- P5.Sound - P5.Sound erweitert P5 mit Web -Audio -Funktionen einschließlich Audioeingabe, Wiedergabe, Analyse und Synthese.
- WADJS - Eine JavaScript -Bibliothek zur Manipulation von Audio. Web Audio Daw. Verwenden Sie die Web -Audio -API für die dynamische Tonsynthese. Es ist wie JQuery für Ihre Ohren.
- Ableton.js - Mit Ableton.js können Sie Ihre Instanz oder Instanzen von Ableton mithilfe von node.js. Es versucht, so viele Funktionen wie möglich abzudecken.
- Sound.js - "Sound.js" ist eine Mikro -Bibliotheks, mit der Sie Soundeffekte und Musik für Spiele und interaktive Anwendungen laden, spielen und generieren können. Es ist sehr klein: weniger als 800 Codezeilen und keine Abhängigkeiten. Klicken Sie hier, um eine interaktive Demo auszuprobieren. You can use it as-as, or integrate it into your existing framework.
- tuna - An audio effects library for the Web Audio API.
- XSound - XSound gives Web Developers Powerful Audio Features Easily !
- Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
- AudioMass - Free full-featured web-based audio & waveform editing tool.
- WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
- DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
- WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
- web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
- Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
- Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
- WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
- Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
- JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
- tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
- wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
- Aurora.js - JavaScript audio decoding framework.
- Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
- Pitch detection - Pitch detection in Web Audio using autocorrelation.
- SAT - Streaming Audiotransformers for online Audio tagging.
- WebAudioXML - An XML syntax for building Web Audio API applications.
- FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
- ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
- wave-resampler - PCM audio resampler written entirely in JavaScript.
- useSound - A React Hook for playing sound effects.
- Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
- audio-worklet-loader - Audio Worklet loader for webpack.
^ Back to Contents ^
Music Information Retrieval (MIR)
- Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
- Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
- Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
- mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
- Partitura - A python package for handling modern staff notation of music.
- Midifile - C++ classes for reading/writing Standard MIDI Files.
- MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
- mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
- Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
- Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
- AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
- Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
- crema - convolutional and recurrent estimators for music analysis.
- MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
- MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
- Music Exploration - App to explore latent spaces of music collections.
- LooPy - A data framework for music information retrieval focusing on electronic music.
- Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
- carat - Computer-aided rhythm analysis toolbox.
- miditoolkit - A python package for working with MIDI data.
- Midly - A feature-complete MIDI parser and writer focused on speed.
- libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
- PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
- solfege.ai ? - Detect solfege hand signs using machine learning ?
- libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
- jams - A JSON Annotated Music Specification for Reproducible MIR Research.
- Piano Trainer - A music practice program with MIDI support.
- quickly - A LilyPond library for python (slated to become the successor of python-ly).
- ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
- Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
- Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
- Parangonar - Parangonar is a Python package for note alignment of symbolic music.
- musicparser - Deep learning based dependency parsing for music sequences.
- musif - Music Feature Extraction and Analysis.
- pycompmusic - Tools to help researchers work with Dunya and CompMusic.
- CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
- Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
- pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
- PyABC - Python package for parsing and analyzing ABC music notation.
- mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
- MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
- iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
- Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
- musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
- midi-db - ? Data concerning MIDI standards.
^ Back to Contents ^
Music Generation (MG)
- isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
- MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
- music21 - music21 is a Toolkit for Computational Musicology.
- Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
- MusicLM - MusicLM: Generating Music From Text.
- SingSong - SingSong: Generating musical accompaniments from singing.
- Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
- Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
- RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
- riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
- Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
- Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
- MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
- Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
- MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
- SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
- Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
- Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
- Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
- libatm -
libatm
is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli
project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here. - Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
- MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
- PyMusicLooper - A script for creating seamless music loops, with play/export support.
- ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
- linuxwave - Generate music from the entropy of Linux ??
- Chord2Melody - Automatic Music Generation AI.
- symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
- AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
- WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
- DeBussy - Solo Piano Music AI Implementation.
- Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
- Somax 2 - Somax 2 is an application for musical improvisation and composition.
- Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
- LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
- Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
- JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
- Anticipatory - Anticipatory Music Transformer.
- MIDI Language Model - Generative modeling of MIDI files.
- modulo - A Toolkit for Tinkering with Digital Musical Instruments.
- MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
- FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.
^ Back to Contents ^
Speech Recognition (ASR)
- Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
- PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
- NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
- Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
- WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
- Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
- Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
- Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
- audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
- Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
- SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
- ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
- Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
- Leon - ? Leon is your open-source personal assistant.
- DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
- SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
- annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
- PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
- Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
- Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
- 3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
- FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
- Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
- dejavu - Audio fingerprinting and recognition in Python.
- Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
- OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
- MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
- UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
- paasr - Privacy Aware Automatic Speech Recognition.
- whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
- DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
- pypinyin - A Python tool for converting Chinese character to Pinyin.
- PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
- KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
- Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
- SALMONN - Speech Audio Language Music Open Neural Network.
- PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
- WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
- Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
- PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
- Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
- TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
- Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
- SwiftSpeech - A speech recognition framework designed for SwiftUI.
- SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.
^ Back to Contents ^
Speech Synthesis (TTS)
- VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
- SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
- VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
- NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
- WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
- FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
- MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
- HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
- edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
- Vocode - Vocode is an open-source library for building voice-based LLM applications.
- TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
- Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
- TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
- libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
- SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
- Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
- Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
- YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
- ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
- WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
- Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
- Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
- Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
- TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
- xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
- PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
- GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (Einige Stimmen-Klonen).
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- RAD-MMM - A TTS model that makes a speaker speak new languages.
- BUD-E - A conversational and empathic AI Voice Assistant.
- Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
- lina-speech - linear attention based text-to-speech.
- ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
- RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
- StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
- ChatTTS - ChatTTS is a generative speech model for daily dialogue.
- StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
- Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
- MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
- MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
- OpenVoice - Instant voice cloning by MyShell.
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
- CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
- tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.
^ Back to Contents ^
Singing Voice Synthesis (SVS)
- NNSVS - Neural network-based singing voice synthesis library for research.
- Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
- OpenUtau - Open singing synthesis platform / Open source UTAU successor.
- so-vits-svc - SoftVC VITS Singing Voice Conversion.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
- Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
- Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
- DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
- lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
- Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
- VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
- midi2voice - Singing Synthesis from MIDI file.
- MoeGoe - Executable file for VITS inference.
- Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
- WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
- clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
- OpenVoice - Instant voice cloning by MyShell.
^ Back to Contents ^