Unduh audio development tools - audio development tools Unduh kode sumber

Alat Pengembangan Audio (ADT)

Ini adalah daftar alat pengembangan suara, audio, dan musik yang berisi pembelajaran mesin, pembuatan audio, pemrosesan sinyal audio, sintesis suara, audio game, stasiun kerja audio digital, audio spasial, pengambilan informasi musik, pembuatan musik, pengenalan ucapan, sintesis ucapan, sintesis suara nyanyian dan banyak lagi.

Daftar isi

Pembelajaran Mesin (ML)
Generasi Audio (AG)
Pemrosesan Sinyal Audio (ASP)
Sintesis Suara (SS)
Audio Permainan (GA)
Stasiun Kerja Audio Digital (DAW)
Audio Spasial (SA)
Pemrosesan Audio Web (WAP)
Pengambilan Informasi Musik (MIR)
Generasi Musik (MG)
Pengenalan Ucapan (ASR)
Sintesis Ucapan (TTS)
Sintesis Suara Bernyanyi (SVS)

Daftar Proyek

Pembelajaran Mesin (ML)

librosa - Librosa adalah paket python untuk analisis musik dan audio. Ini menyediakan blok bangunan yang diperlukan untuk membuat sistem pengambilan informasi musik.
Essentia - Essentia adalah pustaka C++ sumber terbuka untuk analisis audio dan pengambilan informasi musik berbasis audio yang dirilis di bawah lisensi Affero GPLv3. Ini berisi kumpulan ekstensif algoritma yang dapat digunakan kembali yang mengimplementasikan fungsionalitas input/output audio, blok pemrosesan sinyal digital standar, karakterisasi statistik data, dan sekumpulan besar deskriptor musik spektral, temporal, nada dan tingkat tinggi. Pustaka C++ untuk analisis, deskripsi, dan sintesis audio dan musik, termasuk binding Python.
DDSP - DDSP: Pemrosesan Sinyal Digital yang Dapat Dibedakan. DDSP adalah pustaka versi fungsi DSP umum yang dapat dibedakan (seperti synthesizer, pembentuk gelombang, dan filter). Hal ini memungkinkan elemen yang dapat diinterpretasikan ini digunakan sebagai bagian dari model pembelajaran mendalam, terutama sebagai lapisan keluaran untuk pembuatan audio.
MIDI-DDSP - MIDI-DDSP: Kontrol Terperinci atas Pertunjukan Musik melalui Pemodelan Hierarki. MIDI-DDSP adalah model pembuatan audio hierarki untuk mensintesis MIDI yang diperluas dari DDSP.
DDSP-VST - Synthesizer dan Efek Neural DDSP Waktu Nyata. Plugin VST3/AU dan aplikasi desktop dibuat menggunakan kerangka JUCE dan DDSP.
torchsynth - Synthesizer modular opsional GPU di pytorch, 16200x lebih cepat dari waktu nyata, untuk peneliti audio ML.
aubio - aubio adalah alat yang dirancang untuk mengekstraksi anotasi dari sinyal audio. Fitur-fiturnya termasuk mensegmentasi file suara sebelum setiap serangannya, melakukan deteksi nada, mengetuk irama, dan memproduksi aliran midi dari audio langsung.
audioFlux - audioFlux adalah perpustakaan alat pembelajaran mendalam untuk analisis audio dan musik, ekstraksi fitur. Ini mendukung lusinan metode transformasi analisis frekuensi waktu dan ratusan kombinasi fitur domain waktu dan domain frekuensi yang sesuai. Ini dapat diberikan ke jaringan pembelajaran mendalam untuk pelatihan, dan digunakan untuk mempelajari berbagai tugas di bidang audio seperti Klasifikasi, Pemisahan, Pengambilan Informasi Musik (MIR) dan ASR dll.
Polymath - Polymath menggunakan pembelajaran mesin untuk mengubah perpustakaan musik apa pun (misalnya dari Hard-Drive atau YouTube) menjadi perpustakaan sampel produksi musik. Alat ini secara otomatis memisahkan lagu ke dalam batang (ketukan, bass, dll.), menghitungnya ke tempo dan grid ketukan yang sama (misalnya 120bpm), menganalisis struktur musik (misalnya bait, chorus, dll.), kunci (misalnya C4, E3 , dll.) dan info lainnya (timbre, kenyaringan, dll.), dan mengonversi audio ke midi. Hasilnya adalah perpustakaan sampel yang dapat ditelusuri yang menyederhanakan alur kerja bagi produser musik, DJ, dan pengembang audio ML.
IPython - IPython menyediakan toolkit yang kaya untuk membantu Anda memaksimalkan penggunaan Python secara interaktif.
torchaudio - perpustakaan audio untuk PyTorch. Manipulasi dan transformasi data untuk pemrosesan sinyal audio, didukung oleh PyTorch.
TorchLibrosa - Implementasi PyTorch dari Librosa.
torch-audiomentations - Augmentasi data audio cepat di PyTorch. Terinspirasi oleh audiomentasi. Berguna untuk pembelajaran mendalam.
Augmentasi Audio PyTorch - Pustaka augmentasi data audio untuk PyTorch untuk audio dalam domain waktu.
Asteroid - Asteroid adalah perangkat pemisahan sumber audio berbasis Pytorch yang memungkinkan eksperimen cepat pada kumpulan data umum. Muncul dengan kode sumber yang mendukung sejumlah besar kumpulan data dan arsitektur, dan serangkaian resep untuk mereproduksi beberapa makalah penting.
Kapre - Kapre: Praprosesor Audio Keras. Keras Audio Preprocessors - menghitung STFT, InverseSTFT, Melspectrogram, dan lainnya pada GPU secara real-time.
praudio - Kerangka kerja prapemrosesan audio untuk aplikasi audio Pembelajaran Mendalam.
automix-toolkit - Model dan kumpulan data untuk melatih model pencampuran otomatis pembelajaran mendalam.
DeepAFx - DeepAFx: Efek Audio Dalam. Efek pemrosesan sinyal audio (FX) digunakan untuk memanipulasi karakteristik suara di berbagai media. Namun, banyak FX yang sulit atau membosankan untuk digunakan, terutama bagi pengguna pemula. Dalam pekerjaan kami, kami bertujuan untuk menyederhanakan cara audio FX digunakan dengan melatih mesin untuk menggunakan FX secara langsung dan melakukan tugas produksi audio otomatis. Dengan menggunakan alat yang sudah dikenal dan sudah ada untuk memproses dan menyarankan parameter kontrol, kita dapat menciptakan paradigma unik yang memadukan kekuatan AI dengan kontrol kreatif manusia untuk memberdayakan pencipta.
nnAudio - nnAudio adalah kotak alat pemrosesan audio yang menggunakan jaringan saraf konvolusional PyTorch sebagai backendnya. Dengan melakukan hal ini, spektogram dapat dihasilkan dari audio on-the-fly selama pelatihan jaringan saraf dan kernel Fourier (misalnya atau kernel CQT) dapat dilatih.
WavEncoder - WavEncoder adalah pustaka Python untuk menyandikan sinyal audio, transformasi untuk augmentasi audio, dan melatih model klasifikasi audio dengan backend PyTorch.
SciPy - SciPy (diucapkan "Sigh Pie") adalah perangkat lunak sumber terbuka untuk matematika, sains, dan teknik. Ini mencakup modul untuk statistik, optimasi, integrasi, aljabar linier, transformasi Fourier, pemrosesan sinyal dan gambar, pemecah ODE, dan banyak lagi.
pyAudioAnalysis - Pustaka Analisis Audio Python: Ekstraksi Fitur, Klasifikasi, Segmentasi, dan Aplikasi.
Mutagen - Mutagen adalah modul Python untuk menangani metadata audio. Mendukung file audio ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG, dan AIFF. Semua versi ID3v2 didukung, dan semua frame ID3v2.4 standar diurai. Itu dapat membaca header Xing untuk menghitung bitrate dan panjang MP3 secara akurat. Tag ID3 dan APEv2 dapat diedit apa pun format audionya. Itu juga dapat memanipulasi aliran Ogg pada tingkat paket/halaman individual.
LibXtract - LibXtract adalah pustaka fungsi ekstraksi fitur audio yang sederhana, portabel, dan ringan. Tujuan dari perpustakaan ini adalah untuk menyediakan serangkaian primatif ekstraksi fitur yang relatif lengkap yang dirancang untuk 'diturunkan' guna membuat hierarki ekstraksi.
dejavu - Sidik jari dan pengenalan audio dengan Python. Dejavu dapat menghafal audio dengan mendengarkannya sekali dan mengambil sidik jarinya. Kemudian dengan memutar lagu dan merekam input mikrofon atau membaca dari disk, Dejavu mencoba mencocokkan audio dengan sidik jari yang ada di database, sehingga mengembalikan lagu yang sedang diputar.
Pencocokan - ?️ Pencocokan dan Penguasaan Audio Sumber Terbuka. Matchering 2.0 adalah Aplikasi Web Terkontainer baru dan Perpustakaan Python untuk pencocokan dan penguasaan audio.
TimeSide - TimeSide adalah kerangka kerja python yang memungkinkan analisis audio tingkat rendah dan tinggi, pencitraan, transcoding, streaming dan pelabelan. API tingkat tingginya dirancang untuk memungkinkan pemrosesan kompleks pada kumpulan data yang sangat besar dari aset audio atau video apa pun dengan arsitektur plug-in, backend aman yang dapat diskalakan, dan frontend web dinamis yang dapat diperluas.
Meyda - Meyda adalah perpustakaan ekstraksi fitur audio Javascript. Meyda mendukung ekstraksi fitur offline serta ekstraksi fitur real-time menggunakan Web Audio API. Kami menulis makalah tentang hal itu, yang tersedia di sini.
Audiomentasi - Pustaka Python untuk augmentasi data audio. Terinspirasi oleh albumentasi. Berguna untuk pembelajaran mendalam. Berjalan pada CPU. Mendukung audio mono dan audio multisaluran. Dapat diintegrasikan dalam pipeline pelatihan misalnya Tensorflow/Keras atau Pytorch. Telah membantu orang mendapatkan hasil kelas dunia dalam kompetisi Kaggle. Digunakan oleh perusahaan yang membuat produk audio generasi berikutnya.
soundata - Pustaka Python untuk mengunduh, memuat & bekerja dengan kumpulan data suara.
auraloss - Kumpulan fungsi kerugian yang berfokus pada audio di PyTorch.
Neutone - plugin & komunitas audio AI. Menjembatani kesenjangan antara penelitian AI dan kreativitas
Waveformer - Arsitektur yang efisien untuk ekstraksi suara target secara real-time.
EfficientAT - Penandaan Audio Skala Besar yang Efisien. Kami menyediakan model terlatih AudioSet yang siap untuk pelatihan hilir dan ekstraksi penyematan audio.
EfficientAT_HEAR - Evaluasi model EfficientAT pada Tolok Ukur Evaluasi Holistik Representasi Audio.
VAD-python - Detektor Aktivitas Suara dengan Python. Kode Python untuk menerapkan detektor aktivitas suara ke file gelombang. Detektor aktivitas suara berdasarkan rasio antara energi dalam pita bicara dan energi total.
Diffsynth - Synthesizer Musik yang Dapat Dibedakan di PyTorch.
DDSP Waktu Nyata - DDSP waktu nyata (streaming) di PyTorch kompatibel dengan neutone.
pc-ddsp - Vocoder DDSP yang Dapat Dikontrol Pitch.
SSSSM-DDSP - Pencocokan Suara Synthesizer semi-supervisi dengan DSP yang Dapat Dibedakan.
GOLF - Vocoder saraf berbasis DDSP.
audacitorch - Pembungkus PyTorch untuk menggunakan model Anda dengan berani!
Scyclone - Scyclone adalah plugin audio yang memanfaatkan teknologi transfer timbre saraf untuk menawarkan pendekatan baru dalam produksi audio.
Scyclone AI - Membuat preset untuk Scyclone: Plug-in Neural Timbre Transfer Waktu Nyata.
Pemrograman Synthesizer Otomatis Multi Tugas - Ini adalah kode untuk proyek pemrograman synthesizer otomatis multi VST.
NeuralNote - Plugin Audio untuk transkripsi Audio ke MIDI menggunakan pembelajaran mendalam.
AudioDec - Kodek Audio Neural Streaming dengan Ketelitian Tinggi Sumber Terbuka.
PaSST - Pelatihan Audio Transformer yang Efisien dengan Patchout.
pidato_data_augment - Ringkasan algoritma penambahan data ucapan.
AugLy - Pustaka augmentasi data untuk audio, gambar, teks, dan video.
NeuraFuzz - Plugin audio saraf yang dilatih tentang desain sirkuit fuzz analog khusus.
GUI Penghilang Vokal Utama - GUI untuk Penghilang Vokal yang menggunakan Jaringan Syaraf Dalam.
Frechet Audio Distance - Perpustakaan ringan untuk penghitungan Jarak Audio Frechet.
LAPE - Kerangka kerja terpadu untuk Pemrosesan dan Evaluasi Audio Sumber Daya Rendah (Pra-pelatihan SSL dan Penyempurnaan Hilir).
Azure SDK for Python - Repositori ini untuk pengembangan aktif Azure SDK for Python.
Panotti - Pengklasifikasi audio jaringan saraf multi-saluran menggunakan Keras.
Allie - Allie adalah framework untuk membuat model pembelajaran mesin dari file audio, teks, gambar, video, atau .CSV.
Torchplugins - Plugin Max/MSP, PureData, dan Unity untuk memuat model Pytorch.
aeiou - (ML) utilitas i/o teknik audio.
BirdNET-Analyzer - Penganalisis BirdNET untuk pemrosesan data audio ilmiah.
spring-reverb-dl-models - Pemodelan Analog Virtual dari Spring Reverb dengan Pembelajaran Mendalam.
EVAR ~ - EVAR ~ Paket evaluasi untuk Representasi Audio.
Julius - DSP berbasis PyTorch cepat untuk sinyal audio dan 1D.
NeuralDX7 - Eksperimen pembelajaran mesin acak yang terkait dengan Yamaha DX7 klasik.
HANCE - HANCE menawarkan teknik pemrosesan sinyal berkualitas tinggi yang dikembangkan oleh spesialis pembelajaran mesin, insinyur suara, dan pakar pemrosesan audio. Teknologi kami dirancang untuk memberikan pengalaman audio setinggi mungkin kepada pengguna dengan menghilangkan noise, reverb, dan gangguan sinyal lainnya.
IDEAW - Watermark Audio Neural yang Kuat dengan Penyematan Ganda yang Dapat Dibalik.
SyNEThesia - SyNEThesia adalah visualisator musik dan suara berbasis pembelajaran mendalam, dan permainan kata-kata pada Synesthesia, suatu kondisi neurologis di mana seseorang merasakan stimulus dalam berbagai cara (misalnya melihat suara).
Voxaboxen - Voxaboxen adalah kerangka pembelajaran mendalam yang dirancang untuk menemukan waktu mulai dan berhenti dari peristiwa suara (mungkin tumpang tindih) dalam sebuah rekaman.
vocal-separate - Alat yang sangat sederhana untuk memisahkan vokal dan musik latar, sepenuhnya dilokalkan untuk pengoperasian web, menggunakan model 2stems/4stems/5stems.
Peningkatan kemampuan bicara - Pembelajaran mendalam untuk menghilangkan kebisingan audio.
SNAC - Multi-Scale Neural Audio Codec (SNAC) memampatkan audio 44,1 kHz menjadi kode diskrit pada bitrate rendah.
Supervoice GPT - Model GPT yang mengkonversi teks menjadi fonem dengan durasi yang sesuai untuk dimasukkan ke penyintesis suara.
AudioEditing - Pengeditan Audio Zero-Shot Tanpa Pengawasan dan Berbasis Teks Menggunakan Inversi DDPM.
MAX-Audio-Classifier - Pertukaran Aset Model Pengembang IBM: Pengklasifikasi Audio.
anira - arsitektur untuk inferensi jaringan saraf dalam aplikasi audio waktu nyata.
FakeSound - Deteksi Audio Umum Deepfake.
Audio Mamba - Model Ruang Keadaan Dua Arah untuk Pembelajaran Representasi Audio.
SSAMBA - SSAMBA: Pembelajaran Representasi Audio yang Diawasi Sendiri dengan Model Ruang Negara Mamba.
SLAM-LLM - SLAM-LLM adalah perangkat pembelajaran mendalam yang memungkinkan peneliti dan pengembang melatih model bahasa besar multimodal (MLLM) khusus, dengan fokus pada pemrosesan Ucapan, Bahasa, Audio, Musik.
MIDI2vec - MIDI2vec: Pembelajaran Embeddings untuk Representasi Ruang Vektor MIDI.

^ Kembali ke Daftar Isi ^

Generasi Audio (AG)

AudioLCM - Pembuatan Teks-ke-Audio dengan Model Konsistensi Laten.
Auffusion - Auffusion: Memanfaatkan Kekuatan Difusi dan Model Bahasa Besar untuk Pembuatan Teks-ke-Audio.
Kotak Audio - Kotak Audio: Pembuatan Audio Terpadu dengan Perintah Bahasa Alami.
Amphion - Amphion: Perangkat Pembuatan Audio, Musik, dan Ucapan Sumber Terbuka.
Nendo - Rangkaian Alat Audio Nendo AI.
Audio Stabil - Difusi Audio Laten Berkondisi Waktu Cepat.
WavJourney - Pembuatan Audio Komposisi dengan Model Bahasa Besar.
Audiocraft - Audiocraft adalah perpustakaan PyTorch untuk penelitian pembelajaran mendalam tentang pembuatan audio.
vschaos2 - vschaos2: sintesis audio saraf vintage.
Resonator Neural - Sintesis Suara Benda Kaku dengan Resonator Modal yang Dapat Dibedakan.
SoundStorm - SoundStorm: Pembuatan Audio Paralel yang Efisien.
SpeechGPT - SpeechGPT: Memberdayakan Model Bahasa Besar dengan Kemampuan Percakapan Lintas Modal Intrinsik.
CLAPSpeech - CLAPSpeech: Mempelajari Prosodi dari Konteks Teks dengan Pra-Pelatihan Audio-Bahasa Kontrasif.
AudioGPT - AudioGPT: Memahami dan Menghasilkan Ucapan, Musik, Suara, dan Kepala Berbicara.
Bark - Bark adalah model teks-ke-audio berbasis transformator yang dibuat oleh Suno. Bark dapat menghasilkan ucapan multibahasa yang sangat realistis serta audio lainnya - termasuk musik, kebisingan latar belakang, dan efek suara sederhana.
TANGO - TANGO adalah model difusi laten (LDM) untuk generasi text-to-audio (TTA). TANGO dapat menghasilkan audio yang realistis termasuk suara manusia, suara binatang, suara alami dan buatan, serta efek suara dari perintah tekstual.
ArchiSound - Pembuatan audio menggunakan model difusi, di PyTorch.
WaveGAN - WaveGAN: Belajar mensintesis audio mentah dengan jaringan permusuhan generatif.
NeuralSound - Sintesis Suara Modal berbasis Pembelajaran dengan Transfer Akustik.
RAVE - RAVE: AutoEncoder Variasi Audio Waktu Nyata. Autoencoder variasional untuk sintesis audio saraf yang cepat dan berkualitas tinggi.
AudioLDM - AudioLDM: Pembuatan Teks-ke-Audio dengan Model Difusi Laten.
Make-An-Audio - Make-An-Audio: Pembuatan Teks-Ke-Audio dengan Model Difusi yang Ditingkatkan dengan Cepat.
Make-An-Audio 3 - Make-An-Audio 3: Mengubah Teks menjadi Audio melalui Transformator Difusi Besar berbasis Aliran.
Moûsai - Moûsai: Teks-ke-Audio dengan Difusi Laten Konteks Panjang.
Im2Wav - Pembuatan Audio Terpandu Gambar. Kami mengusulkan Im2Wav, sistem pembuatan audio domain terbuka yang dipandu gambar. Dengan adanya gambar masukan atau rangkaian gambar, Im2Wav menghasilkan suara yang relevan secara semantik.
Oobleck - buka codec VAE soundstream-ish untuk sintesis audio saraf hilir.
USS - Ini adalah implementasi PyTorch dari Pemisahan Sumber Universal dengan Data Berlabel Lemah. Sistem USS dapat secara otomatis mendeteksi dan memisahkan kelas suara dari rekaman sebenarnya. Sistem USS dapat memisahkan hingga ratusan kelas suara dalam struktur ontologi hierarki.
Diffuser - ? Diffusers adalah pustaka pilihan untuk model difusi terlatih yang canggih untuk menghasilkan gambar, audio, dan bahkan struktur molekul 3D.
ONE-PEACE - Modal representasi umum di seluruh modalitas penglihatan, audio, bahasa.
difusi audio kecil - Ini adalah gudang untuk menghasilkan sampel audio pendek dan melatih model difusi bentuk gelombang pada GPU dengan VRAM kurang dari 2 GB.
stable-audio-tools - Model generatif untuk pembuatan audio bersyarat.
CTAG - Pembuatan Teks-ke-Audio Kreatif melalui Pemrograman Synthesizer.
Audiogen Codec - Codec audio neural stereo 48khz kompresi rendah untuk audio umum, mengoptimalkan fidelitas audio?.
WavCraft - WavCraft adalah agen AI untuk pembuatan dan pengeditan audio.
FoleyCrafter - FoleyCrafter: Menghidupkan Video Senyap dengan Suara yang Nyata dan Tersinkronisasi.

^ Kembali ke Daftar Isi ^

Pemrosesan Sinyal Audio (ASP)

SouPyX - SouPyX adalah ruang yang sangat berwarna untuk eksplorasi audio, cocok untuk penelitian dan eksplorasi di berbagai bidang audio. Di SouPyX Anda dapat melakukan penelitian dan eksplorasi dalam pemrosesan audio, sintesis suara, efek audio, audio spasial, visualisasi audio, audio AI, dan masih banyak lagi.
SoundFile - SoundFile adalah perpustakaan audio berdasarkan libsndfile, CFFI dan NumPy.
Audio DSPy - audio_dspy adalah paket Python untuk alat pemrosesan sinyal audio.
pyAudioDspTools - pyAudioDspTools adalah paket python 3 untuk memanipulasi audio hanya dengan menggunakan numpy.
wave - Modul wave menyediakan antarmuka yang nyaman ke format suara WAV. Ini tidak mendukung kompresi/dekompresi, tetapi mendukung mono/stereo.
FFmpeg - FFmpeg adalah kumpulan perpustakaan dan alat untuk memproses konten multimedia seperti audio, video, subtitle dan metadata terkait.
Opus - Kompresi audio modern untuk internet.
Pedalboard - Pedalboard adalah pustaka Python untuk bekerja dengan audio: membaca, menulis, menambahkan efek, dan banyak lagi. Ini mendukung format file audio paling populer dan sejumlah efek audio umum, dan juga memungkinkan penggunaan format VST3 dan Unit Audio untuk plugin pihak ketiga.
PyAudio - PyAudio menyediakan binding Python untuk PortAudio v19, pustaka I/O audio lintas platform. Dengan PyAudio, Anda dapat dengan mudah menggunakan Python untuk memutar dan merekam audio di berbagai platform, seperti GNU/Linux, Microsoft Windows, dan Apple macOS.
PortAudio - PortAudio adalah perpustakaan I/O audio gratis, lintas platform, sumber terbuka. Ini memungkinkan Anda menulis program audio sederhana dalam 'C' atau C++ yang akan dikompilasi dan dijalankan di banyak platform termasuk Windows, Macintosh OS X, dan Unix (OSS/ALSA). Hal ini dimaksudkan untuk mempromosikan pertukaran perangkat lunak audio antar pengembang di platform yang berbeda. Banyak aplikasi menggunakan PortAudio untuk Audio I/O.
Pyo - pyo adalah modul Python yang ditulis dalam C untuk membantu pembuatan skrip pemrosesan sinyal digital. Modul DSP Python. Dengan pyo, pengguna akan dapat memasukkan rantai pemrosesan sinyal secara langsung dalam skrip atau proyek Python, dan memanipulasinya secara real time melalui penerjemah
tinytag - tinytag adalah perpustakaan untuk membaca meta data musik dari sebagian besar file audio umum dengan python murni. Baca meta data audio dan musik serta durasi file MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave dan AIFF dengan python 2 atau 3.
Friture - Friture adalah aplikasi untuk memvisualisasikan dan menganalisis data audio langsung secara real-time. Friture menampilkan data audio dalam beberapa widget, seperti cakupan, penganalisis spektrum, atau spektogram 2D bergulir.
sounddevice - Modul Python ini menyediakan binding untuk pustaka PortAudio dan beberapa fungsi praktis untuk memutar dan merekam array NumPy yang berisi sinyal audio.
Pydub - Memanipulasi audio dengan antarmuka tingkat tinggi yang sederhana dan mudah.
NAudio - Perpustakaan audio dan MIDI untuk .NET.
SoundCard - SoundCard adalah perpustakaan untuk memutar dan merekam audio tanpa menggunakan ekstensi CPython. Sebaliknya, ini diimplementasikan menggunakan CFFI yang luar biasa dan perpustakaan audio asli Linux, Windows, dan macOS.
TarsosDSP - TarsosDSP adalah perpustakaan Java untuk pemrosesan audio. Tujuannya adalah untuk menyediakan antarmuka yang mudah digunakan untuk algoritma pemrosesan musik praktis yang diimplementasikan, sesederhana mungkin, dalam Java murni dan tanpa ketergantungan eksternal lainnya.
Maximilian - Maximilian adalah perpustakaan sintesis audio dan pemrosesan sinyal lintas platform dan multi-target. Itu ditulis dalam C++ dan menyediakan pengikatan ke Javascript.
Synthesis ToolKit di C++ (STK) - Synthesis ToolKit di C++ (STK) adalah sekumpulan kelas pemrosesan sinyal audio sumber terbuka dan sintesis algoritmik yang ditulis dalam bahasa pemrograman C++.
JUCE - JUCE adalah kerangka aplikasi C++ lintas platform sumber terbuka untuk membuat aplikasi desktop dan seluler berkualitas tinggi, termasuk plug-in dan host plug-in audio VST, VST3, AU, AUv3, AAX dan LV2. JUCE dapat dengan mudah diintegrasikan dengan proyek yang ada melalui CMake, atau dapat digunakan sebagai alat pembuatan proyek melalui Projucer, yang mendukung ekspor proyek untuk Xcode (macOS dan iOS), Visual Studio, Android Studio, Code::Blocks dan Linux Makefiles sebagai serta berisi editor kode sumber.
iPlug 2 - Kerangka Plug-in Audio C++ untuk desktop, seluler, dan web.
CHOC - Kumpulan kelas header saja, berlisensi permisif, untuk menyediakan tugas-tugas dasar yang berguna dengan ketergantungan minimal.
Q - Q adalah pustaka C++ lintas platform untuk Pemrosesan Sinyal Audio Digital. Dinamakan sesuai dengan “faktor Q”, parameter tak berdimensi yang menggambarkan kualitas rangkaian resonansi, Q DSP Library dirancang sederhana dan elegan, sesuai dengan kesederhanaan namanya, dan cukup efisien untuk dijalankan pada mikrokontroler kecil.
BasicDSP - BasicDSP - Alat untuk memproses audio / bereksperimen dengan pemrosesan sinyal.
DaisySP - Perpustakaan DSP Sumber Terbuka yang Kuat di C++.
Perangkat Pemrosesan Sinyal Ucapan (SPTK) - Perangkat Pemrosesan Sinyal Ucapan (SPTK) adalah rangkaian alat pemrosesan sinyal ucapan untuk lingkungan UNIX, misalnya analisis LPC, analisis PARCOR, analisis LSP, filter sintesis PARCOR, filter sintesis LSP, teknik kuantisasi vektor , dan versi tambahan lainnya.
eDSP - eDSP (easy Digital Signal Processing) adalah kerangka pemrosesan sinyal digital yang ditulis dalam C++ modern yang mengimplementasikan beberapa fungsi dan algoritma umum yang sering digunakan dalam pemrosesan sinyal digital, teknik audio & sistem telekomunikasi.
KFR - KFR adalah kerangka kerja C++ DSP open source yang berfokus pada kinerja tinggi. Kerangka kerja C++ DSP yang cepat dan modern, FFT, Konversi Kecepatan Sampel, Filter FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON).
MWEngine - Mesin audio dan DSP untuk Android, ditulis dalam C++ memberikan kinerja latensi rendah dalam konteks musik, sekaligus menyediakan API Java/Kotlin. Mendukung OpenSL dan AAudio.
LabSound - LabSound adalah mesin audio berbasis grafik C++. Mesin ini dikemas sebagai perpustakaan statis berisi baterai yang dimaksudkan untuk integrasi dalam berbagai jenis perangkat lunak: permainan, visualisator, instalasi interaktif, lingkungan pengkodean langsung, plugin VST, aplikasi pengeditan/pengurutan audio, dan banyak lagi.
Intisari - Intisari adalah pustaka analisis audio berbasis C++.
Realtime_PyAudio_FFT - Analisis audio realtime dengan Python, menggunakan PyAudio dan Numpy untuk mengekstrak dan memvisualisasikan fitur FFT dari streaming audio.
Spektrum - Analisis Spektral dengan Python. Spectrum adalah pustaka Python yang berisi alat untuk memperkirakan Kepadatan Spektral Daya berdasarkan transformasi Fourier, metode Parametrik, atau analisis nilai eigen. Metode Fourier didasarkan pada perkiraan korelogram, periodogram, dan Welch. Tersedia jendela lancip standar (Hann, Hamming, Blackman) dan yang lebih eksotis (DPSS, Taylor,…).
tidstream - Alat untuk menghasilkan dan memanipulasi aliran Vorbis dan Opus langsung.
AudioTraits - AudioTraits adalah abstraksi yang dirancang untuk membuat pengujian pemrosesan audio lebih nyaman dan mudah dibaca. 'Sifat Audio' menganalisis sinyal audio tertentu (beberapa atau semua salurannya) dan memeriksa properti tertentu. Hasil pemeriksaan ini adalah boolean, yang memungkinkannya diintegrasikan dengan mudah ke dalam kerangka pengujian unit apa pun.
genMDM Editor - Antarmuka berbasis web untuk genMDM, pengontrol MIDI untuk Sega Mega Drive dan Genesis. Juga mendukung Antarmuka MIDI Mega Drive.
3DAudioVisualizers - Rangkaian OpenGL Audio Visualizer di C++ menggunakan JUCE untuk Audio dan GUI.
AudioStretchy - AudioStretchy adalah pustaka Python yang memungkinkan Anda meregangkan waktu sinyal audio tanpa mengubah nadanya.
SwiftAudio - SwiftAudioEx adalah pemutar audio iOS yang ditulis dalam Swift, membuatnya lebih mudah untuk bekerja dengan pemutaran audio dari stream dan file.
WaveTools - WaveTools adalah kerangka kerja untuk memanipulasi file audio; Khususnya file WAVE (.wav).
SimplyCoreAudio - ? Kerangka kerja Swift yang bertujuan untuk membuat penggunaan Core Audio tidak terlalu membosankan di macOS.
DPF - Kerangka Plugin DISTRHO. DPF dirancang untuk membuat pengembangan plugin baru menjadi tugas yang mudah dan menyenangkan.
Plug-in Neural Amp Modeler - Plug-in VST3/AudioUnit untuk Neural Amp Modeler, dibuat dengan iPlug2.
lsp-dsp-lib - Perpustakaan DSP untuk pemrosesan sinyal.
Hip-Hop - Perpustakaan untuk menulis plugin audio yang menjalankan UI dalam tampilan web. Berdasarkan DPF.
MGT-python - Kotak Alat Gerakan Musik untuk Python.
ASP - Alat Python Pemrosesan Sinyal Audio.
TinyAudio - TinyAudio adalah perpustakaan keluaran audio lintas platform.
pymixconsole - Konsol mixing multitrack tanpa kepala dengan Python.
plugin efek - Templat plugin efek audio menggunakan Elementary dan JUCE.
miniaudio - Pemutaran audio dan perpustakaan pengambilan yang ditulis dalam C, dalam satu file sumber.
AudioMass - Alat pengeditan audio & bentuk gelombang berbasis web berfitur lengkap gratis.
Contoh Pemutar Musik Android Universal - Contoh aplikasi audio untuk Android.
jsfx - Koleksi plugin JS (JesuSonic) gratis untuk Reaper.
Fourier - Transformasi Fast Fourier (FFT) di Rust.
ProtoFaust - Pembuatan prototipe DSP di Faust untuk VCV Rack synthesizer modular.
Polar - Mesin audio untuk pemrosesan CUDA (Windows/Linux).
Konverter audio-ke-MIDI - Program untuk mendeteksi nada dari file wav dan menulis MIDI terkuantisasi waktu.
AudioTSM - AudioTSM adalah pustaka python untuk prosedur modifikasi skala waktu audio real-time, yaitu algoritma yang mengubah kecepatan sinyal audio tanpa mengubah nadanya.
Multi-Filter-Delay - Efek audio digital asli yang diprogram melalui Juce/C++.
convoLV2 - convoLV2 adalah plugin LV2 untuk menggabungkan sinyal audio dengan latensi nol.
Cloud Seed - Cloud Seed adalah plugin reverb algoritmik yang dibangun di C# dan C++ untuk meniru ruang besar tanpa akhir dan gema termodulasi.
Musik Latar - Musik Latar, utilitas audio macOS: menjeda musik Anda secara otomatis, mengatur volume masing-masing aplikasi, dan merekam audio sistem.
audiowaveform - Program C++ untuk menghasilkan data bentuk gelombang dan merender gambar bentuk gelombang dari file audio.
Mutagen - Modul Python untuk menangani metadata audio.
lewton - Decoder Vorbis ditulis dalam Rust murni.
Hound - Pustaka pengkodean dan decoding wav di Rust.
rodio - Perpustakaan pemutaran audio Rust.
CPAL - Pustaka I/O audio lintas platform dalam Rust murni.
CSCore - CSCore adalah perpustakaan audio .NET gratis yang sepenuhnya ditulis dalam C#.
TinyOSC - Pustaka Open Sound Control (OSC) minimal yang ditulis dalam vanilla C.
TinyWav - Pustaka C minimal untuk membaca dan menulis file audio WAV (16b-int & 32b-float).
JAsioHost - Host ASIO (Input/Output Aliran Audio) berbasis Java.
PyWavelets - PyWavelets adalah perpustakaan Open Source gratis untuk transformasi wavelet dengan Python. Wavelet adalah fungsi dasar matematika yang terlokalisasi dalam waktu dan frekuensi.
ChowMultiTool - Plugin Audio Multi-Alat.
Model RE201 - Model digital Roland RE201. VST3, plugin AU dan kode sumber.
RtAudio - Satu set kelas C++ yang menyediakan API umum untuk input/output audio realtime di Linux (ALSA asli, JACK, PulseAudio dan OSS), Macintosh OS X (CoreAudio dan JACK), dan Windows (DirectSound, ASIO, dan WASAPI) sistem operasi.
RtAudio-rs - Pembungkus dan pengikatan Rust yang aman ke RtAudio.
PFFFT - FFT yang cukup cepat dan konvolusi cepat dengan PFFASTCONV.
SHAART - SHAART adalah perangkat analisis audio berbasis Python, untuk tujuan pendidikan.
TD-JUCE - Audio JUCE dan VST di TouchDesigner.
JIVE - JIVE adalah kumpulan modul JUCE yang berpusat pada keinginan untuk memiliki pendekatan yang lebih modern terhadap pengembangan UI.
Amplituda - Amplituda - perpustakaan android berdasarkan FFMPEG yang memproses file audio dan menyediakan berbagai sampel.
TagLib - Perpustakaan Meta-Data Audio TagLib.
speexdsp - Perpustakaan Python Speex Echo Canceller.
PyPam - Alat Analisis Akustik Pasif Python untuk Pemantauan Akustik Pasif (PAM).
AudioTools - Penanganan data audio berorientasi objek, dengan augmentasi bertenaga GPU, dan banyak lagi.
Equalize It - Proyek ini adalah plugin VST untuk pemerataan. Antarmuka pengguna mencakup penganalisis spektrum, panel kontrol filter, kurva respons frekuensi, dan pengukur level.
JDSP4Linux - Prosesor efek audio untuk klien PipeWire dan PulseAudio.
FIRconv - Implementasi Python dari filter Finite Impulse Response (FIR).
OpenDSP - Linux tanpa kepala yang menyematkan OS realtime untuk DSP audio dan video.
ultralight-juce - Mengintegrasikan renderer Ultralight C++/HTML dengan JUCE untuk UI yang lebih cantik.
Vult - Vult sangat berguna saat memprogram algoritma Pemrosesan Sinyal Digital (DSP) seperti efek audio atau synthesizer.
CloudSeed [JUCE] - UI berbasis JUCE untuk plugin CloudSeed VST.
TFliteTemplatePlugin - Plugin Templat JUCE untuk menggunakan TensorFlow lite untuk inferensi pembelajaran mendalam.
DrumFixer - DrumFixer adalah plugin audio yang dirancang untuk membantu teknisi mixing menghasilkan suara drum yang lebih baik.
BasicAudioPlayer - Pustaka Swift yang memudahkan pembuatan pemutar audio berbasis AVAudioEngine.
PLAudioMixer - Mixer audio sederhana berdasarkan mode rendering offline AVAudioEngine.
estratto - Estratto adalah perpustakaan Rust yang kuat dan mudah digunakan yang dirancang untuk mengekstraksi fitur audio yang kaya dari sinyal audio digital.
vampy - Pembungkus yang memungkinkan plugin analisis audio Vamp ditulis dengan Python.
SoundWave - SoundWave adalah tampilan yang dapat disesuaikan yang mewakili suara dari waktu ke waktu.
PyAV - PyAV adalah pengikatan Pythonic untuk perpustakaan FFmpeg.
audio-dsp - Bermain-main dengan pengembangan plugin audio + DSP.
openSMILE - openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) adalah perangkat sumber terbuka dan lengkap untuk analisis, pemrosesan, dan klasifikasi audio yang khususnya ditargetkan pada aplikasi ucapan dan musik.
Carla - Carla adalah host plugin audio berfitur lengkap, dengan dukungan untuk banyak driver audio dan format plugin.
JUCE-HEAVY - Proyek Templat JUCE yang menunjukkan cara menghubungkan JUCE dengan file Sumber yang dihasilkan Heavy C++ (HVCC).
Dplug - Kerangka plugin audio. VST2/VST3/AU/AAX/LV2 untuk Linux/macOS/Windows.
DAWNet - DAWNet adalah plugin DAW (digit audio workstation) yang terhubung ke Google Colab atau Script jarak jauh.
Fish Audio Preprocessor - Audio Praproses untuk pelatihan.
clap-validator - Alat validasi dan pengujian CLAP otomatis.
DSP Testbench - Sebuah DSP Testbench untuk pengguna kerangka JUCE.
Coupler - Coupler adalah kerangka kerja untuk menulis plugin audio di Rust. Saat ini mendukung VST3 dan CLAP API, dengan rencana untuk mendukung AUv2 dan AAX dalam waktu dekat.
PyOgg - PyOgg menyediakan pengikatan Python untuk format file audio Opus, Vorbis, dan FLAC Xiph.org serta format wadah Ogg-nya.
streamlit-audiorecorder - Perekam audio untuk streamlit.
DtBlkFx - DtBlkFx adalah plug-in VST berbasis Fast-Fourier-Transform (FFT).
Smartelectronix - Versi open source dari semua plugin bram @ smartelectronix.
Cookiejuce - Alat baris perintah untuk menghasilkan proyek JUCE modern dengan cmake.
Auglib - Auglib adalah pustaka augmentasi, yang menyediakan transformasi untuk memodifikasi sinyal dan file audio.
Klang - Klang adalah bahasa untuk desain dan pengembangan proses audio realtime di C ++.

^ Kembali ke Isi ^

Sintesis suara (SS)

CSound - CSound adalah sistem komputasi suara dan musik yang awalnya dikembangkan oleh Barry Vercoe pada tahun 1985 di MIT Media Lab. Sejak tahun 90 -an, telah dikembangkan oleh sekelompok pengembang inti.
Data murni - Pure Data ( PD ) adalah bahasa pemrograman visual yang dikembangkan oleh Miller Puckette pada 1990 -an untuk menciptakan musik komputer interaktif dan karya multimedia. Sementara Puckette adalah penulis utama program ini, PD adalah proyek open-source dengan basis pengembang besar yang bekerja pada ekstensi baru. Dirilis di bawah BSD-3-Clause. Ini berjalan di Linux, MacOS, iOS, Android "Android (Sistem Operasi)") dan Windows. Port ada untuk FreeBSD dan IRIX.
PlugData - Lingkungan pemrograman visual untuk eksperimen audio, prototyping dan pendidikan.
Max/MSP/Jitter - Max , juga dikenal sebagai MAX/MSP/Jitter, adalah bahasa pemrograman visual untuk musik dan multimedia yang dikembangkan dan dikelola oleh perusahaan perangkat lunak yang berbasis di San Francisco Cycling '74. Selama lebih dari tiga puluh tahun sejarahnya, telah digunakan oleh komposer, pemain, perancang perangkat lunak, peneliti, dan seniman untuk membuat rekaman, pertunjukan, dan instalasi.
KYMA (Sound Design Language) - Kyma adalah bahasa pemrograman visual untuk desain suara yang digunakan oleh musisi, peneliti, dan desainer suara. Di Kyma, pengguna memprogram DSP multiprosesor dengan menghubungkan modul secara grafis di layar komputer Macintosh atau Windows.
SuperCollider - SuperCollider adalah platform untuk sintesis audio dan komposisi algoritmik, yang digunakan oleh musisi, seniman, dan peneliti yang bekerja dengan Sound. Server audio, bahasa pemrograman, dan IDE untuk sintesis suara dan komposisi algoritmik.
Sonic Pi - Sonic Pi adalah lingkungan pengkodean langsung berdasarkan Ruby "Ruby (Programming Language)"), yang awalnya dirancang untuk mendukung pelajaran komputasi dan musik di sekolah, yang dikembangkan oleh Sam Aaron di Laboratorium Komputer Universitas Cambridge bekerja sama dengan Raspberry Pi Dasar.
Reaktor - Reaktor adalah studio musik perangkat lunak modular grafis yang dikembangkan oleh Native Instruments (NI). Ini memungkinkan musisi dan spesialis suara untuk merancang dan membangun instrumen mereka sendiri, sampler "sampler (alat musik)"), efek dan alat desain suara. Ini dilengkapi dengan banyak instrumen dan efek yang siap digunakan, dari emulasi synthesizer klasik hingga alat desain suara futuristik.
RTCMIX- RTCMIX adalah "bahasa" perangkat lunak real-time untuk melakukan sintesis suara digital dan pemrosesan sinyal. Ini ditulis dalam C/C ++, dan didistribusikan open-source, gratis.
Chuck - Chuck adalah bahasa pemrograman untuk sintesis suara real -time dan penciptaan musik. Chuck menawarkan model pemrograman bersamaan berbasis waktu yang unik yang tepat dan ekspresif (kami menyebutnya sangat tepat waktu), tingkat kontrol dinamis, dan kemampuan untuk menambah dan memodifikasi kode saat terbang. Selain itu, Chuck mendukung MIDI, OpenSoundControl, perangkat HID, dan audio multi-channel. Ini open-source dan tersedia secara bebas di MacOS X, Windows, dan Linux. Sangat menyenangkan dan mudah dipelajari, dan menawarkan komposer, peneliti, dan pemain alat pemrograman yang kuat untuk membangun dan bereksperimen dengan program sintesis/analisis audio yang kompleks, dan musik interaktif waktu-nyata.
Faust-Faust (aliran audio fungsional) adalah bahasa pemrograman fungsional untuk sintesis suara dan pemrosesan audio dengan fokus yang kuat pada desain synthesizer, alat musik, efek audio, dll. Target Faust menargetkan aplikasi pemrosesan sinyal kinerja tinggi dan plug-in audio plug-in untuk berbagai platform dan standar.
Jiwa - Bahasa Pemrograman Jiwa dan API. Soul (Sound Language) adalah upaya untuk memodernisasi dan mengoptimalkan cara kode audio berkinerja tinggi, latensi rendah ditulis dan dieksekusi.
CMAJOR - CMAJOR adalah bahasa pemrograman untuk menulis perangkat lunak audio portabel yang cepat. Anda pernah mendengar tentang C, C ++, C#, Objective-C ... well, C Major adalah bahasa C-keluarga yang dirancang khusus untuk menulis kode pemrosesan sinyal DSP.
VCV Rack - Rack adalah aplikasi host untuk platform Synthesizer Modular Eurorack VCV VCV.
GWion - Gwion adalah bahasa pemrograman, yang ditujukan untuk membuat musik. sangat terinspirasi oleh Chuck, tetapi menambahkan banyak fitur tingkat tinggi ; Templating, fungsi kelas satu dan banyak lagi. Ini bertujuan untuk menjadi sederhana, kecil, cepat, dapat diperpanjang dan dapat disematkan.
Audio Elementary - Elementary adalah kerangka kerja JavaScript dan mesin audio berkinerja tinggi yang membantu Anda membangun dengan cepat dan mengirim dengan percaya diri. Kerangka kerja fungsional, fungsional untuk menulis perangkat lunak audio di web atau untuk aplikasi asli.
Elementary - Elementary adalah perpustakaan JavaScript/C ++ untuk membangun aplikasi audio.
Sound2synth - Sound2synth: Menafsirkan Sound melalui Estimasi Parameter FM Synthesizer.
JSYN - JSYN adalah synthesizer audio modular untuk Java oleh Phil Burk. Jsyn memungkinkan Anda untuk mengembangkan program musik komputer interaktif di Java. Ini dapat digunakan untuk menghasilkan efek suara, lingkungan audio, atau musik. Jsyn didasarkan pada model tradisional generator unit yang dapat dihubungkan bersama untuk membentuk suara yang kompleks.
Synthax - Synthesizer modular cepat dalam JAX ⚡️Sakelerasi sintesis audio yang jauh melampaui kecepatan realtime memiliki peran penting dalam memajukan teknik produksi audio cerdas. Synthax adalah synthesizer modular virtual cepat yang ditulis dalam Jax. Pada puncaknya, Synthax menghasilkan audio lebih dari 60.000 kali lebih cepat daripada realtime, dan secara signifikan lebih cepat daripada canggih dalam sintesis suara yang dipercepat.
MIDICA - MIDICA adalah juru bahasa untuk bahasa pemrograman musik. Ini menerjemahkan kode sumber ke MIDI. Tapi itu juga dapat digunakan sebagai pemain MIDI, kompiler MIDI atau dekompiler, pemain karaoke, pemain ALDA, pemain ABC, pemain Lilypond atau penganalisa file MIDI. Anda menulis musik dengan salah satu bahasa yang didukung (Midicapl, ALDA atau ABC).
Merkurius - Merkuri adalah bahasa yang minim dan dapat dibaca manusia untuk pengkodean langsung musik elektronik algoritmik. Semua elemen bahasa dirancang di sekitar membuat kode lebih mudah diakses dan kurang mengacaukan audiens. Motivasi ini membentang ke gaya pengkodean itu sendiri yang menggunakan nama deskriptif yang jelas untuk fungsi dan sintaks yang jelas.
Alda - Alda adalah bahasa pemrograman berbasis teks untuk komposisi musik. Ini memungkinkan Anda untuk menulis dan memutar musik hanya menggunakan editor teks dan baris perintah. Desain bahasa sama -sama mendukung estetika, fleksibilitas, dan kemudahan penggunaan.
Platonic Music Engine - Mesin musik Platonis adalah upaya untuk membuat algoritma komputer yang secara dangkal mensimulasikan keseluruhan budaya manusia kreatif, masa lalu, sekarang, dan masa depan. Ia melakukannya dengan cara interaktif yang memungkinkan pengguna untuk memilih berbagai parameter dan pengaturan sedemikian rupa sehingga hasil akhirnya akan unik bagi pengguna sambil tetap mempertahankan ide budaya yang menginspirasi pekerjaan.
Pyo-Tools-Repositori kelas Python yang siap digunakan untuk membangun efek audio dan synths dengan Pyo.
PY -Modular - Kerangka pemrograman audio modular dan eksperimental untuk Python. Py-modular adalah lingkungan pemrograman audio eksperimental kecil untuk Python. Ini dimaksudkan untuk menjadi basis untuk eksplorasi teknologi audio dan alur kerja baru. Sebagian besar segala sesuatu di py-modular dibangun di sekitar alur kerja berbasis node, yang berarti kelas-kelas kecil melakukan tugas-tugas kecil dan dapat ditambal bersama untuk membuat synthesizer penuh atau ide yang lebih besar.
Bach: Pembantu Komposer Otomatis-satu set tambalan lintas platform dan eksternal untuk Max, yang bertujuan untuk membawa kekayaan komposisi berbantuan komputer ke dunia real-time.
Audiokit - Audiokit adalah platform sintesis, pemrosesan, dan analisis audio untuk iOS, macOS (termasuk katalis), dan TVOS.
Twang - Perpustakaan untuk Sintesis Audio Lanjutan Pure Rust.
Gensound - Pythonic Audio Processing dan Generation Framework. Cara Python menuju pemrosesan & sintesis audio.
Otto - Otto adalah groovebox perangkat keras digital, dengan synths, samplers, efek dan sequencer dengan looper audio. Antarmuka datar, modular, dan mudah digunakan, tetapi yang terpenting, ini bertujuan untuk mendorong eksperimen.
LORIS - Loris adalah perpustakaan untuk analisis suara, sintesis, dan morphing, yang dikembangkan oleh Kelly Fitz dan Lippold Haken di Cerl Sound Group. Loris menyertakan perpustakaan kelas C ++, modul python, antarmuka C-linkable, utilitas baris perintah, dan dokumentasi.
Iannix - Iannix adalah sequencer open -source grafis, berdasarkan Iannis Xenakis Works, untuk seni digital. Iannix Syncs melalui acara Open Sound Control (OSC) dan kurva ke lingkungan real-time Anda.
Leipzig - Perpustakaan Komposisi Musik untuk Clojure dan ClojureScript.
Nyquist - Nyquist adalah sintesis suara dan bahasa komposisi yang menawarkan sintaks LISP serta sintaksis bahasa yang penting dan lingkungan pengembangan terintegrasi yang kuat .. Nyquist adalah sistem yang elegan dan kuat berdasarkan pemrograman fungsional.
OpenMusic (OM) - OpenMusic (OM) adalah bahasa pemrograman visual berdasarkan LISP. Program visual dibuat dengan merakit dan menghubungkan ikon yang mewakili fungsi dan struktur data. Sebagian besar pemrograman dan operasi dilakukan dengan menyeret ikon dari tempat tertentu dan menjatuhkannya ke tempat lain. Struktur kontrol visual bawaan (misalnya loop) disediakan, yang berinteraksi dengan yang LISP. Kode Commonlisp/Clos yang ada dapat dengan mudah digunakan dalam OM, dan kode baru dapat dikembangkan dengan cara visual.
ORCλ - ORCA adalah bahasa pemrograman esoterik yang dirancang untuk dengan cepat membuat sequencer prosedural, di mana setiap huruf alfabet adalah operasi, di mana huruf kecil beroperasi di bang, huruf besar mengoperasikan setiap bingkai.
OVERNONE - Oversone adalah lingkungan audio open source yang dirancang untuk mengeksplorasi ide -ide musik baru dari sintesis dan pengambilan sampel hingga pembangunan instrumen, pengkodean langsung dan jamming kolaboratif. Kami menggabungkan mesin audio supercollider yang kuat, dengan clojure, canggih lisp, untuk menciptakan pengalaman sonik interaktif yang memabukkan.
Seam - Musik elektro -akustik berkelanjutan - pangkalan. Musik elektro-akustik berkelanjutan adalah proyek yang terinspirasi oleh Alvise Vidolin dan Nicola Bernardini.
GLICOL - GLICOL (akronim untuk "Bahasa Pengodean Langsung Berorientasi Grafik") adalah bahasa musik komputer dengan bahasa dan mesin audio yang ditulis dalam bahasa pemrograman karat, alternatif modern untuk C/C ++. Mengingat sifat tingkat rendah ini, Glicol dapat berjalan pada banyak platform yang berbeda seperti browser, plugin VST dan papan Bela. Sintaksis seperti synth Glicol dan mesin audio yang kuat juga memungkinkan untuk menggabungkan kontrol synth atau sequencer tingkat tinggi dengan sintesis audio yang akurat sampel tingkat rendah, semuanya secara real-time.
Papersynth - Teks tulisan tangan untuk synths! Papersynth adalah proyek yang bertujuan untuk membaca kata kunci yang telah Anda tulis di selembar kertas dan mengubahnya menjadi synthesizer yang dapat Anda mainkan di telepon.
Neural Resonator VST - Ini adalah plugin VST yang menggunakan jaringan saraf untuk menghasilkan filter berdasarkan bentuk dan bahan 2D sewenang -wenang. Dimungkinkan untuk menggunakan MIDI untuk memicu impuls sederhana untuk menggairahkan filter ini. Selain itu setiap sinyal audio dapat digunakan sebagai input ke filter.
Scyclone - Scyclone adalah plugin audio yang menggunakan teknologi transfer timbre saraf untuk menawarkan pendekatan baru untuk produksi audio. Plugin ini dibangun berdasarkan metodologi RAVE, encoder otomatis variasi audio realtime, memfasilitasi transfer timbre saraf dalam mode inferensi tunggal dan pasangan.
Mlinmax - ML untuk pembuatan suara dan pemrosesan dalam bahasa pemrograman Max Cycling '74.
ADLPLUG - FM Chip Synthesizer - OPL & OPN - VST/LV2/Mandiri.
Surge - Synthesizer Plug -in (sebelumnya dirilis sebagai Vember Audio Surge).
CSTOP - CSTOP adalah plugin Efek Audio Tape Stop yang tersedia di AU & VST3 untuk Mac (Windows segera hadir).
COMPUFART - Sintesizer dan algoritma suara kentut di CMAJOR.
PY -JS - Python3 Eksternal untuk MAX / MSP.
PD -LUA - Lua Bindings for PD, diperbarui untuk LUA 5.3+.
Live 4 Life - Alat Kinerja Spasial untuk SuperCollider.
Caesarlooper - Caesarlooper adalah klon supercollider dari plugin Augustus Loop VST oleh Expert Sleepers.
DEXED - DX7 FM MULTI PLAFORM/MULTI FORMAT Plugin.
Leapotion for max - Leapotion External for Cycling'74 Max.
Kontakt -Public - Sumber Daya untuk Instrumen Asli Kontakt Builders.
PYLIVE - Query and Control Ableton hidup dari Python.
ML -LIB - Perpustakaan Pembelajaran Mesin untuk Data Max dan Murni.
ZENGARDEN - ZENGARDEN adalah perpustakaan yang berdiri sendiri untuk menjalankan tambalan data murni.
Max -SDK - Kit Pengembangan Perangkat Lunak untuk Max dengan Bersepeda '74.
PD-HVCC-Menciptakan lingkungan seperti gen ~ untuk PD, berdasarkan kompiler berat.
Kuroscillators - Objek MAX/MSP untuk sintesis audio dan ritmik menggunakan jaringan osilator digabungkan.
ASCII -AIDIO - Menghasilkan audio PCM dari string ASCII. Teks terlihat pada gambar Spectrogram.
Belaminimoogemulation - Implementasi digital dari synthesizer analog minimoog dengan bentuk gelombang anti -alias dan rekreasi filter tangga Moog.
Edisyn - Synthesizer Patch Editor.
Paket Soundgen - R untuk sintesis suara dan analisis akustik.
Plugin Synthesizer Modular Virtual.
FLUTTER ECHO Modeling - Repositori ini menyajikan demo MATLAB untuk sintesis flutter echo.
Ups - Ups sekarang daun! Perpustakaan AC untuk sintesis dan pemrosesan audio, dimaksudkan untuk aplikasi tertanam, ditulis menggunakan gaya semi-oop.
Sonic Pi Tool -? Mengontrol Sonic Pi dari baris perintah, dalam Python.
sonicpi.vim - plugin sonic pi untuk vim.
Controlled -Chaos - Generator Ritme Euclidian Max4Live.
KPSTRONG-Ini adalah implementasi dari synth Karplus-Strong yang memetik, yang berjalan sebagai C ++ secara real-time pada perangkat keras Bela.
NN_TILDE - Eksternal MAX / PD untuk pemrosesan audio AI real -time.
Grainbow - Synthesizer yang menggunakan deteksi pitch untuk memilih kandidat untuk sintesis atau pengambilan sampel granular.
SignalFlow - Kerangka kerja sintesis suara untuk Python, yang dirancang untuk ekspresi yang jelas dan ringkas dari ide -ide musik yang kompleks.
Syntheon - Parameter inferensi synthesizer musik untuk menyederhanakan proses desain suara. Mendukung vital dan hampa.
RnbojUcetemplate - Template JUCE termasuk synthesizer minimal yang dibuat dengan RNBO ~ Maxmsp, yang merangkum keadaan RNBoObject ke dalam audioprosesor JUCE menggunakan mode audioprocessortreevaluestate modern.
Fluidsynth.clap - jembatan clap -plugin ke fluidsynth.
LaunchPADX - Antarmuka SuperCollider sederhana untuk pengontrol LaunchPADX Novation.
FAUG - Emulasi model D minimoog dengan bagian DSP yang ditulis dalam Faust. Moog + faust = faug.
Blok - Blok adalah synthesizer modular yang tersedia sebagai mandiri, VST3 & AU untuk Windows dan MacOS.
Trik Bessel - Trik Bessel adalah plugin audio saraf untuk transformasi nada langsung, sintesis instrumen musik menggunakan sintesis frekuensi modulasi (FM).

^ Kembali ke Isi ^

Audio Game (GA)

Kepada - Chuck in Unity. Plugin untuk menggunakan Chuck in Unity. Tersedia di toko aset Unity.
Raveler - Plugin WWED yang menjalankan model rave, memungkinkan transfer timbre real -time melalui sintesis audio saraf dalam pengaturan audio game.
LASP - Plugin pemrosesan sinyal audio latensi rendah untuk Unity.
Pyreaser - Pembungkus Python untuk Reaper.
Reaper-Keys-Binding VIM untuk Reaper.
Reaper Tools - Audiokinetic Reaper Tools Repositori. Koleksi ekstensi, skrip, dan alat untuk Reaper.
Reawwise - Reawwise adalah ekstensi penuai yang dapat digunakan oleh perancang suara untuk mentransfer file audio dari Reaper ke proyek Wwise.
WWISER - Parser .bnk Wwise, untuk membantu dalam menangani audio dari game menggunakan mesin Wwise.
WAAPI-Text-to-speech-integrasi teks-ke-unggun menggunakan editor eksternal.
JSFXR untuk Wwise - JSFXR (porting dari SFXR) dengan konektivitas WWED yang ditambahkan, tertanam ke dalam elektron.
SOLOUD - SOLOUD adalah mesin audio C/C ++ portabel yang mudah digunakan, gratis, portabel untuk game.
Audiotoys - DSP Doodles for Unity.
Dolby.io Virtual World Plugin for Unity - dengan plugin Dolby.io Virtual World for Unity, Anda dapat dengan mudah mengintegrasikan audio spasial dolby.io, didukung oleh teknologi Dolby Atmos ke dalam aplikasi dunia virtual Anda.
Dolby.io Virtual Worlds Plugin untuk Unreal Engine - Dengan plugin Dolby.io Virtual Worlds untuk Unreal Engine, Anda dapat dengan mudah mengintegrasikan audio spasial Dolby.io, ditenagai oleh teknologi Dolby Atmos ke dalam aplikasi dunia virtual Anda.
Simulator Mesin - Simulator Mesin Pembakaran yang menghasilkan audio realistis.
Jack Audio for Unity - Perpustakaan/Plugin ini memungkinkan perutean audio multichannel antara Unity3D dan Jackaudio.
Plugin Voxel - Plugin Voxel memungkinkan untuk membuat dunia yang sepenuhnya volumetrik, sepenuhnya dapat dirusak, tak terbatas di mesin yang tidak nyata. Ini kompatibel dengan 4.24, 4.25, 4.26, 4.27 dan Unreal 5.
Rev Unity - Demo Tachometer Rev Unity.
Unity Audio Manager (UAM) -? Digunakan untuk bermain/mengubah/berhenti/mute/... satu atau beberapa suara pada keadaan atau peristiwa tertentu dalam 2D dan 3D hanya melalui. kode.
Audio-Manager-For-Unity-Alat untuk mendefinisikan dan mengeksekusi perilaku audio dalam persatuan dalam editor berbasis node.
Unity Wise Addressable - Paket ini menambahkan dukungan untuk mendistribusikan dan memuat aset Wwise menggunakan sistem Unity Addressable.
RFXGEN-Generator suara FX yang sederhana dan mudah digunakan.
ULIPSYNC-Plug-in LipSync berbasis MFCC untuk Unity menggunakan sistem kerja dan kompiler meledak.
Godot-FMOD-Integrasi-Integrasi Middleware FMOD Studio dan Binding API Scripting untuk Mesin Game Godot.
FMOD Audio System - Sistem Audio Unity menggunakan FMOD.
WW2OGG - Konversi audiokinetic wwise riff/rifx vorbis menjadi standar ogg vorbis.
Cavern-Mesin audio berbasis objek dan paket codec dengan rendering dolby atmos, koreksi kamar, hrtf, pengambilalihan audio satu klik satu klik, dan banyak lagi.
RNBO Unity Audio Plugin - Adaptor RNBO untuk plugin audio asli Unity.
RNBO Metasounds - Adaptor RNBO yang mengimplementasikan node metasound.

^ Kembali ke Isi ^

Digital Audio Workstation (DAW)

Audacity-Audacity adalah editor dan perekam audio multi-track yang mudah digunakan untuk Windows, MacOS, GNU/Linux dan sistem operasi lainnya.
Tracktion - Tracktion adalah workstation audio open source berbasis lintas platform dengan antarmuka pengguna yang intuitif dan fungsi pengeditan dan pencampuran audio yang kuat.
Pro Tools Scripting SDK - Pro Tools Scripting SDK memungkinkan Anda untuk membuat skrip alat Pro menggunakan API independen -bahasa untuk membuat alur kerja otomatis baru di Pro Tools.
REYPY - Pembungkus Pythonic untuk Reaper's Python API.
Reaper -SDK - Reaper C/C ++ Extension SDK.
RECRIPSCRIPS - Skrip Sumber Gratis dan Terbuka X -Raym untuk Cockos Reaper.
Reascripts - Script Cockos Reaper.
Reablink - Ekstensi Plug -in Reaper Memberikan Binding Rekripton untuk Sesi Tautan Ableton, dan Ableton Link Test Plan Implementasi yang sesuai untuk Reaper.
VoodOOHOP-ABLETON-Tools-Ableton Live Harmony dan Tempo Tools. Augments Ableton hidup dengan visualisasi intuitif dari harmoni musik serta memungkinkan dinamika tempo trek untuk mengontrol master tempo secara real-time.
AbletonParsing - Purset file klip ASD ableton (penanda warp dan banyak lagi) di Python.
Ableton Push - Perpustakaan untuk bekerja dengan dorongan ableton di browser.
PYFLP - Parser File Proyek FL Studio.
VST3SDK - VST 3 Plug -in SDK.
Tuneflow -?+ Bangun algoritma musik Anda dan model AI dengan DAW generasi berikutnya
Tuneflow-Py-Tuneflow-Py adalah Python SDK dari plugin Tuneflow.
Plugin So-Vits-SVC untuk Tuneflow-So-Vits-SVC sebagai plugin Tuneflow.
Radium - Editor Musik Grafis. Pelacak generasi berikutnya.
Bass Studio - Bass Studio adalah workstation audio digital (DAW) yang ditulis dalam C ++. Windows, macOS dan Linux dibangun disediakan. Format plugin VST2 dan CLAP didukung.
GridSound-GridSound adalah workstation audio digital open-source yang dikembangkan dengan HTML5 dan lebih tepatnya dengan Web Audio API baru.
Meadowlark - Meadowlark adalah DAW (Workstation Audio Digital Audio Workstation) (Work In Progress) gratis dan gratis (Digital Audio) untuk Linux, Mac, dan Windows. Ini bertujuan untuk menjadi rekaman, menyusun, mengedit, merancang suara, pencampuran, dan penguasaan yang kuat untuk seniman di seluruh dunia, sementara juga menjadi intuitif dan dapat disesuaikan.
MIXXX - MIXXX adalah perangkat lunak DJ gratis yang memberi Anda semua yang Anda butuhkan untuk melakukan campuran langsung.
Hybrid-DJ-Set-Sinkronisasi perangkat lunak DJ (MIXXX) dengan data murni untuk melapisi instrumen virtual dalam kinerja langsung.
LV2 - LV2 adalah standar plugin untuk sistem audio. Ini mendefinisikan API C yang dapat diperluas untuk plugin, dan format untuk direktori "bundel" mandiri yang berisi plugin, metadata, dan sumber daya lainnya.
Ardor - Rekam, Edit, dan Campurkan di Linux, MacOS dan Windows.
LMMS - LMMS adalah alternatif lintas platform gratis untuk program komersial seperti FL Studio®, yang memungkinkan Anda untuk memproduksi musik dengan komputer Anda. Ini termasuk penciptaan melodi dan ketukan, sintesis dan pencampuran suara, dan pengaturan sampel.
Qtractor - Qtractor adalah aplikasi sequencer multi -track audio/midi yang ditulis dalam C ++ dengan kerangka kerja QT. Platform target adalah Linux, di mana Jack Audio Connection Kit (Jack) untuk audio, dan Linux Sound Architecture (ALSA) canggih untuk MIDI, adalah infrastruktur utama yang berevolusi sebagai GUI workstation desktop linux yang cukup fitur, khusus yang didedikasikan untuk tersebut Studio rumah pribadi.
Smart-Audio-Mixer-Workstation Audio Digital Modern (DAW) menggunakan C ++/JUCE.
Plugin OpenVino ™ AI untuk Audacity - satu set efek, generator, dan analisis yang mendukung AI -A -yang untuk Audacity.
JACKDAW-Digital Audio Workstation (DAW) yang dilucuti, yang berfokus pada keyboard (DAW) mengambil beberapa isyarat desain dari editor video non-linear seperti Avid.
OSSIA SCORE - Audio pendukung sequencer intermedia (VST, VST3, LV2, JSFX, dll.) Serta kontrol video dan perangkat keras (OSC, MIDI, DMX, NDI, MQTT, COAP, dll.)

^ Kembali ke Isi ^

Audio Spasial (SA)

Spaudiopy - Paket Python audio spasial. Fokusnya (sejauh ini) adalah pada encoder audio spasial dan decoder. Paket ini mencakup pengolahan harmonik bola EG dan (rendering binaural dari) decoder pengeras suara, seperti VBAP dan Allrad.
Spatial_audio_framework (SAF)-The spatial_audio_framework (SAF) adalah kerangka kerja open-source dan lintas platform untuk mengembangkan algoritma dan perangkat lunak terkait audio spasial di C/C ++. Awalnya dimaksudkan sebagai sumber daya bagi para peneliti di lapangan, kerangka kerja ini secara bertahap tumbuh menjadi basis kode yang agak besar dan terdokumentasi dengan baik yang terdiri dari sejumlah modul yang berbeda; Dengan setiap modul yang menargetkan sub-bidang spesifik audio spasial (misalnya pengkodean/pengursuan ambisonik, pemrosesan array bola, penganut amplitudo, pemrosesan HRIR, simulasi kamar, dll.).
HO-SIRR-Rendering respons impuls spasial tingkat tinggi (HO-SIRR) adalah metode rendering, yang dapat mensintesis output loudspeaker ruang impuls respons impuls (RIR) menggunakan input harmonik bola (ambisonic/format B) RIR dari tatanan yang sewibas. Implementasi MATLAB dari algoritma rendering impuls spasial orde tinggi (HO-SIRR); Pendekatan alternatif untuk mereproduksi rir ambisonic atas pengeras suara.
Spatgris - Spatgris adalah perangkat lunak spasial suara yang membebaskan komposer dan perancang suara dari kendala pengaturan speaker dunia nyata. Dengan plugin ControlGris yang didistribusikan dengan spatgris, lintasan spasial yang kaya dapat disusun secara langsung di DAW Anda dan direproduksi secara real-time pada tata letak speaker apa pun. Ini cepat, stabil, lintas platform, mudah dipelajari dan bekerja dengan alat yang sudah Anda ketahui. Spatgris mendukung pengaturan speaker apa pun, termasuk tata letak 2D seperti quad, 5.1 atau cincin octophonic, dan tata letak 3D seperti kubah speaker, ruang konser, teater, dll. Proyek juga dapat dicampur ke stereo menggunakan fungsi transfer yang terkait dengan kepala binaural atau stereo sederhana yang sederhana atau sederhana stereo sederhana binaural yang berhubungan dengan binaural atau stereo sederhana binaural yang berhubungan dengan binaural atau stereo sederhana binaural yang berhubungan dengan binaural yang terkait dengan binaural binaural head atau stereo sederhana Panning.
Steam Audio - Steam Audio memberikan solusi audio berfitur lengkap yang mengintegrasikan simulasi lingkungan dan pendengar. HRTF secara signifikan meningkatkan perendaman dalam VR; Perambatan suara berbasis fisika melengkapi perendaman aural dengan secara konsisten menciptakan kembali bagaimana suara berinteraksi dengan lingkungan virtual.
SpatialAudiokit - SpatialAudiokit adalah paket cepat untuk memfasilitasi penulisan aplikasi audio spasial di platform Apple.
libmysofa - Pembaca untuk file sofa AES untuk mendapatkan HRTF yang lebih baik.
Omnitone - Omnitone: Rendering audio spasial di web. Omnitone adalah implementasi yang kuat dari decoding ambisonic dan rendering binaural yang ditulis dalam Web Audio API. Proses renderingnya ditenagai oleh fitur asli cepat dari Web Audio API (GainNode dan Convolver), memastikan kinerja optimal. Implementasi omniton didasarkan pada spesifikasi media spasial Google dan filter binaural Sadie. Ini juga Powers Resonance Audio SDK untuk Web.
Mach1 Spatial - Mach1 Spatial SDK mencakup API untuk memungkinkan pengembang merancang aplikasi yang dapat mengkodekan atau memuat ke render audio spasial dari aliran audio dan/atau pemutaran dan mendekode campuran audio spasial 8Channel Mach1Spatial dengan orientasi untuk mendekode jumlah output stereo yang benar dari pengguna dari pengguna dari pengguna dari pengguna's orientasi saat ini. Selain itu SDK spasial Mach1 memungkinkan pengguna untuk mengonversi campuran audio surround/spasial dengan aman ke dan dari format VVBP Mach1spatial atau Mach1Horizon.
Soundspaces - Soundspaces adalah platform simulasi akustik yang realistis untuk penelitian AI yang diwujudkan audio -visual. Dari navigasi audio-visual, eksplorasi audio-visual hingga ekolokasi dan rekonstruksi denah lantai audio-visual, platform ini memperluas penelitian visi yang diwujudkan ke ruang lingkup topik yang lebih luas.
Pencocokan Acoustic Visual - Kami memperkenalkan tugas pencocokan akustik visual, di mana klip audio diubah menjadi terdengar seperti direkam dalam lingkungan target. Mengingat gambar lingkungan target dan bentuk gelombang untuk audio sumber, tujuannya adalah untuk mensintesis ulang audio agar sesuai dengan akustik ruang target seperti yang disarankan oleh geometri dan bahan yang terlihat.
Fast-RIR-Ini adalah implementasi resmi dari generator respons impuls ruang difus cepat berbasis jaringan kami (FAST-RIR) untuk menghasilkan respons impuls ruang (RIR) untuk lingkungan akustik yang diberikan.
Pygsound-Generasi respons impuls berdasarkan mesin propagasi suara geometris canggih.
RIRIS - RIRIS adalah implementasi MATLAB dari interpolasi respons impuls kamar menggunakan Transformasi Shearlet Cepat.
Parallel-Reverb-Raytracer-Raytracer untuk respons impuls (untuk Reverb), dipengaruhi oleh teknik pencahayaan grafis raster.
Synth 3D - VST Synthesizer dengan objek osilator virtual ditempatkan di ruang 3D.
libbasicsofa - Perpustakaan yang sangat mendasar untuk membaca format berorientasi spasial untuk file akustik (sofa), format untuk menyimpan HRTF dan/atau brirs untuk reproduksi audio binuaral.
MESH2HRTF - Perangkat lunak terbuka untuk perhitungan numerik fungsi transfer yang berhubungan dengan kepala.
Openal Soft - Openal Soft adalah implementasi perangkat lunak dari Openal 3D Audio API.
Soundscape_ir - Soundscape_ir adalah kotak alat berbasis Python dari pengambilan informasi soundscape, yang bertujuan untuk membantu dalam analisis rekaman soundscape.
Badan yang terdengar - Kami menyajikan model yang dapat menghasilkan bidang suara 3D yang akurat dari tubuh manusia dari mikrofon headset dan pose tubuh sebagai input.
Soundscapy - Perpustakaan Python untuk menganalisis dan memvisualisasikan penilaian soundscape.
Ambix-Cross-Platform Ambisonic VST, LV2 Plug-in dengan pesanan variabel untuk digunakan dalam workstation audio digital seperti Reaper atau Ardor atau sebagai aplikasi mandiri jack.
HOAC - Codec Ambisonics tingkat tinggi untuk audio spasial.
OpenSoundLab - OpenSoundLab (OSL) membuat suara modular menambal tiga dimensi dalam pengalaman realitas campuran menggunakan mode passthrough meta Quest.
Lihat-2-sound? -Suara lingkungan-ke-spasial zero-shot.

^ Kembali ke Isi ^

Web Audio Processing (WAP)

WEBRTC Audio Processing - Pengikatan Python dari pemrosesan audio WebRTC.
WebChuck - Webchuck membawa Chuck, bahasa pemrograman audio yang sangat tepat waktu, ke web! Kode sumber C ++ Chuck telah dikompilasi ke WebAssembly (WASM) dan berjalan melalui antarmuka AudioWorkLetNode dari Web Audio API.
Midi.js -? Membuat hidup mudah untuk membuat aplikasi midi di web. Termasuk perpustakaan untuk memprogram sinestesia ke dalam aplikasi Anda untuk pengenalan memori atau untuk membuat efek trippy. Konversi Soundfonts untuk gitar, bass, drum, dll. ke dalam kode yang dapat dibaca oleh browser. Midi.js mengikat bersama, dan membangun kerangka kerja yang membawa Midi ke browser. Gabungkan dengan Jasmid untuk membuat aliran MIDI Radio Web yang mirip dengan demo ini, atau dengan Three.js, Sparks.js, atau GLSL untuk membuat eksperimen audio/visual.
Web Voice Processor - Perpustakaan untuk pemrosesan suara real -time di browser web.
Tone.js - Tone.js adalah kerangka audio web untuk membuat musik interaktif di browser. Arsitektur Tone.js bertujuan untuk menjadi akrab bagi musisi dan pemrogram audio yang membuat aplikasi audio berbasis web. Pada tingkat tinggi, nada menawarkan fitur DAW (Digital Audio Workstation) yang umum seperti transportasi global untuk acara sinkronisasi dan penjadwalan serta synth dan efek prebuilt. Selain itu, nada menyediakan blok bangunan berkinerja tinggi untuk membuat synthesizer, efek, dan sinyal kontrol yang kompleks Anda sendiri.
Audio.js - AudioJS adalah perpustakaan drop -in JavaScript yang memungkinkan tag <audio> HTML5 untuk digunakan di mana saja. Ini menggunakan <audio> asli jika tersedia dan kembali ke flash player yang tidak terlihat untuk meniru untuk browser lain. Ini juga melayani UI HTML Player yang konsisten untuk semua browser yang dapat ditata CSS standar yang digunakan.
Peaks.js - Komponen UI JavaScript untuk berinteraksi dengan bentuk gelombang audio.
Howler.js - Perpustakaan Audio JavaScript untuk Web Modern. Howler.js membuat bekerja dengan audio di JavaScript mudah dan dapat diandalkan di semua platform. Howler.js adalah perpustakaan audio untuk web modern. Itu default ke Web Audio API dan kembali ke audio HTML5. Ini membuat bekerja dengan audio di JavaScript mudah dan dapat diandalkan di semua platform.
Coffeecollider - Coffeecollider adalah bahasa untuk sintesis audio waktu nyata dan komposisi algoritmik di HTML5. Konsep proyek ini dirancang sebagai "Tulis CoffeeScript, dan diproses sebagai supercollider."
pico.js - prosesor audio untuk cross -platform.
Timbre.js - Timbre.js menyediakan pemrosesan fungsional dan mensintesis audio di aplikasi web Anda dengan cara JavaScript modern seperti jQuery atau node.js. Ini memiliki banyak objek-T (secara formal: objek Timbre) yang terhubung bersama untuk menentukan perutean berbasis grafik untuk rendering audio secara keseluruhan. Ini adalah tujuan dari proyek ini untuk mendekati pemrosesan audio generasi berikutnya untuk Web.
Rythm.js - Perpustakaan JavaScript yang membuat halaman Anda menari.
p5.sound - P5.sound memperluas P5 dengan fungsi audio web termasuk input audio, pemutaran, analisis dan sintesis.
WADJS - Perpustakaan JavaScript untuk memanipulasi audio. DAW Audio Web. Gunakan API Audio Web untuk sintesis suara dinamis. Ini seperti jQuery untuk telinga Anda.
Ableton.js - ableton.js memungkinkan Anda mengontrol instance atau instance ableton menggunakan node.js. Ia mencoba untuk mencakup sebanyak mungkin fungsi.
Sound.js - "sound.js" adalah perpustakaan mikro yang memungkinkan Anda memuat, bermain, dan menghasilkan efek suara dan musik untuk game dan aplikasi interaktif. Ini sangat kecil: kurang dari 800 baris kode dan tidak ada dependensi. Klik di sini untuk mencoba demo interaktif. You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (beberapa tembakan kloning suara).
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

Memperluas