audio development tools ดาวน์โหลด - audio development tools ดาวน์โหลดซอร์สโค้ด

เครื่องมือพัฒนาเสียง (ADT)

นี่คือรายการเครื่องมือพัฒนาเสียง เสียง และดนตรีซึ่งประกอบด้วยการเรียนรู้ของเครื่อง การสร้างเสียง การประมวลผลสัญญาณเสียง การสังเคราะห์เสียง เสียงในเกม เวิร์กสเตชันเสียงดิจิทัล เสียงเชิงพื้นที่ การดึงข้อมูลเพลง การสร้างเพลง การรู้จำเสียง การสังเคราะห์เสียงพูด การสังเคราะห์เสียงร้องเพลงและอื่น ๆ

สารบัญ

การเรียนรู้ของเครื่อง (ML)
การสร้างเสียง (AG)
การประมวลผลสัญญาณเสียง (ASP)
การสังเคราะห์เสียง (SS)
เสียงเกม (GA)
เวิร์คสเตชั่นเสียงดิจิตอล (DAW)
เสียงเชิงพื้นที่ (SA)
การประมวลผลเสียงบนเว็บ (WAP)
การดึงข้อมูลเพลง (MIR)
มิวสิคเจเนอเรชั่น (MG)
การรู้จำเสียง (ASR)
การสังเคราะห์เสียงพูด (TTS)
การสังเคราะห์เสียงร้องเพลง (SVS)

รายการโครงการ

การเรียนรู้ของเครื่อง (ML)

librosa - Librosa เป็นแพ็คเกจ Python สำหรับการวิเคราะห์เพลงและเสียง โดยจะให้องค์ประกอบที่จำเป็นในการสร้างระบบการดึงข้อมูลเพลง
Essentia - Essentia เป็นไลบรารี C++ แบบโอเพ่นซอร์สสำหรับการวิเคราะห์เสียงและการดึงข้อมูลเพลงจากเสียงที่เผยแพร่ภายใต้ลิขสิทธิ์ Affero GPLv3 ประกอบด้วยคอลเลกชันอัลกอริธึมที่นำมาใช้ซ้ำได้อย่างกว้างขวาง ซึ่งใช้ฟังก์ชันอินพุต/เอาต์พุตเสียง บล็อกการประมวลผลสัญญาณดิจิทัลมาตรฐาน การแสดงลักษณะทางสถิติของข้อมูล และชุดคำอธิบายเพลงสเปกตรัม ชั่วคราว วรรณยุกต์ และระดับสูงจำนวนมาก ไลบรารี C++ สำหรับการวิเคราะห์เสียงและเพลง คำอธิบาย และการสังเคราะห์ รวมถึงการผูก Python
DDSP - DDSP: การประมวลผลสัญญาณดิจิตอลที่แตกต่าง DDSP คือไลบรารีของฟังก์ชัน DSP ทั่วไปในเวอร์ชันที่แตกต่าง (เช่น ซินธิไซเซอร์ เวฟเชปเปอร์ และตัวกรอง) ซึ่งช่วยให้สามารถใช้องค์ประกอบที่ตีความได้เหล่านี้เป็นส่วนหนึ่งของโมเดลการเรียนรู้เชิงลึก โดยเฉพาะอย่างยิ่งเป็นเลเยอร์เอาท์พุตสำหรับการสร้างเสียง
MIDI-DDSP - MIDI-DDSP: การควบคุมการแสดงดนตรีโดยละเอียดผ่านการสร้างแบบจำลองลำดับชั้น MIDI-DDSP คือโมเดลการสร้างเสียงแบบลำดับชั้นสำหรับการสังเคราะห์ MIDI ที่ขยายจาก DDSP
DDSP-VST - เครื่องสังเคราะห์เสียงและเอฟเฟกต์ประสาท DDSP แบบเรียลไทม์ ปลั๊กอิน VST3/AU และแอปพลิเคชันเดสก์ท็อปที่สร้างโดยใช้เฟรมเวิร์ก JUCE และ DDSP
torchsynth - ซินธิไซเซอร์โมดูลาร์เสริม GPU ใน pytorch ซึ่งเร็วกว่าเรียลไทม์ 16200x สำหรับนักวิจัย ML เสียง
aubio - aubio เป็นเครื่องมือที่ออกแบบมาเพื่อการแยกคำอธิบายประกอบจากสัญญาณเสียง คุณสมบัติต่างๆ ได้แก่ การแบ่งส่วนไฟล์เสียงก่อนการโจมตีแต่ละครั้ง การตรวจจับระดับเสียง การแตะจังหวะ และสร้างสตรีม MIDI จากเสียงสด
audioFlux - audioFlux เป็นไลบรารีเครื่องมือการเรียนรู้เชิงลึกสำหรับการวิเคราะห์เสียงและเพลง และการแยกคุณสมบัติ รองรับวิธีการเปลี่ยนแปลงการวิเคราะห์ความถี่เวลาหลายสิบวิธีและการผสมผสานคุณสมบัติโดเมนเวลาและโดเมนความถี่ที่สอดคล้องกันหลายร้อยรายการ สามารถมอบให้กับเครือข่ายการเรียนรู้เชิงลึกเพื่อการฝึกอบรม และใช้ในการศึกษางานต่างๆ ในสาขาเสียง เช่น การแยกประเภท การแยก การดึงข้อมูลดนตรี (MIR) และ ASR เป็นต้น
Polymath - Polymath ใช้การเรียนรู้ของเครื่องเพื่อแปลงไลบรารีเพลง (เช่นจากฮาร์ดไดรฟ์หรือ YouTube) ให้เป็นไลบรารีตัวอย่างการผลิตเพลง เครื่องมือนี้จะแยกเพลงออกเป็นสเตมโดยอัตโนมัติ (บีท เบส ฯลฯ) วัดปริมาณเพลงให้เป็นจังหวะและจังหวะเดียวกัน (เช่น 120bpm) วิเคราะห์โครงสร้างทางดนตรี (เช่น ท่อนร้อง คอรัส ฯลฯ) คีย์ (เช่น C4, E3 ฯลฯ) และข้อมูลอื่นๆ (เสียงต่ำ ความดัง ฯลฯ) และแปลงเสียงเป็น MIDI ผลลัพธ์ที่ได้คือไลบรารีตัวอย่างที่สามารถค้นหาได้ ซึ่งจะช่วยปรับปรุงขั้นตอนการทำงานสำหรับโปรดิวเซอร์เพลง ดีเจ และนักพัฒนาเสียง ML
IPython - IPython มีชุดเครื่องมือมากมายที่จะช่วยให้คุณใช้ประโยชน์สูงสุดจากการใช้ Python แบบโต้ตอบได้
torchaudio - ไลบรารีเสียงสำหรับ PyTorch การจัดการและการแปลงข้อมูลสำหรับการประมวลผลสัญญาณเสียง ขับเคลื่อนโดย PyTorch
TorchLibrosa - การใช้งาน PyTorch ของ Librosa
torch-audiomentations - การเพิ่มข้อมูลเสียงอย่างรวดเร็วใน PyTorch แรงบันดาลใจจากการฟังเสียง มีประโยชน์สำหรับการเรียนรู้เชิงลึก
PyTorch Audio Augmentations - ไลบรารีการเพิ่มข้อมูลเสียงสำหรับ PyTorch สำหรับเสียงในโดเมนเวลา
Asteroid - Asteroid เป็นชุดเครื่องมือแยกแหล่งกำเนิดเสียงที่ใช้ Pytorch ซึ่งช่วยให้ทดลองชุดข้อมูลทั่วไปได้อย่างรวดเร็ว มันมาพร้อมกับซอร์สโค้ดที่รองรับชุดข้อมูลและสถาปัตยกรรมที่หลากหลาย และชุดสูตรสำหรับทำซ้ำเอกสารสำคัญบางรายการ
Kapre - Kapre: ตัวประมวลผลล่วงหน้าเสียง Keras ตัวประมวลผลล่วงหน้าเสียง Keras - คำนวณ STFT, InverseSTFT, Melspectrogram และอื่นๆ บน GPU แบบเรียลไทม์
praaudio - เฟรมเวิร์กการประมวลผลเสียงล่วงหน้าสำหรับแอปพลิเคชันเสียง Deep Learning
automix-toolkit - โมเดลและชุดข้อมูลสำหรับฝึกโมเดลการผสมอัตโนมัติแบบการเรียนรู้เชิงลึก
DeepAFx - DeepAFx: เอฟเฟกต์เสียงระดับลึก เอฟเฟ็กต์การประมวลผลสัญญาณเสียง (FX) ใช้เพื่อจัดการลักษณะเสียงในสื่อต่างๆ อย่างไรก็ตาม FX จำนวนมากอาจใช้งานยากหรือน่าเบื่อ โดยเฉพาะสำหรับผู้ใช้มือใหม่ ในงานของเรา เรามุ่งหวังที่จะลดความซับซ้อนของการใช้ Audio FX โดยการฝึกเครื่องให้ใช้ FX โดยตรง และดำเนินการงานการผลิตเสียงอัตโนมัติ ด้วยการใช้เครื่องมือที่คุ้นเคยและมีอยู่สำหรับการประมวลผลและการแนะนำพารามิเตอร์ควบคุม เราสามารถสร้างกระบวนทัศน์ที่เป็นเอกลักษณ์ที่ผสมผสานพลังของ AI เข้ากับการควบคุมเชิงสร้างสรรค์ของมนุษย์เพื่อเพิ่มศักยภาพให้กับผู้สร้าง
nnAudio - nnAudio คือกล่องเครื่องมือประมวลผลเสียงที่ใช้เครือข่ายประสาทเทียม PyTorch เป็นแบ็กเอนด์ การทำเช่นนี้ จะสามารถสร้างสเปกโตรแกรมจากเสียงได้ทันทีระหว่างการฝึกโครงข่ายประสาทเทียม และสามารถฝึกเมล็ดฟูริเยร์ (เช่น หรือเมล็ด CQT) ได้
WavEncoder - WavEncoder เป็นไลบรารี Python สำหรับการเข้ารหัสสัญญาณเสียง การแปลงเพื่อเพิ่มคุณภาพเสียง และฝึกฝนโมเดลการจัดหมวดหมู่เสียงด้วยแบ็กเอนด์ PyTorch
SciPy - SciPy (ออกเสียงว่า "Sigh Pie") เป็นซอฟต์แวร์โอเพ่นซอร์สสำหรับคณิตศาสตร์ วิทยาศาสตร์ และวิศวกรรมศาสตร์ ประกอบด้วยโมดูลสำหรับสถิติ การเพิ่มประสิทธิภาพ บูรณาการ พีชคณิตเชิงเส้น การแปลงฟูเรียร์ การประมวลผลสัญญาณและภาพ ตัวแก้ปัญหา ODE และอื่นๆ
pyAudioAnalysis - ไลบรารีการวิเคราะห์เสียง Python: การแยกคุณสมบัติ การแบ่งประเภท การแบ่งส่วน และแอปพลิเคชัน
Mutagen - Mutagen เป็นโมดูล Python สำหรับจัดการข้อมูลเมตาของเสียง รองรับไฟล์เสียง ASF, FLAC, MP4, Monkey's Audio, MP3, Musepack, Ogg Opus, Ogg FLAC, Ogg Speex, Ogg Theora, Ogg Vorbis, True Audio, WavPack, OptimFROG และ AIFF รองรับ ID3v2 ทุกเวอร์ชัน และเฟรม ID3v2.4 มาตรฐานทั้งหมดจะถูกแยกวิเคราะห์ สามารถอ่านส่วนหัวของ Xing เพื่อคำนวณบิตเรตและความยาวของ MP3 ได้อย่างแม่นยำ แท็ก ID3 และ APEv2 สามารถแก้ไขได้โดยไม่คำนึงถึงรูปแบบเสียง นอกจากนี้ยังสามารถจัดการสตรีม Ogg ในระดับแพ็กเก็ต/เพจแต่ละรายการได้
LibXtract - LibXtract เป็นไลบรารี่ที่เรียบง่าย พกพาได้ และมีน้ำหนักเบาของฟังก์ชันแยกคุณสมบัติเสียง วัตถุประสงค์ของไลบรารีคือเพื่อจัดเตรียมชุดพื้นฐานการแยกคุณลักษณะที่ค่อนข้างครบถ้วนสมบูรณ์ ซึ่งได้รับการออกแบบมาให้ 'เรียงซ้อน' เพื่อสร้างลำดับชั้นการแยกข้อมูล
dejavu - การพิมพ์ลายนิ้วมือและการจดจำเสียงใน Python Dejavu สามารถจดจำเสียงได้โดยการฟังเพียงครั้งเดียวและพิมพ์ลายนิ้วมือ จากนั้นด้วยการเล่นเพลงและบันทึกอินพุตไมโครโฟนหรืออ่านจากดิสก์ Dejavu จะพยายามจับคู่เสียงกับลายนิ้วมือที่เก็บไว้ในฐานข้อมูล และส่งคืนเพลงที่กำลังเล่นอยู่
การจับคู่ - ?? การจับคู่และการเรียนรู้เสียงแบบโอเพ่นซอร์ส Matchering 2.0 เป็น Containerized Web Application และ Python Library ใหม่สำหรับการจับคู่เสียงและการควบคุมเสียง
TimeSide - TimeSide เป็นเฟรมเวิร์ก Python ที่ช่วยให้สามารถวิเคราะห์เสียง การสร้างภาพ การแปลงรหัส การสตรีม และการติดฉลากในระดับต่ำและระดับสูง API ระดับสูงได้รับการออกแบบมาเพื่อให้สามารถประมวลผลที่ซับซ้อนบนชุดข้อมูลขนาดใหญ่มากของเนื้อหาเสียงหรือวิดีโอใดๆ ด้วยสถาปัตยกรรมปลั๊กอิน แบ็กเอนด์ที่ปลอดภัยที่ปรับขนาดได้ และส่วนหน้าของเว็บแบบไดนามิกที่ขยายได้
Meyda - Meyda เป็นไลบรารีการแยกคุณสมบัติเสียง Javascript Meyda รองรับทั้งการแยกคุณสมบัติออฟไลน์และการแยกคุณสมบัติแบบเรียลไทม์โดยใช้ Web Audio API เราเขียนบทความเกี่ยวกับเรื่องนี้ ซึ่งมีอยู่ที่นี่
Audiomentations - ไลบรารี Python สำหรับการเพิ่มข้อมูลเสียง แรงบันดาลใจจากอัลบั้ม มีประโยชน์สำหรับการเรียนรู้เชิงลึก ทำงานบนซีพียู รองรับเสียงโมโนและเสียงหลายช่องสัญญาณ สามารถรวมเข้ากับไปป์ไลน์การฝึกอบรมใน เช่น Tensorflow/Keras หรือ Pytorch ได้ช่วยให้ผู้คนได้รับผลงานระดับโลกในการแข่งขัน Kaggle ใช้โดยบริษัทต่างๆ ที่ผลิตผลิตภัณฑ์เครื่องเสียงแห่งยุคถัดไป
soundata - ไลบรารี Python สำหรับการดาวน์โหลด โหลด และทำงานกับชุดข้อมูลเสียง
auraloss - ชุดของฟังก์ชันการสูญเสียที่เน้นเสียงใน PyTorch
Neutone - ปลั๊กอินเสียง AI และชุมชน เชื่อมช่องว่างระหว่างการวิจัย AI และความคิดสร้างสรรค์
Waveformer - สถาปัตยกรรมที่มีประสิทธิภาพสำหรับการแยกเสียงเป้าหมายแบบเรียลไทม์
EfficientAT - การแท็กเสียงขนาดใหญ่ที่มีประสิทธิภาพ เราจัดเตรียมโมเดลที่ได้รับการฝึกอบรมล่วงหน้า AudioSet ที่พร้อมสำหรับการฝึกอบรมดาวน์สตรีมและการดึงข้อมูลการฝังเสียง
EfficientAT_HEAR - ประเมินโมเดล EfficientAT บนเกณฑ์มาตรฐานการประเมินการแสดงเสียงแบบองค์รวม
VAD-python - ตัวตรวจจับกิจกรรมเสียงใน Python รหัส Python เพื่อใช้ตัวตรวจจับกิจกรรมเสียงกับไฟล์ wave ตัวตรวจจับกิจกรรมเสียงอิงตามอัตราส่วนระหว่างพลังงานในย่านเสียงพูดและพลังงานทั้งหมด
Diffsynth - ซินธิไซเซอร์ดนตรีที่แตกต่างใน PyTorch
DDSP แบบเรียลไทม์ - DDSP แบบเรียลไทม์ (สตรีมมิ่ง) ใน PyTorch เข้ากันได้กับนิวโทน
pc-ddsp - โวโคเดอร์ DDSP ที่ควบคุมระดับเสียงได้
SSSSM-DDSP - การจับคู่เสียงซินธิไซเซอร์แบบควบคุมกึ่งควบคุมด้วย DSP ที่แตกต่าง
GOLF - ตัวสร้างเสียงประสาทที่ใช้ DDSP
audacitorch - ตัวหุ้ม PyTorch สำหรับใช้โมเดลของคุณอย่างกล้าหาญ!
Scyclone - Scyclone เป็นปลั๊กอินเสียงที่ใช้เทคโนโลยีการถ่ายโอนเสียงประสาทเพื่อเสนอแนวทางใหม่ในการผลิตเสียง
Scyclone AI - สร้างค่าที่ตั้งล่วงหน้าสำหรับ Scyclone: ปลั๊กอินการถ่ายโอน Neural Timbre แบบเรียลไทม์
Multi Task Automatic-Synthesizer-Programming - นี่คือโค้ดสำหรับโปรเจ็กต์การเขียนโปรแกรมซินธิไซเซอร์อัตโนมัติหลาย VST
NeuralNote - ปลั๊กอินเสียงสำหรับการถอดเสียงเป็น MIDI โดยใช้การเรียนรู้เชิงลึก
AudioDec - ตัวแปลงสัญญาณเสียงประสาทความเที่ยงตรงสูงแบบโอเพ่นซอร์สสตรีมมิ่ง
PaSST - การฝึกอบรมที่มีประสิทธิภาพของ Audio Transformers พร้อม Patchout
Speech_data_augment - สรุปอัลกอริธึมการเพิ่มข้อมูลคำพูด
AugLy - ไลบรารีการเพิ่มข้อมูลสำหรับเสียง รูปภาพ ข้อความ และวิดีโอ
NeuraFuzz - ปลั๊กอินเสียงประสาทที่ได้รับการฝึกอบรมเกี่ยวกับการออกแบบวงจรฟัซอะนาล็อกแบบกำหนดเอง
Ultimate Vocal Remover GUI - GUI สำหรับ Vocal Remover ที่ใช้ Deep Neural Networks
Frechet Audio Distance - ไลบรารีน้ำหนักเบาสำหรับการคำนวณระยะทาง Frechet Audio
LAPE - เฟรมเวิร์กแบบรวมสำหรับการประมวลผลและประเมินผลเสียงที่ใช้ทรัพยากรต่ำ (การฝึกอบรม SSL ล่วงหน้าและการปรับแต่งขั้นปลาย)
Azure SDK สำหรับ Python - พื้นที่เก็บข้อมูลนี้มีไว้สำหรับการพัฒนา Azure SDK สำหรับ Python ที่ใช้งานอยู่
Panotti - ตัวแยกประเภทเสียงเครือข่ายประสาทเทียมหลายช่องสัญญาณโดยใช้ Keras
Allie - Allie เป็นเฟรมเวิร์กสำหรับสร้างโมเดล Machine Learning จากไฟล์เสียง ข้อความ รูปภาพ วิดีโอ หรือ .CSV
Torchplugins - ปลั๊กอิน Max/MSP, PureData และ Unity เพื่อโหลดโมเดล Pytorch
aeiou - (ML) ยูทิลิตี้ i/o วิศวกรรมเสียง
BirdNET-Analyzer - เครื่องวิเคราะห์ BirdNET สำหรับการประมวลผลข้อมูลเสียงทางวิทยาศาสตร์
spring-reverb-dl-models - การสร้างแบบจำลองอนาล็อกเสมือนจริงของ Spring Reverb พร้อมการเรียนรู้เชิงลึก
EVAR ~ - EVAR ~ แพคเกจการประเมินผลสำหรับการนำเสนอด้วยเสียง
Julius - DSP ที่ใช้ PyTorch ที่รวดเร็วสำหรับสัญญาณเสียงและ 1D
NeuralDX7 - การทดลองแมชชีนเลิร์นนิงแบบสุ่มที่เกี่ยวข้องกับ Yamaha DX7 รุ่นคลาสสิก
HANCE - HANCE นำเสนอเทคนิคการประมวลผลสัญญาณคุณภาพสูงสุดที่พัฒนาโดยผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง วิศวกรเสียง และผู้เชี่ยวชาญด้านการประมวลผลเสียง เทคโนโลยีของเราได้รับการออกแบบมาเพื่อให้ผู้ใช้ได้รับประสบการณ์เสียงสูงสุดเท่าที่เป็นไปได้ โดยการขจัดเสียงรบกวน เสียงก้อง และความบกพร่องของสัญญาณอื่นๆ
IDEAW - ลายน้ำเสียงประสาทที่แข็งแกร่งพร้อมการฝังคู่แบบกลับด้านได้
SyNEThesia - SyNEThesia คือโปรแกรมสร้างภาพเสียงและดนตรีที่มีการเรียนรู้เชิงลึก และเป็นการเล่นคำศัพท์เกี่ยวกับ Synesthesia ซึ่งเป็นภาวะทางระบบประสาทที่เรารับรู้สิ่งเร้าได้หลายวิธี (เช่น การเห็นเสียง)
Voxaboxen - Voxaboxen เป็นเฟรมเวิร์กการเรียนรู้เชิงลึกที่ออกแบบมาเพื่อค้นหาเวลาเริ่มต้นและหยุดของเหตุการณ์เสียง (อาจทับซ้อนกัน) ในการบันทึก
แยกเสียงร้อง - เครื่องมือที่ง่ายมากสำหรับแยกเสียงร้องและเพลงพื้นหลัง ได้รับการแปลเป็นภาษาท้องถิ่นอย่างสมบูรณ์สำหรับการใช้งานบนเว็บ โดยใช้โมเดล 2stems/4stems/5stems
การปรับปรุงคำพูด - การเรียนรู้เชิงลึกเพื่อการลดเสียงรบกวน
SNAC - Multi-Scale Neural Audio Codec (SNAC) บีบอัดเสียง 44.1 kHz ให้เป็นโค้ดแยกที่บิตเรตต่ำ
Supervoice GPT - โมเดล GPT ที่แปลงจากข้อความเป็นหน่วยเสียงด้วยระยะเวลาที่เหมาะสมในการป้อนเข้าเครื่องสังเคราะห์เสียง
การแก้ไขเสียง - Zero-Shot Unsupervised และการแก้ไขเสียงแบบข้อความโดยใช้ DDPM Inversion
MAX-Audio-Classifier - IBM Developer Model Asset Exchange: ตัวแยกประเภทเสียง
anira - สถาปัตยกรรมสำหรับการอนุมานโครงข่ายประสาทเทียมในแอปพลิเคชันเสียงแบบเรียลไทม์
FakeSound - การตรวจจับเสียงทั่วไปแบบ Deepfake
Audio Mamba - แบบจำลองพื้นที่รัฐแบบสองทิศทางสำหรับการเรียนรู้การแทนเสียง
SSAMBA - SSAMBA: การเรียนรู้การนำเสนอด้วยเสียงด้วยตนเองด้วยโมเดล Mamba State Space
SLAM-LLM - SLAM-LLM เป็นชุดเครื่องมือการเรียนรู้เชิงลึกที่ช่วยให้นักวิจัยและนักพัฒนาสามารถฝึกฝนโมเดลภาษาขนาดใหญ่หลายรูปแบบที่กำหนดเอง (MLLM) โดยเน้นที่คำพูด ภาษา เสียง และการประมวลผลเพลง
MIDI2vec - MIDI2vec: การเรียนรู้การฝังสำหรับการนำเสนอ MIDI Vector Space

^ กลับสู่เนื้อหา ^

การสร้างเสียง (AG)

AudioLCM - การสร้างข้อความเป็นเสียงด้วยโมเดลความสอดคล้องแฝง
Auffusion - Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
กล่องเสียง - กล่องเสียง: การสร้างเสียงแบบครบวงจรพร้อมการแจ้งเตือนภาษาธรรมชาติ
Amphion - Amphion: ชุดเครื่องมือสร้างเสียง เพลง และคำพูดแบบโอเพ่นซอร์ส
Nendo - ชุดเครื่องมือเสียง Nendo AI
เสียงที่เสถียร - การกระจายเสียงแฝงที่มีเงื่อนไขรวดเร็ว
WavJourney - การสร้างองค์ประกอบเสียงด้วยโมเดลภาษาขนาดใหญ่
Audiocraft - Audiocraft เป็นห้องสมุด PyTorch สำหรับการวิจัยการเรียนรู้เชิงลึกเกี่ยวกับการสร้างเสียง
vschaos2 - vschaos2: การสังเคราะห์เสียงแบบนิวรัลแบบโบราณ
เครื่องสะท้อนเสียงประสาท - การสังเคราะห์เสียงร่างกายแข็งด้วยเครื่องสะท้อนเสียงแบบโมดัลที่แยกความแตกต่างได้
SoundStorm - SoundStorm: การสร้างเสียงแบบขนานที่มีประสิทธิภาพ
SpeechGPT - SpeechGPT: เสริมศักยภาพให้กับโมเดลภาษาขนาดใหญ่ด้วยความสามารถในการสนทนาข้ามโมดัลภายใน
CLAPSpeech - CLAPSpeech: การเรียนรู้ฉันทลักษณ์จากบริบทข้อความพร้อมการฝึกอบรมล่วงหน้าภาษาและเสียงที่ตัดกัน
AudioGPT - AudioGPT: การทำความเข้าใจและสร้างคำพูด ดนตรี เสียง และหัวพูดคุย
Bark - Bark เป็นโมเดลการแปลงข้อความเป็นเสียงที่สร้างโดย Suno Bark สามารถสร้างคำพูดได้หลายภาษาที่สมจริงอย่างมาก รวมถึงเสียงอื่นๆ รวมถึงเพลง เสียงพื้นหลัง และเอฟเฟกต์เสียงธรรมดา
TANGO - TANGO เป็นรูปแบบการแพร่กระจายแฝง (LDM) สำหรับการสร้างข้อความเป็นเสียง (TTA) TANGO สามารถสร้างเสียงที่สมจริง รวมถึงเสียงของมนุษย์ เสียงสัตว์ เสียงธรรมชาติและเสียงสังเคราะห์ และเอฟเฟกต์เสียงจากข้อความแจ้ง
ArchiSound - การสร้างเสียงโดยใช้โมเดลการแพร่กระจายใน PyTorch
WaveGAN - WaveGAN: เรียนรู้การสังเคราะห์เสียงดิบด้วยเครือข่ายที่สร้างความขัดแย้ง
NeuralSound - การสังเคราะห์เสียง Modal ตามการเรียนรู้พร้อมการถ่ายโอนเสียงอะคูสติก
RAVE - RAVE: โปรแกรมเปลี่ยนไฟล์เสียงอัตโนมัติแบบเรียลไทม์ โปรแกรมเข้ารหัสอัตโนมัติแบบแปรผันเพื่อการสังเคราะห์เสียงทางประสาทที่รวดเร็วและมีคุณภาพสูง
AudioLDM - AudioLDM: การสร้างข้อความเป็นเสียงพร้อมโมเดลการแพร่กระจายแฝง
Make-An-Audio - Make-An-Audio: การสร้างข้อความเป็นเสียงพร้อมโมเดลการแพร่กระจายที่ปรับปรุงอย่างรวดเร็ว
Make-An-Audio 3 - Make-An-Audio 3: การแปลงข้อความให้เป็นเสียงผ่านหม้อแปลงกระจายขนาดใหญ่แบบ Flow-based
Moûsai - Moûsai: การแปลงข้อความเป็นเสียงพร้อมการแพร่กระจายแฝงในบริบทแบบยาว
Im2Wav - การสร้างเสียงพร้อมคำแนะนำด้วยภาพ เราขอเสนอ Im2Wav ซึ่งเป็นระบบสร้างเสียงโดเมนแบบเปิดพร้อมคำแนะนำด้วยภาพ ด้วยภาพอินพุตหรือลำดับของภาพ Im2Wav จะสร้างเสียงที่เกี่ยวข้องทางความหมาย
Oobleck - ตัวแปลงสัญญาณ VAE แบบสตรีมเสียงแบบเปิดสำหรับการสังเคราะห์เสียงประสาทแบบดาวน์สตรีม
USS - นี่คือการใช้งาน PyTorch ของ Universal Source Separation พร้อม Data ที่มีป้ายกำกับไม่ชัดเจน ระบบ USS สามารถตรวจจับและแยกคลาสเสียงออกจากการบันทึกจริงได้โดยอัตโนมัติ ระบบ USS สามารถแยกคลาสเสียงได้หลายร้อยคลาสในโครงสร้างภววิทยาแบบลำดับชั้น
เครื่องกระจายกลิ่น - ? Diffusers เป็นคลังข้อมูลสำหรับโมเดลการแพร่กระจายล่วงหน้าที่ล้ำสมัยสำหรับการสร้างภาพ เสียง และแม้แต่โครงสร้างโมเลกุล 3 มิติ
ONE-PEACE - รูปแบบการนำเสนอทั่วไปผ่านรูปแบบการมองเห็น เสียง และภาษา
Tiny-Audio-Diffusion - นี่คือพื้นที่เก็บข้อมูลสำหรับสร้างตัวอย่างเสียงสั้นๆ และการฝึกอบรมโมเดลการแพร่กระจายของรูปคลื่นบน GPU ที่มี VRAM น้อยกว่า 2GB
Stable-Audio-Tools - โมเดลเจนเนอเรทีฟสำหรับการสร้างเสียงแบบมีเงื่อนไข
CTAG - การสร้างข้อความเป็นเสียงอย่างสร้างสรรค์ผ่านการเขียนโปรแกรมซินธิไซเซอร์
Audiogen Codec - ตัวแปลงสัญญาณเสียงประสาทสเตอริโอแบบบีบอัดต่ำ 48khz สำหรับเสียงทั่วไป ปรับให้เหมาะสมสำหรับความเที่ยงตรงของเสียง ?
WavCraft - WavCraft เป็นตัวแทน AI สำหรับการสร้างและแก้ไขเสียง
FoleyCrafter - FoleyCrafter: ทำให้วิดีโอเงียบ ๆ มีชีวิตชีวาด้วยเสียงที่เหมือนจริงและซิงโครไนซ์

^ กลับสู่เนื้อหา ^

การประมวลผลสัญญาณเสียง (ASP)

SouPyX - SouPyX เป็นพื้นที่ที่มีสีสันมากสำหรับการสำรวจเสียง เหมาะสำหรับการวิจัยและการสำรวจในด้านเสียงที่หลากหลาย ใน SouPyX คุณสามารถดำเนินการวิจัยและสำรวจเกี่ยวกับการประมวลผลเสียง การสังเคราะห์เสียง เอฟเฟกต์เสียง เสียงเชิงพื้นที่ การแสดงภาพเสียง เสียง AI และอื่นๆ อีกมากมาย
SoundFile - SoundFile เป็นไลบรารีเสียงที่ใช้ libsndfile, CFFI และ NumPy
Audio DSPy - audio_dspy เป็นแพ็คเกจ Python สำหรับเครื่องมือประมวลผลสัญญาณเสียง
pyAudioDspTools - pyAudioDspTools เป็นแพ็คเกจ python 3 สำหรับจัดการเสียงโดยใช้เพียง numpy
wave - โมดูล wave ให้อินเทอร์เฟซที่สะดวกกับรูปแบบเสียง WAV ไม่รองรับการบีบอัด/คลายการบีบอัด แต่รองรับโมโน/สเตอริโอ
FFmpeg - FFmpeg คือชุดของไลบรารีและเครื่องมือในการประมวลผลเนื้อหามัลติมีเดีย เช่น เสียง วิดีโอ คำบรรยาย และข้อมูลเมตาที่เกี่ยวข้อง
Opus - การบีบอัดเสียงที่ทันสมัยสำหรับอินเทอร์เน็ต
Pedalboard - Pedalboard คือไลบรารี Python สำหรับการทำงานกับเสียง: การอ่าน การเขียน การเพิ่มเอฟเฟกต์ และอื่นๆ รองรับรูปแบบไฟล์เสียงยอดนิยมส่วนใหญ่และเอฟเฟกต์เสียงทั่วไปจำนวนหนึ่งนอกกรอบ และยังอนุญาตให้ใช้รูปแบบ VST3 และ Audio Unit สำหรับปลั๊กอินของบริษัทอื่นได้
PyAudio - PyAudio จัดให้มีการเชื่อมโยง Python สำหรับ PortAudio v19 ซึ่งเป็นไลบรารี I/O เสียงข้ามแพลตฟอร์ม ด้วย PyAudio คุณสามารถใช้ Python เพื่อเล่นและบันทึกเสียงบนแพลตฟอร์มที่หลากหลาย เช่น GNU/Linux, Microsoft Windows และ Apple macOS
PortAudio - PortAudio เป็นไลบรารี I/O เสียงแบบโอเพ่นซอร์สข้ามแพลตฟอร์มฟรี ช่วยให้คุณสามารถเขียนโปรแกรมเสียงง่ายๆ ใน 'C' หรือ C++ ที่จะคอมไพล์และรันบนหลายแพลตฟอร์ม รวมถึง Windows, Macintosh OS X และ Unix (OSS/ALSA) มีวัตถุประสงค์เพื่อส่งเสริมการแลกเปลี่ยนซอฟต์แวร์เสียงระหว่างนักพัฒนาบนแพลตฟอร์มที่แตกต่างกัน แอปพลิเคชั่นจำนวนมากใช้ PortAudio สำหรับ Audio I/O
Pyo - pyo เป็นโมดูล Python ที่เขียนด้วยภาษา C เพื่อช่วยสร้างสคริปต์ประมวลผลสัญญาณดิจิทัล โมดูล Python DSP ด้วย pyo ผู้ใช้จะสามารถรวมเชนการประมวลผลสัญญาณได้โดยตรงในสคริปต์หรือโปรเจ็กต์ Python และเพื่อจัดการพวกมันแบบเรียลไทม์ผ่านล่าม
Tinytag - Tinytag เป็นห้องสมุดสำหรับอ่านข้อมูลเมตาเพลงของไฟล์เสียงทั่วไปส่วนใหญ่ใน Python ล้วนๆ อ่านข้อมูลเมตาเสียงและเพลงและระยะเวลาของไฟล์ MP3, OGG, OPUS, MP4, M4A, FLAC, WMA, Wave และ AIFF ด้วย python 2 หรือ 3
Friture - Friture เป็นแอปพลิเคชั่นสำหรับแสดงภาพและวิเคราะห์ข้อมูลเสียงสดแบบเรียลไทม์ Friture แสดงข้อมูลเสียงในวิดเจ็ตต่างๆ เช่น ขอบเขต เครื่องวิเคราะห์สเปกตรัม หรือสเปกโตรแกรม 2 มิติแบบหมุน
sounddevice - โมดูล Python นี้ให้การเชื่อมโยงสำหรับไลบรารี PortAudio และฟังก์ชั่นอำนวยความสะดวกบางอย่างในการเล่นและบันทึกอาร์เรย์ NumPy ที่มีสัญญาณเสียง
Pydub - จัดการเสียงด้วยอินเทอร์เฟซระดับสูงที่เรียบง่ายและใช้งานง่าย
NAudio - ไลบรารีเสียงและ MIDI สำหรับ .NET
การ์ดเสียง - การ์ดเสียงเป็นไลบรารีสำหรับเล่นและบันทึกเสียงโดยไม่ต้องใช้ส่วนขยาย CPython แต่จะถูกนำมาใช้โดยใช้ CFFI ที่ยอดเยี่ยมและไลบรารีเสียงดั้งเดิมของ Linux, Windows และ macOS
TarsosDSP - TarsosDSP เป็นไลบรารี Java สำหรับการประมวลผลเสียง จุดมุ่งหมายคือเพื่อให้อินเทอร์เฟซที่ใช้งานง่ายสำหรับอัลกอริธึมการประมวลผลเพลงเชิงปฏิบัติที่ใช้งานได้ง่ายที่สุดเท่าที่จะเป็นไปได้ใน Java ล้วนๆ และไม่มีการพึ่งพาภายนอกอื่นใด
Maximilian - Maximilian เป็นไลบรารีการสังเคราะห์เสียงและการประมวลผลสัญญาณข้ามแพลตฟอร์มและหลายเป้าหมาย เขียนด้วยภาษา C++ และจัดเตรียมการเชื่อมโยงกับ Javascript
ชุดเครื่องมือการสังเคราะห์ในภาษา C++ (STK) - ชุดเครื่องมือการสังเคราะห์ในภาษา C++ (STK) คือชุดของการประมวลผลสัญญาณเสียงแบบโอเพ่นซอร์สและคลาสการสังเคราะห์อัลกอริทึมที่เขียนด้วยภาษาการเขียนโปรแกรม C++
JUCE - JUCE เป็นเฟรมเวิร์กแอปพลิเคชัน C++ แบบโอเพ่นซอร์สข้ามแพลตฟอร์มสำหรับการสร้างแอปพลิเคชันเดสก์ท็อปและมือถือคุณภาพสูง รวมถึงปลั๊กอินเสียงและโฮสต์ปลั๊กอิน VST, VST3, AU, AUv3, AAX และ LV2 JUCE สามารถรวมเข้ากับโปรเจ็กต์ที่มีอยู่ได้อย่างง่ายดายผ่าน CMake หรือสามารถใช้เป็นเครื่องมือสร้างโปรเจ็กต์ผ่าน Projucer ซึ่งรองรับการส่งออกโปรเจ็กต์สำหรับ Xcode (macOS และ iOS), Visual Studio, Android Studio, Code::Blocks และ Linux Makefiles เป็น รวมถึงมีโปรแกรมแก้ไขซอร์สโค้ด
iPlug 2 - เฟรมเวิร์กปลั๊กอินเสียง C++ สำหรับเดสก์ท็อป อุปกรณ์เคลื่อนที่ และเว็บ
CHOC - คอลเลกชันของคลาสเฉพาะส่วนหัวที่ได้รับอนุญาตตามอนุญาต เพื่อจัดเตรียมงานพื้นฐานที่เป็นประโยชน์โดยมีการพึ่งพาขั้นต่ำสุด
Q - Q เป็นไลบรารี C++ ข้ามแพลตฟอร์มสำหรับการประมวลผลสัญญาณเสียงดิจิทัล ไลบรารี Q DSP ได้รับการตั้งชื่ออย่างเหมาะสมตาม "ปัจจัย Q" ซึ่งเป็นพารามิเตอร์ไร้มิติที่อธิบายคุณภาพของวงจรเรโซแนนซ์ ได้รับการออกแบบมาให้เรียบง่ายและสง่างาม ตามที่ชื่อเรียบง่าย และมีประสิทธิภาพเพียงพอที่จะทำงานบนไมโครคอนโทรลเลอร์ขนาดเล็ก
BasicDSP - BasicDSP - เครื่องมือสำหรับประมวลผลเสียง / ทดลองประมวลผลสัญญาณ
DaisySP - ไลบรารี DSP โอเพ่นซอร์สที่ทรงพลังใน C++
ชุดเครื่องมือประมวลผลสัญญาณเสียงพูด (SPTK) - ชุดเครื่องมือประมวลผลสัญญาณเสียงพูด (SPTK) เป็นชุดเครื่องมือประมวลผลสัญญาณเสียงพูดสำหรับสภาพแวดล้อม UNIX เช่น การวิเคราะห์ LPC, การวิเคราะห์ PARCOR, การวิเคราะห์ LSP, ตัวกรองการสังเคราะห์ PARCOR, ตัวกรองการสังเคราะห์ LSP, เทคนิคการหาปริมาณเวกเตอร์ และเวอร์ชันขยายอื่น ๆ ของพวกเขา
eDSP - eDSP (การประมวลผลสัญญาณดิจิทัลอย่างง่าย) คือเฟรมเวิร์กการประมวลผลสัญญาณดิจิทัลที่เขียนด้วยภาษา C++ สมัยใหม่ ซึ่งใช้ฟังก์ชันและอัลกอริธึมทั่วไปบางส่วนที่ใช้บ่อยในการประมวลผลสัญญาณดิจิทัล วิศวกรรมเสียง และระบบโทรคมนาคม
KFR - KFR เป็นเฟรมเวิร์ก DSP C++ แบบโอเพ่นซอร์สที่เน้นที่ประสิทธิภาพสูง เฟรมเวิร์ก C++ DSP ที่รวดเร็วและทันสมัย, FFT, การแปลงอัตราตัวอย่าง, ตัวกรอง FIR/IIR/Biquad (SSE, AVX, AVX-512, ARM NEON)
MWEngine - เอ็นจิ้นเสียงและ DSP สำหรับ Android เขียนด้วยภาษา C++ ซึ่งให้ประสิทธิภาพความหน่วงต่ำภายในบริบททางดนตรี ในขณะที่จัดเตรียม Java/Kotlin API รองรับทั้ง OpenSL และ AAudio
LabSound - LabSound เป็นเครื่องมือเสียงที่ใช้กราฟ C++ เอ็นจิ้นได้รับการบรรจุเป็นไลบรารีแบบคงที่ที่มีแบตเตอรี่รวมอยู่ด้วยซึ่งมีไว้สำหรับการบูรณาการในซอฟต์แวร์หลายประเภท: เกม, วิชวลไลเซอร์, การติดตั้งเชิงโต้ตอบ, สภาพแวดล้อมการเขียนโค้ดสด, ปลั๊กอิน VST, แอปพลิเคชันการแก้ไข/จัดลำดับเสียง และอีกมากมาย
Gist - Gist เป็นไลบรารีการวิเคราะห์เสียงที่ใช้ C ++
Realtime_PyAudio_FFT - การวิเคราะห์เสียงแบบเรียลไทม์ใน Python โดยใช้ PyAudio และ Numpy เพื่อแยกและแสดงภาพคุณสมบัติ FFT จากการสตรีมเสียง
Spectrum - การวิเคราะห์สเปกตรัมใน Python Spectrum เป็นไลบรารี Python ที่มีเครื่องมือในการประมาณความหนาแน่นของ Power Spectral ตามการแปลงฟูริเยร์ วิธีพาราเมตริก หรือการวิเคราะห์ค่าลักษณะเฉพาะ วิธีฟูริเยร์จะขึ้นอยู่กับคอร์เรโลแกรม พีเรียโดแกรม และการประมาณค่าของเวลช์ มีหน้าต่างทรงเรียวมาตรฐาน (Hann, Hamming, Blackman) และหน้าต่างที่แปลกใหม่อื่นๆ ให้เลือก (DPSS, Taylor, …)
tidstream - เครื่องมือสำหรับสร้างและจัดการสตรีม Vorbis และ Opus แบบสด
AudioTraits - AudioTraits เป็นนามธรรมที่ออกแบบมาเพื่อให้การทดสอบการประมวลผลเสียงสะดวกและอ่านง่ายขึ้น 'ลักษณะเสียง' จะวิเคราะห์สัญญาณเสียงที่กำหนด (บางช่องหรือทั้งหมด) และตรวจสอบคุณสมบัติบางอย่าง ผลลัพธ์ของการตรวจสอบนี้คือบูลีน ซึ่งช่วยให้สามารถรวมเข้ากับกรอบการทดสอบหน่วยใดๆ ได้อย่างง่ายดาย
genMDM Editor - อินเทอร์เฟซบนเว็บสำหรับ genMDM ซึ่งเป็นตัวควบคุม MIDI สำหรับ Sega Mega Drive และ Genesis รองรับอินเทอร์เฟซ Mega Drive MIDI
3DAudioVisualizers - ชุด OpenGL Audio Visualizer ใน C++ โดยใช้ JUCE สำหรับเสียงและ GUI
AudioStretchy - AudioStretchy เป็นไลบรารี Python ที่ช่วยให้คุณสามารถยืดสัญญาณเสียงโดยไม่ต้องเปลี่ยนระดับเสียง
SwiftAudio - SwiftAudioEx เป็นเครื่องเล่นเสียง iOS ที่เขียนด้วย Swift ทำให้การทำงานกับการเล่นเสียงจากสตรีมและไฟล์ง่ายขึ้น
WaveTools - WaveTools เป็นเฟรมเวิร์กสำหรับจัดการไฟล์เสียง โดยเฉพาะไฟล์ WAVE (.wav)
SimplyCoreAudio - ? เฟรมเวิร์ก Swift ที่มีจุดมุ่งหมายเพื่อทำให้ Core Audio ใช้งานได้น่าเบื่อน้อยลงใน macOS
DPF - กรอบงานปลั๊กอิน DISTRHO DPF ได้รับการออกแบบมาเพื่อให้การพัฒนาปลั๊กอินใหม่เป็นเรื่องง่ายและสนุกสนาน
ปลั๊กอิน Neural Amp Modeler - ปลั๊กอิน VST3/AudioUnit สำหรับ Neural Amp Modeler ที่สร้างด้วย iPlug2
lsp-dsp-lib - ไลบรารี DSP สำหรับการประมวลผลสัญญาณ
Hip-Hop - ไลบรารีสำหรับเขียนปลั๊กอินเสียงที่ใช้งาน UI ในมุมมองเว็บ ขึ้นอยู่กับ DPF
MGT-python - กล่องเครื่องมือท่าทางดนตรีสำหรับ Python
ASP - เครื่องมือหลามประมวลผลสัญญาณเสียง
TinyAudio - TinyAudio เป็นไลบรารีเอาต์พุตเสียงข้ามแพลตฟอร์ม
pymixconsole - คอนโซลมิกซ์มัลติแทร็กแบบไม่มีหัวใน Python
ปลั๊กอินเอฟเฟกต์ - เทมเพลตปลั๊กอินเอฟเฟกต์เสียงโดยใช้ Elementary และ JUCE
miniaudio - การเล่นเสียงและไลบรารีการบันทึกที่เขียนด้วยภาษา C ในไฟล์ต้นฉบับเดียว
AudioMass - เครื่องมือแก้ไขเสียงและรูปคลื่นบนเว็บที่มีคุณสมบัติครบถ้วนฟรี
ตัวอย่างเครื่องเล่นเพลง Android สากล - แอปเสียงตัวอย่างสำหรับ Android
jsfx - ชุดปลั๊กอิน JS (JesuSonic) ฟรีสำหรับ Reaper
ฟูริเยร์ - การแปลงฟูเรียร์แบบเร็ว (FFT) ใน Rust
ProtoFaust - การสร้างต้นแบบ DSP ใน Faust สำหรับแร็ค VCV ซินธิไซเซอร์แบบโมดูลาร์
Polar - เอ็นจิ้นเสียงสำหรับการประมวลผล CUDA (Windows/Linux)
ตัวแปลงเสียงเป็น MIDI - โปรแกรมสำหรับตรวจจับระดับเสียงจากไฟล์ wav และเขียน MIDI เชิงปริมาณตามเวลา
AudioTSM - AudioTSM เป็นไลบรารี Python สำหรับขั้นตอนการปรับเปลี่ยนมาตราส่วนเวลาเสียงแบบเรียลไทม์ เช่น อัลกอริธึมที่เปลี่ยนความเร็วของสัญญาณเสียงโดยไม่ต้องเปลี่ยนระดับเสียง
Multi-Filter-Delay - เอฟเฟกต์เสียงดิจิทัลดั้งเดิมที่ตั้งโปรแกรมผ่าน Juce/C++
convoLV2 - convoLV2 เป็นปลั๊กอิน LV2 ที่จะรวบรวมสัญญาณเสียงโดยมีเวลาแฝงเป็นศูนย์
Cloud Seed - Cloud Seed เป็นปลั๊กอินรีเวิร์บแบบอัลกอริทึมที่สร้างขึ้นใน C# และ C++ สำหรับการจำลองพื้นที่ขนาดใหญ่และไม่มีที่สิ้นสุดและเสียงสะท้อนแบบมอดูเลต
เพลงพื้นหลัง - เพลงพื้นหลัง ยูทิลิตี้เสียง macOS: หยุดเพลงของคุณชั่วคราว ตั้งค่าระดับเสียงของแอพแต่ละตัว และบันทึกเสียงของระบบ
audiowaveform - โปรแกรม C++ เพื่อสร้างข้อมูลรูปคลื่นและเรนเดอร์ภาพรูปคลื่นจากไฟล์เสียง
Mutagen - โมดูล Python สำหรับจัดการข้อมูลเมตาของเสียง
lewton - ตัวถอดรหัส Vorbis เขียนด้วย Pure Rust
Hound - ไลบรารีการเข้ารหัสและถอดรหัส wav ใน Rust
rodio - ไลบรารีการเล่นเสียงสนิม
CPAL - ไลบรารี I/O เสียงข้ามแพลตฟอร์มใน Pure Rust
CSCore - CSCore เป็นไลบรารีเสียง .NET ฟรี ซึ่งเขียนด้วยภาษา C# โดยสมบูรณ์
TinyOSC - ไลบรารี Open Sound Control (OSC) ขั้นต่ำที่เขียนด้วย vanilla C.
TinyWav - ไลบรารี C ขั้นต่ำสำหรับการอ่านและเขียนไฟล์เสียง WAV (16b-int & 32b-float)
JAsioHost - โฮสต์ ASIO ที่ใช้ Java (อินพุต/เอาต์พุตสตรีมเสียง)
PyWavelets - PyWavelets เป็นไลบรารีโอเพ่นซอร์สฟรีสำหรับการแปลงเวฟเล็ตใน Python เวฟเล็ตเป็นฟังก์ชันพื้นฐานทางคณิตศาสตร์ที่ได้รับการแปลทั้งเวลาและความถี่
ChowMultiTool - ปลั๊กอินเสียงหลายเครื่องมือ
รุ่น RE201 - โมเดลดิจิทัลของ Roland RE201 ปลั๊กอิน VST3, AU และซอร์สโค้ด
RtAudio - ชุดคลาส C++ ที่ให้ API ทั่วไปสำหรับอินพุต/เอาต์พุตเสียงแบบเรียลไทม์บน Linux (ALSA แบบเนทีฟ, JACK, PulseAudio และ OSS), Macintosh OS X (CoreAudio และ JACK) และ Windows (DirectSound, ASIO และ WASAPI) ระบบปฏิบัติการ
RtAudio-rs - กระดาษห่อหุ้มสนิมที่ปลอดภัยและเชื่อมโยงกับ RtAudio
PFFFT - FFT ที่ค่อนข้างเร็วและการบิดที่รวดเร็วด้วย PFFASTCONV
SHAART - SHAART เป็นชุดเครื่องมือวิเคราะห์เสียงที่ใช้ Python เพื่อวัตถุประสงค์ทางการศึกษา
TD-JUCE - เสียง JUCE และ VST ใน TouchDesigner
JIVE - JIVE คือชุดโมดูล JUCE ที่มีศูนย์กลางอยู่ที่ความปรารถนาที่จะมีแนวทางการพัฒนา UI ที่ทันสมัยยิ่งขึ้น
Amplituda - Amplituda - ไลบรารี Android ที่ใช้ FFMPEG ซึ่งประมวลผลไฟล์เสียงและจัดเตรียมอาร์เรย์ตัวอย่าง
TagLib - ไลบรารีข้อมูลเมตาของ TagLib Audio
speexdsp - ไลบรารี Python ของ Speex Echo Canceller
PyPam - เครื่องมือวิเคราะห์ Python Passive Acoustic สำหรับ Passive Acoustic Monitoring (PAM)
AudioTools - การจัดการข้อมูลเสียงเชิงวัตถุ พร้อมส่วนเสริมที่ขับเคลื่อนด้วย GPU และอื่นๆ อีกมากมาย
ทำให้เท่าเทียมกัน - โปรเจ็กต์นี้เป็นปลั๊กอิน VST สำหรับการปรับสมดุล อินเทอร์เฟซผู้ใช้ประกอบด้วยเครื่องวิเคราะห์สเปกตรัม แผงควบคุมตัวกรอง เส้นโค้งการตอบสนองความถี่ และมาตรวัดระดับ
JDSP4Linux - โปรเซสเซอร์เอฟเฟกต์เสียงสำหรับไคลเอนต์ PipeWire และ PulseAudio
FIRconv - การใช้งาน Python ของตัวกรอง Finite Impulse Response (FIR)
OpenDSP - Headless Linux ฝังระบบปฏิบัติการเรียลไทม์สำหรับ DSP เสียงและวิดีโอ
ultralight-juce - การรวมตัวเรนเดอร์ Ultralight C++/HTML เข้ากับ JUCE เพื่อ UI ที่สวยงามยิ่งขึ้น
Vult - Vult มีประโยชน์เป็นพิเศษเมื่อเขียนโปรแกรมอัลกอริทึม Digital Signal Processing (DSP) เช่น เอฟเฟกต์เสียงหรือซินธิไซเซอร์
CloudSeed [JUCE] - UI ที่ใช้ JUCE สำหรับปลั๊กอิน CloudSeed VST
TFliteTemplatePlugin - ปลั๊กอินเทมเพลต JUCE เพื่อใช้ TensorFlow lite สำหรับการอนุมานการเรียนรู้เชิงลึก
DrumFixer - DrumFixer เป็นปลั๊กอินเสียงที่ออกแบบมาเพื่อช่วยให้วิศวกรมิกซ์เสียงกลองมีเสียงดีขึ้น
BasicAudioPlayer - ไลบรารี Swift ที่ทำให้การสร้างเครื่องเล่นเสียงที่ใช้ AVAudioEngine ง่ายขึ้น
PLAudioMixer - มิกเซอร์เสียงอย่างง่ายที่ใช้โหมดเรนเดอร์ออฟไลน์ AVAudioEngine
estratto - Estratto เป็นไลบรารี่ Rust ที่ทรงพลังและใช้งานง่าย ออกแบบมาเพื่อแยกคุณสมบัติเสียงที่หลากหลายจากสัญญาณเสียงดิจิตอล
vampy - wrapper ที่อนุญาตให้เขียนปลั๊กอินการวิเคราะห์เสียงของ Vamp ด้วย Python
SoundWave - SoundWave เป็นมุมมองที่ปรับแต่งได้ซึ่งแสดงเสียงในช่วงเวลาต่างๆ
PyAV - PyAV เป็นการผูก Pythonic สำหรับไลบรารี FFmpeg
audio-dsp - เล่นกับการพัฒนาปลั๊กอินเสียง + DSP
openSMILE - openSMILE (การตีความเสียงพูดและดนตรีแบบโอเพ่นซอร์สโดยการแยกพื้นที่ขนาดใหญ่) เป็นชุดเครื่องมือโอเพ่นซอร์สที่สมบูรณ์สำหรับการวิเคราะห์ การประมวลผล และการจัดหมวดหมู่เสียง โดยเฉพาะอย่างยิ่งที่กำหนดเป้าหมายไปที่แอปพลิเคชันเสียงพูดและเพลง
Carla - Carla เป็นโฮสต์ปลั๊กอินเสียงที่มีคุณสมบัติครบถ้วน พร้อมรองรับไดรเวอร์เสียงและรูปแบบปลั๊กอินมากมาย
JUCE-HEAVY - เทมเพลต JUCE Project แสดงวิธีเชื่อมต่อ JUCE กับไฟล์ต้นฉบับที่สร้างด้วย Heavy C++ (HVCC)
Dplug - เฟรมเวิร์กปลั๊กอินเสียง VST2/VST3/AU/AAX/LV2 สำหรับ Linux/macOS/Windows
DAWNet - DAWNet เป็นปลั๊กอิน DAW (เวิร์กสเตชันเสียงหลัก) ที่เชื่อมต่อกับ Google Colab หรือสคริปต์ระยะไกล
Fish Audio Preprocessor - ประมวลผลเสียงล่วงหน้าสำหรับการฝึกอบรม
clap-validator - เครื่องมือตรวจสอบและทดสอบ CLAP อัตโนมัติ
DSP Testbench - DSP Testbench สำหรับผู้ใช้เฟรมเวิร์ก JUCE
Coupler - Coupler เป็นเฟรมเวิร์กสำหรับการเขียนปลั๊กอินเสียงใน Rust ปัจจุบันรองรับ VST3 และ CLAP API โดยมีแผนจะรองรับ AUv2 และ AAX ในอนาคตอันใกล้นี้
PyOgg - PyOgg ให้การเชื่อมโยง Python สำหรับรูปแบบไฟล์เสียง Opus, Vorbis และ FLAC ของ Xiph.org รวมถึงรูปแบบคอนเทนเนอร์ Ogg
streamlit-audiorecorder - เครื่องบันทึกเสียงสำหรับ streamlit
DtBlkFx - DtBlkFx เป็นปลั๊กอิน VST ที่ใช้ Fast-Fourier-Transform (FFT)
Smartelectronix - ปลั๊กอิน Open Source Version ของปลั๊กอิน Smartelectronix ทั้งหมด
CookieJuce - เครื่องมือบรรทัดคำสั่งสำหรับการสร้างโครงการ JUCE ที่ทันสมัยด้วย CMAKE
Auglib - Auglib เป็นไลบรารีการเสริมซึ่งให้การแปลงเพื่อแก้ไขสัญญาณเสียงและไฟล์
Klang - Klang เป็นภาษาสำหรับการออกแบบและพัฒนากระบวนการเสียงเรียลไทม์ใน C ++

^ กลับไปที่เนื้อหา ^

การสังเคราะห์เสียง (SS)

CSOUND - CSOUND เป็นระบบคอมพิวเตอร์เสียงและดนตรีซึ่งได้รับการพัฒนาโดย Barry Vercoe ในปี 1985 ที่ MIT Media Lab ตั้งแต่ยุค 90 ได้รับการพัฒนาโดยกลุ่มนักพัฒนาหลัก
Pure Data - Pure Data ( PD ) เป็นภาษาการเขียนโปรแกรมด้วยภาพที่พัฒนาโดย Miller Puckette ในปี 1990 สำหรับการสร้างดนตรีคอมพิวเตอร์แบบโต้ตอบและงานมัลติมีเดีย ในขณะที่ Puckette เป็นผู้เขียนหลักของโปรแกรม PD เป็นโครงการโอเพนซอร์ซที่มีฐานนักพัฒนาขนาดใหญ่ที่ทำงานเกี่ยวกับส่วนขยายใหม่ มันถูกปล่อยออกมาภายใต้ BSD-3-clause มันทำงานบน Linux, MacOS, iOS, Android "Android (ระบบปฏิบัติการ)") และ Windows พอร์ตมีอยู่สำหรับ FreeBSD และ IRIX
Plugdata - สภาพแวดล้อมการเขียนโปรแกรมด้วยภาพสำหรับการทดลองด้วยเสียงการสร้างต้นแบบและการศึกษา
Max/MSP/Jitter - Max หรือที่รู้จักกันในชื่อ Max/MSP/Jitter เป็นภาษาการเขียนโปรแกรมภาพสำหรับดนตรีและมัลติมีเดียที่พัฒนาและดูแลโดย บริษัท ซอฟต์แวร์ซอฟต์แวร์ที่ตั้งอยู่ในซานฟรานซิสโก Cycling '74 ในประวัติศาสตร์มากกว่าสามสิบปีมีการใช้งานโดยนักแต่งเพลงนักแสดงนักออกแบบซอฟต์แวร์นักวิจัยและศิลปินเพื่อสร้างการบันทึกการแสดงและการติดตั้ง
Kyma (ภาษาการออกแบบเสียง) - Kyma เป็นภาษาการเขียนโปรแกรมภาพสำหรับการออกแบบเสียงที่ใช้โดยนักดนตรีนักวิจัยและนักออกแบบเสียง ใน KYMA โปรแกรมผู้ใช้ DSP แบบหลายโปรเซสเซอร์โดยการเชื่อมต่อโมดูลกราฟิกบนหน้าจอของคอมพิวเตอร์ Macintosh หรือ Windows
SuperCollider - SuperCollider เป็นแพลตฟอร์มสำหรับการสังเคราะห์เสียงและองค์ประกอบอัลกอริทึมที่ใช้โดยนักดนตรีศิลปินและนักวิจัยที่ทำงานด้วยเสียง เซิร์ฟเวอร์เสียงภาษาการเขียนโปรแกรมและ IDE สำหรับการสังเคราะห์เสียงและองค์ประกอบอัลกอริทึม
Sonic Pi - Sonic Pi เป็นสภาพแวดล้อมการเข้ารหัสสดจาก Ruby "Ruby (ภาษาการเขียนโปรแกรม)") เดิมออกแบบมาเพื่อสนับสนุนทั้งบทเรียนการคำนวณและดนตรีในโรงเรียนที่พัฒนาโดย Sam Aaron ในห้องปฏิบัติการคอมพิวเตอร์ของมหาวิทยาลัยเคมบริดจ์โดยร่วมมือกับ Raspberry Pi Pi พื้นฐาน.
REAKTOR - REAKTOR เป็นสตูดิโอเพลงซอฟต์แวร์แบบแยกส่วนที่พัฒนาโดย Native Instruments (NI) ช่วยให้นักดนตรีและผู้เชี่ยวชาญด้านเสียงสามารถออกแบบและสร้างเครื่องมือของตัวเองตัวอย่าง "ตัวอย่าง (เครื่องดนตรี)") เอฟเฟกต์และเครื่องมือออกแบบเสียง มันมาพร้อมกับเครื่องมือและเอฟเฟกต์ที่พร้อมใช้งานมากมายตั้งแต่การจำลองของ synthesizers คลาสสิกไปจนถึงเครื่องมือออกแบบเสียงแห่งอนาคต
RTCMIX- RTCMIX เป็นซอฟต์แวร์ "ภาษา" แบบเรียลไทม์สำหรับการสังเคราะห์เสียงดิจิทัลและการประมวลผลสัญญาณ มันถูกเขียนใน C/C ++ และมีการแจกจ่ายโอเพนซอร์ซโดยไม่เสียค่าใช้จ่าย
Chuck - Chuck เป็นภาษาการเขียนโปรแกรมสำหรับการสังเคราะห์เสียงแบบเรียลไทม์และการสร้างดนตรี Chuck นำเสนอรูปแบบการเขียนโปรแกรมตามเวลาที่ไม่ซ้ำกันซึ่งมีความแม่นยำและแสดงออกได้อย่างแม่นยำ (เราเรียกสิ่งนี้ว่ากำหนดเวลาอย่างยิ่ง) อัตราการควบคุมแบบไดนามิกและความสามารถในการเพิ่มและแก้ไขรหัสในการบิน นอกจากนี้ Chuck ยังรองรับ MIDI, OpenSoundControl, อุปกรณ์ HID และเสียงหลายช่องทาง เป็นโอเพ่นซอร์สและมีให้บริการอย่างอิสระบน MacOS X, Windows และ Linux มันสนุกและง่ายต่อการเรียนรู้และนำเสนอนักแต่งเพลงนักวิจัยและนักแสดงเครื่องมือการเขียนโปรแกรมที่ทรงพลังสำหรับการสร้างและทดลองกับโปรแกรมการสังเคราะห์/การวิเคราะห์เสียงที่ซับซ้อนและดนตรีอินเทอร์แอคทีฟแบบเรียลไทม์
เฟาสต์-เฟาสต์ (สตรีมเสียงฟังก์ชั่น) เป็นภาษาการเขียนโปรแกรมที่ใช้งานได้สำหรับการสังเคราะห์เสียงและการประมวลผลเสียงโดยมุ่งเน้นที่การออกแบบ synthesizers, เครื่องดนตรี, เอฟเฟกต์เสียง, ฯลฯ Faust ตั้งเป้าหมายการประมวลผลสัญญาณประสิทธิภาพสูงและปลั๊กอินเสียง สำหรับแพลตฟอร์มและมาตรฐานที่หลากหลาย
Soul - The Soul Programming Language and API Soul (Sound Language) เป็นความพยายามที่จะปรับปรุงและเพิ่มประสิทธิภาพวิธีการเขียนและดำเนินการรหัสเสียงที่มีประสิทธิภาพสูงและมีความถี่ต่ำ
CMAJOR - CMAJOR เป็นภาษาการเขียนโปรแกรมสำหรับการเขียนซอฟต์แวร์เสียงที่รวดเร็วและพกพา คุณเคยได้ยินเกี่ยวกับ C, C ++, C#, Objective-C ... เอ่อ C Major เป็นภาษา C-Family ที่ออกแบบมาโดยเฉพาะสำหรับการเขียนรหัสการประมวลผลสัญญาณ DSP
VCV Rack - Rack เป็นแอปพลิเคชั่นโฮสต์สำหรับแพลตฟอร์ม Synthesizer Virtual Virtual Eurorack
GWION - GWION เป็นภาษาการเขียนโปรแกรมโดยมีวัตถุประสงค์เพื่อทำเพลง แรง บันดาลใจอย่างมากจากชัค แต่เพิ่มคุณสมบัติ ระดับสูง เทมเพลตฟังก์ชั่นชั้นหนึ่งและอื่น ๆ มันมีจุดมุ่งหมายที่จะเรียบง่ายเล็กเร็วขยายได้และฝังได้
Elementary Audio - Elementary เป็นเฟรมเวิร์ก JavaScript และเอ็นจิ้นเสียงประสิทธิภาพสูงที่ช่วยให้คุณสร้างได้อย่างรวดเร็วและจัดส่งอย่างมั่นใจ เฟรมเวิร์กการทำงานที่ประกาศใช้สำหรับการเขียนซอฟต์แวร์เสียงบนเว็บหรือแอพเนทีฟ
ระดับประถม - ประถมเป็นไลบรารี JavaScript/C ++ สำหรับการสร้างแอปพลิเคชันเสียง
Sound2Synth - Sound2Synth: การตีความเสียงผ่านการประมาณค่าพารามิเตอร์ FM synthesizer
Jsyn - Jsyn เป็นเครื่องสังเคราะห์เสียงแบบแยกส่วนสำหรับ Java โดย Phil Burk Jsyn ช่วยให้คุณพัฒนาโปรแกรมดนตรีคอมพิวเตอร์แบบโต้ตอบใน Java มันสามารถใช้ในการสร้างเอฟเฟกต์เสียงสภาพแวดล้อมเสียงหรือเพลง Jsyn ขึ้นอยู่กับแบบจำลองดั้งเดิมของเครื่องกำเนิดยูนิตซึ่งสามารถเชื่อมต่อเข้าด้วยกันเพื่อสร้างเสียงที่ซับซ้อน
Synthax - ซินธิไซเซอร์แบบโมดูลาร์ที่รวดเร็วในการสังเคราะห์เสียง JAX ⚡เร่งการสังเคราะห์เสียงไกลเกินกว่าความเร็วเรียลไทม์มีบทบาทสำคัญในการพัฒนาเทคนิคการผลิตเสียงอัจฉริยะ Synthax เป็น synthesizer แบบโมดูลาร์เสมือนจริงที่เขียนใน JAX ที่จุดสูงสุดของมัน Synthax จะสร้างเสียงได้เร็วกว่าเรียลไทม์มากกว่า 60,000 เท่าและเร็วกว่าการสังเคราะห์เสียงเร่งความเร็วอย่างมาก
Midica - Midica เป็นล่ามสำหรับภาษาการเขียนโปรแกรมเพลง มันแปลซอร์สโค้ดเป็น MIDI แต่มันก็สามารถใช้เป็นเครื่องเล่น MIDI, MIDI Compiler หรือ Decompiler, Karaoke Player, Alda Player, ABC Player, Lilypond Player หรือเครื่องวิเคราะห์ไฟล์ MIDI คุณเขียนเพลงด้วยหนึ่งในภาษาที่รองรับ (Midicapl, Alda หรือ ABC)
Mercury - Mercury เป็นภาษาที่น้อยที่สุดและอ่านได้สำหรับการเข้ารหัสสดของเพลงอิเล็กทรอนิกส์อัลกอริทึม องค์ประกอบทั้งหมดของภาษาได้รับการออกแบบให้สามารถเข้าถึงรหัสได้มากขึ้นและทำให้ผู้ชมน้อยลง แรงจูงใจนี้ยืดลงไปตามสไตล์การเข้ารหัสซึ่งใช้ชื่อเชิงพรรณนาที่ชัดเจนสำหรับฟังก์ชั่นและไวยากรณ์ที่ชัดเจน
Alda - Alda เป็นภาษาการเขียนโปรแกรมแบบข้อความสำหรับการแต่งเพลง ช่วยให้คุณสามารถเขียนและเล่นเพลงกลับโดยใช้ตัวแก้ไขข้อความและบรรทัดคำสั่งเท่านั้น การออกแบบของภาษานั้นเป็นประโยชน์ต่อสุนทรียภาพความยืดหยุ่นและความสะดวกในการใช้งานอย่างเท่าเทียมกัน
Platonic Music Engine - Music Music Engine เป็นความพยายามในการสร้างอัลกอริทึมคอมพิวเตอร์ที่จำลองผิวเผินของวัฒนธรรมมนุษย์ที่สร้างสรรค์ทั้งในอดีตปัจจุบันและอนาคต มันทำเช่นนั้นในลักษณะการโต้ตอบทำให้ผู้ใช้สามารถเลือกพารามิเตอร์และการตั้งค่าต่าง ๆ ซึ่งผลลัพธ์สุดท้ายจะไม่ซ้ำกันกับผู้ใช้ในขณะที่ยังคงรักษาความคิดทางวัฒนธรรมที่เป็นแรงบันดาลใจให้กับงาน
Pyo-Tools-ที่เก็บคลาส Python พร้อมใช้งานสำหรับการสร้างเอฟเฟกต์เสียงและ synths ด้วย Pyo
PY -Modular - กรอบการเขียนโปรแกรมเสียงแบบแยกส่วนและการทดลองสำหรับ Python Py-Modular เป็นสภาพแวดล้อมการเขียนโปรแกรมเสียงทดลองขนาดเล็กสำหรับ Python มันมีจุดประสงค์เพื่อเป็นฐานสำหรับการสำรวจเทคโนโลยีเสียงและเวิร์กโฟลว์ใหม่ ทุกอย่างส่วนใหญ่ในโมดูล Py นั้นถูกสร้างขึ้นรอบ ๆ เวิร์กโฟลว์ที่ใช้โหนดซึ่งหมายความว่าคลาสขนาดเล็กจะทำงานเล็ก ๆ และสามารถแก้ไขร่วมกันเพื่อสร้าง synthesizers เต็มรูปแบบหรือแนวคิดที่ใหญ่กว่า
BACH: Helper ของนักแต่งเพลงอัตโนมัติ-ชุดแพทช์ข้ามแพลตฟอร์มและภายนอกสำหรับ Max โดยมีวัตถุประสงค์เพื่อนำความร่ำรวยขององค์ประกอบที่ใช้คอมพิวเตอร์ช่วยมาสู่โลกเรียลไทม์
Audiokit - Audiokit เป็นการสังเคราะห์เสียงการประมวลผลและแพลตฟอร์มการวิเคราะห์สำหรับ iOS, MacOS (รวมถึงตัวเร่งปฏิกิริยา) และ TVOS
TWANG - ห้องสมุดสำหรับการสังเคราะห์เสียงขั้นสูงของสนิมบริสุทธิ์
Gensound - การประมวลผลเสียง Pythonic และกรอบการสร้าง วิธี Python ในการประมวลผลเสียงและการสังเคราะห์
อ็อตโต - อ็อตโตเป็นฮาร์ดแวร์ดิจิตอล Groovebox ที่มี synths, samplers, เอฟเฟกต์และซีเควนเซอร์ที่มี looper เสียง อินเทอร์เฟซนั้นแบนแบบแยกส่วนและใช้งานง่าย แต่ที่สำคัญที่สุดคือมีจุดมุ่งหมายเพื่อส่งเสริมการทดลอง
Loris - Loris เป็นห้องสมุดสำหรับการวิเคราะห์เสียงการสังเคราะห์และ Morphing พัฒนาโดย Kelly Fitz และ Lippold Haken ที่กลุ่มเสียง Cerl Loris มีไลบรารีคลาส C ++, โมดูล Python, อินเตอร์เฟส C-linkable, Utilities บรรทัดคำสั่งและเอกสารประกอบ
Iannix - Iannix เป็นซีเควนเซอร์โอเพนซอร์ซแบบกราฟิกโดยอิงจาก Iannis Xenakis Works สำหรับงานศิลปะดิจิทัล IANNIX ซิงค์ผ่านกิจกรรม Open Sound Control (OSC) และโค้งไปยังสภาพแวดล้อมแบบเรียลไทม์ของคุณ
Leipzig - ห้องสมุดเพลงสำหรับ Clojure และ Clojurescript
Nyquist - Nyquist เป็นการสังเคราะห์เสียงและภาษาองค์ประกอบที่นำเสนอไวยากรณ์ LISP เช่นเดียวกับไวยากรณ์ภาษาที่จำเป็นและสภาพแวดล้อมการพัฒนาแบบบูรณาการที่ทรงพลัง .. Nyquist เป็นระบบที่สง่างามและทรงพลังขึ้นอยู่กับการเขียนโปรแกรมที่ใช้งานได้
OpenMusic (OM) - OpenMusic (OM) เป็นภาษาการเขียนโปรแกรมด้วยภาพที่ใช้ LISP โปรแกรมภาพถูกสร้างขึ้นโดยการประกอบและเชื่อมต่อไอคอนที่แสดงถึงฟังก์ชั่นและโครงสร้างข้อมูล การเขียนโปรแกรมและการดำเนินการส่วนใหญ่ดำเนินการโดยการลากไอคอนจากสถานที่ใดสถานที่หนึ่งและวางไปยังสถานที่อื่น มีการจัดเตรียมโครงสร้างการควบคุมภาพในตัว (เช่นลูป) ซึ่งอินเทอร์เฟซกับ LISP รหัส CommonLisp/Clos ที่มีอยู่สามารถใช้งานได้อย่างง่ายดายใน OM และสามารถพัฒนาโค้ดใหม่ได้ในลักษณะที่มองเห็นได้
Orcλ - Orca เป็นภาษาการเขียนโปรแกรมลึกลับที่ออกแบบมาเพื่อสร้างลำดับขั้นตอนอย่างรวดเร็วซึ่งตัวอักษรทุกตัวอักษรเป็นการดำเนินการที่ตัวอักษรตัวพิมพ์เล็กทำงานบน Bang ตัวอักษรตัวพิมพ์ใหญ่ทำงานแต่ละเฟรม
Overtone - Overtone เป็นสภาพแวดล้อมเสียงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสำรวจความคิดทางดนตรีใหม่ ๆ ตั้งแต่การสังเคราะห์และการสุ่มตัวอย่างไปจนถึงการสร้างเครื่องดนตรีการเข้ารหัสสดและการติดขัดการทำงานร่วมกัน เรารวมเอ็นจิ้น SuperCollider Audio ที่ทรงพลังเข้ากับ Clojure ซึ่งเป็น LISP ที่ทันสมัยเพื่อสร้างประสบการณ์การโต้ตอบแบบโต้ตอบที่ทำให้มึนเมา
ตะเข็บ - เพลงอคูสติกไฟฟ้าที่ยั่งยืน - ฐาน ดนตรีอคูสติกที่ยั่งยืน เป็นโครงการที่ได้รับแรงบันดาลใจจาก Alvise Vidolin และ Nicola Bernardini
GLICOL - GLICOL (ตัวย่อสำหรับ "ภาษาการเข้ารหัสสดที่เน้นกราฟ") เป็นภาษาคอมพิวเตอร์ที่มีทั้งภาษาและเอ็นจิ้นเสียงที่เขียนด้วยภาษาการเขียนโปรแกรมสนิมซึ่งเป็นทางเลือกที่ทันสมัยสำหรับ C/C ++ ด้วยธรรมชาติระดับต่ำนี้ Glicol สามารถทำงานบนแพลตฟอร์มที่แตกต่างกันมากมายเช่นเบราว์เซอร์ปลั๊กอิน VST และบอร์ดเบลา ไวยากรณ์คล้าย synth ของ Glicol และเครื่องยนต์เสียงที่ทรงพลังยังทำให้สามารถรวมการควบคุม synth หรือ sequencer ระดับสูงเข้ากับการสังเคราะห์เสียงตัวอย่างที่แม่นยำระดับต่ำทั้งหมดในเวลาจริง
Papersynth - ข้อความที่เขียนด้วยลายมือไปยัง synths! Papersynth เป็นโครงการที่มีจุดมุ่งหมายเพื่ออ่านคำหลักที่คุณเขียนลงบนกระดาษและแปลงเป็น synthesizers ที่คุณสามารถเล่นบนโทรศัพท์
Neural Resonator VST - นี่คือปลั๊กอิน VST ที่ใช้เครือข่ายประสาทเพื่อสร้างตัวกรองตามรูปร่างและวัสดุ 2D โดยพลการ เป็นไปได้ที่จะใช้ MIDI เพื่อกระตุ้นแรงกระตุ้นอย่างง่ายเพื่อกระตุ้นตัวกรองเหล่านี้ นอกจากนี้สัญญาณเสียงใด ๆ สามารถใช้เป็นอินพุตไปยังตัวกรอง
SCYCLONE - Scyclone เป็นปลั๊กอินเสียงที่ใช้เทคโนโลยีการถ่ายโอนเวลาของระบบประสาทเพื่อนำเสนอวิธีการใหม่ในการผลิตเสียง ปลั๊กอินสร้างขึ้นตามวิธีการ RAVE ซึ่งเป็นเครื่องเข้ารหัสอัตโนมัติเสียงแปรปรวนแบบเรียลไทม์ช่วยอำนวยความสะดวกในการถ่ายโอนเสียงต่ำของระบบประสาททั้งในโหมดการอนุมานเดี่ยวและคู่
mlinmax - ML สำหรับการสร้างเสียงและการประมวลผลในภาษาการเขียนโปรแกรมสูงสุดของการขี่จักรยาน '74
AdlPlug - FM Chip Synthesizer - OPL & OPN - VST/LV2/standalone
Surge - ปลั๊กอินซินธิไซเซอร์ (ก่อนหน้านี้เปิดตัวเป็น Vember Audio Surge)
CSTOP - CSTOP เป็นปลั๊กอินเอฟเฟกต์เทปหยุดเสียงที่มีอยู่ใน AU & VST3 สำหรับ Mac (Windows เร็ว ๆ นี้)
CompuFart - Synthesizer Sound Fart และอัลกอริทึมใน CMAJOR
PY -JS - ภายนอก Python3 สำหรับ Max / MSP
PD -LUA - การผูก LUA สำหรับ PD อัปเดตสำหรับ LUA 5.3+
Live 4 Life - เครื่องมือการแสดงเชิงพื้นที่สำหรับ SuperCollider
Caesarlooper - Caesarlooper เป็นโคลน SuperCollider ของปลั๊กอิน Augustus Loop VST โดยผู้เชี่ยวชาญด้านการนอนหลับ
dexed - ปลั๊กอิน DX7 FM Multi Plaform/Multi Multi
LEAPMOTION สำหรับ Max - Leapmotion ภายนอกสำหรับการขี่จักรยาน '74 Max
Kontakt -Public - ทรัพยากรสำหรับเครื่องมือพื้นเมือง Kontakt Builders
Pylive - Query and Control Ableton Live จาก Python
ML -LIB - ไลบรารีการเรียนรู้ของเครื่องสำหรับข้อมูลสูงสุดและข้อมูลบริสุทธิ์
Zengarden - Zengarden เป็นห้องสมุดแบบสแตนด์อโลนสำหรับใช้งานแพทช์ข้อมูลบริสุทธิ์
Max -SDK - ชุดพัฒนาซอฟต์แวร์สำหรับ Max By Cycling '74
PD-HVCC-การสร้างสภาพแวดล้อม Gen ~-like สำหรับ PD ตามคอมไพเลอร์หนัก
Kuroscillators - วัตถุสูงสุด/MSP สำหรับการสังเคราะห์เสียงและจังหวะโดยใช้เครือข่ายของออสซิลเลเตอร์คู่
ASCII -AUDIO - สร้างเสียง PCM จากสตริง ASCII ข้อความสามารถมองเห็นได้บนภาพสเปกโทรค
Belaminimoogemulation - การใช้งานแบบดิจิตอลของซินธิไซเซอร์แบบอะนาล็อก minimoog ที่มีรูปคลื่นที่ต่อต้านการเป็นนามธรรมและการพักผ่อนหย่อนใจของตัวกรองบันได Moog
EDISYN - Editor Patch Synthesizer
แพ็คเกจ Soundgen - R สำหรับการสังเคราะห์เสียงและการวิเคราะห์อะคูสติก
คาร์ดินัล - ปลั๊กอินซินธิไซเซอร์เสมือนจริง
การสร้างแบบจำลอง Echo Flutter - พื้นที่เก็บข้อมูลนี้นำเสนอการสาธิต MATLAB สำหรับการสังเคราะห์เสียงก้อง Flutter
อ๊ะ - อ๊ะตอนนี้เป็นใบ! ไลบรารี AC สำหรับการสังเคราะห์และการประมวลผลเสียงซึ่งมีไว้สำหรับแอปพลิเคชันที่ฝังอยู่เขียนโดยใช้สไตล์กึ่ง
เครื่องมือ Sonic Pi -? การควบคุม Sonic Pi จากบรรทัดคำสั่งใน Python
sonicpi.vim - ปลั๊กอิน Sonic Pi สำหรับ Vim
ควบคุม - chaos - Max4Live Euclidian Rhythm Generator
KPSTRONG-นี่คือการใช้งานของ synth ที่แข็งแกร่งของ Karplus ซึ่งทำงานเป็น C ++ แบบเรียลไทม์บนฮาร์ดแวร์ Bela
NN_TILDE - ภายนอกสูงสุด / PD สำหรับการประมวลผลเสียง AI แบบเรียลไทม์
Grainbow - synthesizer ที่ใช้การตรวจจับระดับเสียงเพื่อเลือกผู้สมัครสำหรับการสังเคราะห์หรือการสุ่มตัวอย่างแบบเม็ด
SignalFlow - กรอบการสังเคราะห์เสียงสำหรับ Python ออกแบบมาเพื่อการแสดงออกที่ชัดเจนและรัดกุมของแนวคิดทางดนตรีที่ซับซ้อน
Syntheon - การอนุมานพารามิเตอร์ของ Synthesizers เพลงเพื่อทำให้กระบวนการออกแบบเสียงง่ายขึ้น รองรับความสำคัญและ Dexed
rnbojucetemplate - เทมเพลต Juce รวมถึง synthesizer ขั้นต่ำที่สร้างขึ้นด้วย rnbo ~ ของ MaxMSP ซึ่งห่อหุ้มสถานะของ RnBoobject ใน Audioprocessor ของ Juce โดยใช้แฟชั่น AudioprocessorTreevaluestate ที่ทันสมัย
Fluidsynth.clap - สะพาน clap -plugin ไปยัง Fluidsynth
Launchpadx - อินเทอร์เฟซ SuperCollider อย่างง่ายสำหรับคอนโทรลเลอร์ Novation LaunchPadx
FAUG - การจำลองแบบ Minimoog Model D กับส่วน DSP ที่เขียนในเฟาสต์ moog + faust = faug
Blocks - Blocks เป็น synthesizer แบบแยกส่วนที่มีอยู่เป็นสแตนด์อโลน, VST3 และ AU สำหรับ Windows และ MacOS
เคล็ดลับของ Bessel - เคล็ดลับของ Bessel เป็นปลั๊กอินเสียงของระบบประสาทสำหรับการแปลงเสียงที่รวดเร็วและสดของเสียงดนตรีเครื่องดนตรีโดยใช้การสังเคราะห์การปรับความถี่ (FM)

^ กลับไปที่เนื้อหา ^

Game Audio (GA)

Chunity - Chuck in Unity ปลั๊กอินสำหรับใช้ Chuck ใน Unity มีอยู่ในร้านค้าสินทรัพย์ Unity
Raveler - ปลั๊กอิน Wwise ที่ใช้งานโมเดล Rave ทำให้สามารถถ่ายโอนเวลาตามเวลาจริงผ่านการสังเคราะห์เสียงของระบบประสาทในการตั้งค่าเสียงของเกม
LASP - ปลั๊กอินการประมวลผลสัญญาณเสียงต่ำสำหรับความสามัคคี
PyReaper - เสื้อคลุม Python สำหรับ Reaper
Reaper-Keys-Vim-Bindings สำหรับ Reaper
เครื่องมือ Reaper - เครื่องเก็บข้อมูล Audiokinetic Reaper Tools การรวบรวมส่วนขยายสคริปต์และเครื่องมือสำหรับ Reaper
Reawwise - Reawwines เป็นส่วนขยายของ Reaper ที่นักออกแบบเสียงสามารถใช้เพื่อถ่ายโอนไฟล์เสียงจาก Reaper ไปสู่โครงการ WINDS
WWISER - ตัวแยกวิเคราะห์. bnk wwise เพื่อช่วยในการจัดการเสียงจากเกมโดยใช้เครื่องยนต์ wwise
waapi-text-to-speech-การรวมข้อความกับคำพูดกับการใช้คำพูดโดยใช้ตัวแก้ไขภายนอก
JSFXR สำหรับ WWISE - JSFXR (พอร์ตจาก SFXR) พร้อมการเชื่อมต่อ WIDES ที่เพิ่มเข้ามาซึ่งฝังลงในอิเล็กตรอน
Soloud - Soloud เป็นเครื่องมือเสียง C/C ++ แบบพกพาที่ใช้งานง่ายสำหรับเกม
Audiotoys - DSP Doodles เพื่อความสามัคคี
Dolby.io Virtual World Plugin สำหรับ Unity - ด้วยปลั๊กอิน World Virtual World สำหรับ Dolby.io สำหรับ Unity คุณสามารถรวมเสียงเชิงพื้นที่ Dolby.io ได้อย่างง่ายดายซึ่งขับเคลื่อนด้วยเทคโนโลยี Dolby Atmos เข้ากับแอพพลิเคชั่นโลกเสมือนจริงของคุณ
ปลั๊กอิน Dolby.io Virtual Worlds สำหรับเครื่องยนต์ Unreal - ด้วยปลั๊กอิน Worlds Virtual Worlds สำหรับเครื่องยนต์ที่ไม่เป็นจริงคุณสามารถรวมเสียง Dolby.io Spatial Audio ซึ่งขับเคลื่อนโดยเทคโนโลยี Dolby Atmos เข้ากับแอพพลิเคชั่นโลกเสมือนจริงของคุณ
เครื่องจำลองเครื่องยนต์ - เครื่องจำลองเครื่องยนต์เผาไหม้ที่สร้างเสียงที่สมจริง
Jack Audio for Unity - ไลบรารี/ปลั๊กอินนี้ช่วยให้การกำหนดเส้นทางเสียงหลายช่องระหว่าง Unity3D และ Jackaudio
ปลั๊กอิน Voxel - ปลั๊กอิน Voxel ช่วยให้สามารถสร้างปริมาตรได้อย่างสมบูรณ์และทำลายล้างได้ทั้งหมดในโลกที่ไม่มีที่สิ้นสุดในเครื่องยนต์ Unreal เข้ากันได้กับ 4.24, 4.25, 4.26, 4.27 และ Unreal 5
Rev Unity - Rev Unity Tachometer Demo
Unity Audio Manager (UAM) -? ใช้ในการเล่น/เปลี่ยน/หยุด/ปิดเสียง/... หนึ่งหรือหลายเสียงในสถานการณ์หรือเหตุการณ์ใน 2D และ 3D เพียงผ่าน รหัส.
Audio-Manager-for-Unity-เครื่องมือสำหรับการกำหนดและดำเนินการพฤติกรรมเสียงใน Unity ในตัวแก้ไขตามโหนด
Unity Wwise Addressables - แพ็คเกจนี้เพิ่มการสนับสนุนสำหรับการแจกจ่ายและการโหลดสินทรัพย์ wwise โดยใช้ระบบที่อยู่ Unity ที่อยู่
RFXGEN-เครื่องกำเนิดเสียง FX ที่ใช้งานง่ายและใช้งานง่าย
ULIPSYNC-ปลั๊กอิน LIPSYNC ที่ใช้ MFCC เพื่อความสามัคคีโดยใช้ระบบงานและคอมไพเลอร์ระเบิด
Godot-Fmod-Intlegration-FMOD Middleware Integration และ Scripting API การผูกสำหรับเครื่องมือเกม Godot
ระบบเสียง FMOD - ระบบเสียง Unity โดยใช้ FMOD
WW2OGG - แปลง Audiokinetic wwise RIFF/RIFX VORBIS เป็นมาตรฐาน OGG VORBIS
Cavern-เครื่องมือเสียงที่ใช้วัตถุและแพ็คตัวแปลงสัญญาณพร้อมการแสดงผล Dolby Atmos, การแก้ไขห้อง, HRTF, การครอบครองเสียงเอกภาพเดียวคลิกและอื่น ๆ อีกมากมาย
ปลั๊กอินเสียง RNBO Unity - อะแดปเตอร์ RNBO สำหรับปลั๊กอินเสียงดั้งเดิมของ Unity
rnbo metasounds - อะแดปเตอร์ RNBO ที่ใช้โหนด metasound

^ กลับไปที่เนื้อหา ^

เวิร์กสเตชันเสียงดิจิตอล (DAW)

Audacity-Audacity เป็นตัวแก้ไขเสียงที่ใช้งานง่ายและใช้งานได้ง่ายสำหรับ Windows, MacOS, GNU/Linux และระบบปฏิบัติการอื่น ๆ
การติดตาม - การติดตามเป็นเวิร์กสเตชันเสียงโอเพนซอร์สที่ใช้แพลตฟอร์มแบบข้ามแพลตฟอร์มพร้อมส่วนต่อประสานผู้ใช้ที่ใช้งานง่ายและฟังก์ชั่นการแก้ไขและการผสมเสียงที่ทรงพลัง
Pro Tools Scripting SDK - Pro Tools Scripting SDK ช่วยให้คุณสามารถใช้เครื่องมือ Pro Pro โดยใช้ API ที่ไม่ขึ้นกับภาษาเพื่อสร้างเวิร์กโฟลว์อัตโนมัติใหม่ในเครื่องมือ Pro
Reapy - เสื้อคลุม Pythonic สำหรับ Reasper ของ Reaper Python API
Reaper -SDK - Reaper C/C ++ Extension SDK
Reascripts - สคริปต์ฟรีและโอเพนซอร์สของ X -Raym สำหรับ Cockos Reaper
reascripts - สคริปต์ Cockos Reaper
REABLINK - ส่วนขยายปลั๊กอิน Reaper ที่ให้การเชื่อมโยง reascript สำหรับเซสชัน Ableton Link และ Ableton Link Plan Plan Plan Planctive ตามแผนสำหรับ Reaper
Voodoohop-Ableton-Tools-Ableton Live Harmony และ Tempo Tools Augments Ableton อาศัยอยู่ด้วยการสร้างภาพที่ใช้งานง่ายของความสามัคคีทางดนตรีรวมทั้งอนุญาตให้มีการเปลี่ยนแปลงจังหวะของแทร็กเพื่อควบคุมจังหวะหลักในเวลาจริง
AbleTonparsing - แยกวิเคราะห์ไฟล์คลิป ASD ASD (เครื่องหมายวาร์ปและอื่น ๆ ) ใน Python
Ableton Push - ห้องสมุดสำหรับทำงานกับ Ableton Push ในเบราว์เซอร์
PYFLP - FL Studio Project Project File Parser
VST3SDK - ปลั๊กอิน VST 3 SDK
tuneflow -?+ สร้างอัลกอริทึมเพลงของคุณและโมเดล AI ด้วย DAW รุ่นต่อไป
Tuneflow-Py-Tuneflow-Py เป็น Python SDK ของปลั๊กอิน tuneflow
ปลั๊กอิน SO-VITS-SVC สำหรับ TuneFlow-SO-VITS-SVC เป็นปลั๊กอิน tuneflow
เรเดียม - ตัวแก้ไขเพลงกราฟิก ตัวติดตามรุ่นต่อไป
Bass Studio - Bass Studio เป็นเวิร์กสเตชันเสียงดิจิตอล (DAW) ที่เขียนใน C ++ มีการสร้าง Windows, MacOS และ Linux รองรับทั้งรูปแบบปลั๊กอิน VST2 และ Clap
GRIDSOUND-GRIDSOUND เป็นเวิร์กสเตชันเสียงดิจิตอลโอเพนซอร์ซที่พัฒนาแล้วซึ่งพัฒนาขึ้นด้วย HTML5 และแม่นยำยิ่งขึ้นด้วย Web Audio API ใหม่
Meadowlark - Meadowlark เป็น (ทำงานอยู่ระหว่างดำเนินการ) ฟรีและโอเพนซอร์ซ (เวิร์กสเตชันเสียงดิจิตอล) สำหรับ Linux, Mac และ Windows มันมีจุดมุ่งหมายที่จะเป็นการบันทึกการเขียนการแก้ไขการออกแบบเสียงการผสมและเครื่องมือการเรียนรู้สำหรับศิลปินทั่วโลกในขณะที่ยังใช้งานง่ายและปรับแต่งได้
Mixxx - Mixxx เป็นซอฟต์แวร์ดีเจฟรีที่ให้ทุกสิ่งที่คุณต้องการในการแสดงสด
Hybrid-DJ-SET-ซิงโครไนซ์ซอฟต์แวร์ DJ (MIXXX) กับข้อมูลบริสุทธิ์สำหรับการจัดเรียงเครื่องมือเสมือนจริงในการแสดงสด
LV2 - LV2 เป็นมาตรฐานปลั๊กอินสำหรับระบบเสียง มันกำหนด C Extensible C สำหรับปลั๊กอินและรูปแบบสำหรับไดเรกทอรี "ชุด" ที่มีอยู่ในตัวเองซึ่งมีปลั๊กอินเมตาและทรัพยากรอื่น ๆ
Ardor - บันทึกแก้ไขและผสมบน Linux, MacOS และ Windows
LMMS - LMMS เป็นทางเลือกข้ามแพลตฟอร์มฟรีสำหรับโปรแกรมเชิงพาณิชย์เช่น FL Studio®ซึ่งช่วยให้คุณสามารถผลิตเพลงด้วยคอมพิวเตอร์ของคุณ ซึ่งรวมถึงการสร้างท่วงทำนองและจังหวะการสังเคราะห์และการผสมเสียงและการจัดเรียงตัวอย่าง
Qtractor - Qtractor เป็นแอปพลิเคชัน Sequencer แบบหลายแทร็ก Audio/MIDI ที่เขียนใน C ++ ด้วยกรอบ QT แพลตฟอร์มเป้าหมายคือ Linux ซึ่งชุดการเชื่อมต่อ Audio Jack (JACK) สำหรับเสียงและสถาปัตยกรรม Linux Sound ขั้นสูง (ALSA) สำหรับ MIDI เป็นโครงสร้างพื้นฐานหลักที่จะพัฒนาเป็น Linux Desktop Workstation Workstation GUI ที่ได้รับการอุทิศให้กับ สตูดิโอบ้านส่วนตัว
Smart-Audio-Mixer-เวิร์กสเตชันเสียงดิจิตอลที่ทันสมัย (DAW) โดยใช้ C ++/Juce
ปลั๊กอิน OpenVINO ™ AI สำหรับ Audacity - ชุดของเอฟเฟกต์ AI ที่เปิดใช้งานเครื่องกำเนิดไฟฟ้าและเครื่องวิเคราะห์เพื่อความกล้า
JACKDAW-เวิร์กสเตชันเสียงดิจิตอลที่เน้นคีย์บอร์ด (DAW) ที่เน้นการออกแบบคีย์บอร์ด (DAW) ใช้ตัวชี้นำการออกแบบจากบรรณาธิการวิดีโอที่ไม่ใช่เชิงเส้นเช่น AVID
คะแนน OSSIA - Sequencer Intermedia ที่รองรับเสียง (VST, VST3, LV2, JSFX ฯลฯ ) รวมถึงการควบคุมวิดีโอและฮาร์ดแวร์ (OSC, MIDI, DMX, NDI, MQTT, COAP ฯลฯ )

^ กลับไปที่เนื้อหา ^

เสียงเชิงพื้นที่ (SA)

SPAUDIOPY - แพ็คเกจ Python เสียงเชิงพื้นที่ โฟกัส (จนถึงตอนนี้) อยู่ที่การเข้ารหัสเสียงและตัวถอดรหัสเชิงพื้นที่ แพ็คเกจรวมถึงการประมวลผลฮาร์โมนิกส์ทรงกลมและ (การเรนเดอร์ binaural ของ) ตัวถอดรหัสลำโพงเช่น VBAP และ Allrad
spatial_audio_framework (SAF)-Spatial_audio_framework (SAF) เป็นเฟรมเวิร์กโอเพนซอร์ซและข้ามแพลตฟอร์มสำหรับการพัฒนาอัลกอริทึมและซอฟต์แวร์ที่เกี่ยวข้องกับเสียงเชิงพื้นที่และซอฟต์แวร์ใน C/C ++ เดิมทีมีวัตถุประสงค์เพื่อเป็นทรัพยากรสำหรับนักวิจัยในสาขากรอบงานได้ค่อยๆเติบโตขึ้นเป็นรหัสฐานที่ค่อนข้างใหญ่และมีเอกสารประกอบกันเป็นจำนวนมากของ โมดูล ที่แตกต่างกัน ด้วยแต่ละโมดูลที่กำหนดเป้าหมายไปยังสาขาย่อยเฉพาะของเสียงเชิงพื้นที่ (เช่นการเข้ารหัส/ถอดรหัส Ambisonics, การประมวลผลอาร์เรย์ทรงกลม, การวัดแอมพลิจูด, การประมวลผล HRIR, การจำลองห้อง ฯลฯ )
HO-SIRR-การตอบสนองต่อแรงกระตุ้นเชิงพื้นที่ที่มีลำดับสูงกว่า (HO-SIRR) เป็นวิธีการเรนเดอร์ซึ่งสามารถสังเคราะห์ลำโพงอาร์เรย์อาร์เรย์อาร์เรย์ของเอาต์พุตเอาต์พุต (RIRS) โดยใช้ฮาร์มอนิกทรงกลม (Ambisonic/B-Format) การใช้งาน MATLAB ของอัลกอริทึมการตอบสนองต่อแรงกระตุ้นเชิงพื้นที่ที่สูงขึ้น (HO-SIRR) อัลกอริทึม อีกทางเลือกหนึ่งสำหรับการทำซ้ำ ambisonic rirs ผ่านลำโพง
SPATGRIS - SPATGRIS เป็นซอฟต์แวร์การทำให้เป็นเสียงที่ทำให้นักแต่งเพลงและนักออกแบบเสียงจากข้อ จำกัด ของการตั้งค่าลำโพงในโลกแห่งความเป็นจริง ด้วยปลั๊กอิน Controlgris ที่กระจายด้วย spatgris วิถีเชิงพื้นที่ที่อุดมไปด้วยสามารถประกอบได้โดยตรงใน DAW ของคุณและทำซ้ำแบบเรียลไทม์ในรูปแบบลำโพงใด ๆ มันเร็วมั่นคงข้ามแพลตฟอร์มง่ายต่อการเรียนรู้และทำงานกับเครื่องมือที่คุณรู้จักอยู่แล้ว Spatgris รองรับการตั้งค่าลำโพงใด ๆ รวมถึงเลย์เอาต์ 2D เช่น Quad, 5.1 หรือ Octophonic Rings และเลย์เอาต์ 3 มิติเช่นลำโพงโดม, คอนเสิร์ตฮอลล์, โรงภาพยนตร์ ฯลฯ โครงการสามารถผสมลงในสเตอริโอโดยใช้ฟังก์ชั่นการถ่ายโอนที่เกี่ยวข้องกับหัว แพน
Steam Audio - Steam Audio มอบโซลูชันเสียงที่มีคุณสมบัติครบถ้วนซึ่งรวมสภาพแวดล้อมและการจำลองผู้ฟัง HRTF ช่วยเพิ่มการแช่ใน VR อย่างมีนัยสำคัญ การแพร่กระจายเสียงที่ใช้ฟิสิกส์ทำให้การแช่เกี่ยวกับหูสมบูรณ์โดยการสร้างใหม่อย่างต่อเนื่องว่าเสียงมีปฏิสัมพันธ์กับสภาพแวดล้อมเสมือนจริงอย่างไร
Spatialaudiokit - SpatialaudioKit เป็นแพ็คเกจที่รวดเร็วเพื่ออำนวยความสะดวกในการเขียนแอพเสียงเชิงพื้นที่บนแพลตฟอร์ม Apple
libmysofa - ผู้อ่านไฟล์โซฟา AES เพื่อให้ได้ HRTF ที่ดีขึ้น
Omnitone - Omnitone: การแสดงเสียงเชิงพื้นที่บนเว็บ Omnitone เป็นการดำเนินการที่แข็งแกร่งของการถอดรหัส Ambisonic และการแสดงผล binaural ที่เขียนในเว็บ Audio API กระบวนการเรนเดอร์นั้นใช้พลังงานจากคุณสมบัติดั้งเดิมจาก Web Audio API (Gainnode และ Convolver) เพื่อให้มั่นใจถึงประสิทธิภาพที่เหมาะสมที่สุด การใช้งานของ Omnitone นั้นขึ้นอยู่กับข้อกำหนดของสื่ออวกาศของ Google และตัวกรอง binaural ของ Sadie นอกจากนี้ยังเพิ่มพลังการสั่นพ้อง SDK สำหรับเว็บ
Mach1 Spatial - Mach1 Spatial SDK รวม APIs เพื่อให้นักพัฒนาออกแบบแอพพลิเคชั่นที่สามารถเข้ารหัสหรือ PAN ไปยังการแสดงเสียงเชิงพื้นที่จากสตรีมเสียงและ/หรือการเล่นและถอดรหัส Mach1spatial 8channel เชิงพื้นที่ผสมกับการวางแนวเพื่อถอดรหัสสเตอริโอที่ถูกต้อง การปฐมนิเทศปัจจุบัน นอกจากนี้ SDK Spatial Mach1 ยังช่วยให้ผู้ใช้สามารถแปลงเสียงรอบทิศทาง/อวกาศผสมอย่างปลอดภัยไปและจากรูปแบบ Mach1spatial หรือ Mach1horizon VVBP
SoundSpaces - SoundSpaces เป็นแพลตฟอร์มการจำลองเสียงที่สมจริงสำหรับการวิจัย AI ที่เป็นตัวเป็นตนและเสียง จากการนำทางเสียงและเสียงการสำรวจภาพและเสียงไปจนถึงการสร้างแผนการ echolocation และการสร้างแผนพื้นภาพและเสียงแพลตฟอร์มนี้ขยายการวิจัยการมองเห็นที่เป็นตัวเป็นตนไปสู่ขอบเขตที่กว้างขึ้นของหัวข้อ
การจับคู่ทางเสียงแบบ Visual - เราแนะนำงานการจับคู่อะคูสติกแบบ Visual ซึ่งคลิปเสียงถูกเปลี่ยนเป็นเสียงเหมือนถูกบันทึกไว้ในสภาพแวดล้อมเป้าหมาย ด้วยภาพของสภาพแวดล้อมเป้าหมายและรูปคลื่นสำหรับเสียงต้นฉบับเป้าหมายคือการสังเคราะห์เสียงอีกครั้งเพื่อให้ตรงกับอะคูสติกห้องเป้าหมายตามที่แนะนำโดยเรขาคณิตและวัสดุที่มองเห็นได้
Fast-RIR-นี่คือการดำเนินการอย่างเป็นทางการของเครื่องกำเนิดการตอบสนองต่อการตอบสนองของระบบประสาทแบบกระจายระบบประสาทของเรา (Fast-RIR) สำหรับการสร้างการตอบสนองต่อแรงกระตุ้นของห้อง (RIRS) สำหรับสภาพแวดล้อมอะคูสติกที่กำหนด
PYGSOUND-การสร้างการตอบสนองแบบอิมพัลส์ขึ้นอยู่กับเอ็นจิ้นการแพร่กระจายเสียงเรขาคณิตที่ล้ำสมัย
RIRIS - RIRIS คือการใช้งาน MATLAB ของการแก้ไขการตอบสนองต่อแรงกระตุ้นของห้องโดยใช้การแปลง Shearlet อย่างรวดเร็ว
Parallel-Reverb-Raytracer-Raytracer สำหรับการตอบสนองแบบแรงกระตุ้น (สำหรับ reverb) ได้รับอิทธิพลจากเทคนิคแสงกราฟิกแรสเตอร์
Synth 3D - VST synthesizer พร้อมวัตถุออสซิลเลเตอร์เสมือนอยู่ในพื้นที่ 3 มิติ
libbasicsofa - ห้องสมุดพื้นฐานมากสำหรับการอ่านรูปแบบเชิงพื้นที่สำหรับไฟล์อะคูสติก (โซฟา) รูปแบบสำหรับการจัดเก็บ HRTFs และ/หรือ BRIRS สำหรับการทำซ้ำเสียง binuaral
MESH2HRTF - ซอฟต์แวร์เปิดสำหรับการคำนวณเชิงตัวเลขของฟังก์ชั่นการถ่ายโอนที่เกี่ยวข้องกับศีรษะ
Openal Soft - Openal Soft เป็นการใช้งานซอฟต์แวร์ของ Openal 3D Audio API
SoundScape_ir - SoundsCape_ir เป็นกล่องเครื่องมือที่ใช้ Python ของการดึงข้อมูลเสียงเพลงโดยมีจุดประสงค์เพื่อช่วยในการวิเคราะห์การบันทึกเสียง
ร่างกายที่ให้เสียง - เรานำเสนอแบบจำลองที่สามารถสร้างสนามเสียง 3 มิติที่แม่นยำของร่างกายมนุษย์จากไมโครโฟนชุดหูฟังและท่าทางร่างกายเป็นอินพุต
Soundscapy - ห้องสมุด Python สำหรับการวิเคราะห์และแสดงภาพการประเมินซาวด์
Ambix-cross-platform ambisonic VST, ปลั๊กอิน LV2 พร้อมลำดับตัวแปรสำหรับใช้ในเวิร์กสเตชันเสียงดิจิตอลเช่น Reaper หรือ ardor หรือเป็นแอปพลิเคชันแจ็คสแตนด์อโลน
HOAC - ตัวแปลงสัญญาณ Ambisonics ลำดับที่สูงขึ้นสำหรับเสียงเชิงพื้นที่
OpenSoundLab - OpenSoundLab (OSL) ทำให้การแก้ไขเสียงแบบแยกส่วนสามมิติในประสบการณ์ผสมจริงโดยใช้โหมด Passthrough ของ Meta Quest
เห็น 2-sound? -เสียงสภาพแวดล้อมเชิงพื้นที่เป็นศูนย์ต่อพื้นที่

^ กลับไปที่เนื้อหา ^

การประมวลผลเสียงเว็บ (WAP)

การประมวลผลเสียง WEBRTC - การผูก Python ของการประมวลผลเสียง WEBRTC
WebChuck - WebChuck นำ Chuck ภาษาการเขียนโปรแกรมเสียงที่กำหนดไว้อย่างมากไปยังเว็บ! ซอร์สโค้ด C ++ ของ Chuck ได้รับการรวบรวมลงใน WebAssembly (WASM) และทำงานผ่านส่วนต่อประสาน AudioworkletNode ของ Web Audio API
midi.js -? ทำให้ชีวิตง่ายต่อการสร้าง midi-app บนเว็บ รวมห้องสมุดเพื่อโปรแกรม synesthesia ลงในแอพของคุณสำหรับการจดจำหน่วยความจำหรือเพื่อสร้างเอฟเฟกต์ trippy แปลง Soundfonts สำหรับกีตาร์เบสกลอง ect เป็นรหัสที่สามารถอ่านได้โดยเบราว์เซอร์ midi.js เชื่อมโยงกันและสร้างตามกรอบที่นำ Midi มาสู่เบราว์เซอร์ รวมเข้ากับ jasmid เพื่อสร้างสตรีม MIDI เว็บ-radio คล้ายกับการสาธิตนี้หรือกับสาม.js, sparks.js หรือ glsl เพื่อสร้างการทดลองเสียง/ภาพ
Web Voice Processor - ห้องสมุดสำหรับการประมวลผลเสียงแบบเรียลไทม์ในเว็บเบราว์เซอร์
Tone.js - Tone.js เป็นกรอบเสียงเว็บสำหรับการสร้างเพลงแบบโต้ตอบในเบราว์เซอร์ สถาปัตยกรรมของ Tone.js มีจุดมุ่งหมายที่จะคุ้นเคยกับทั้งนักดนตรีและโปรแกรมเมอร์เสียงที่สร้างแอพพลิเคชั่นเสียงบนเว็บ ในระดับสูง Tone นำเสนอคุณสมบัติ DAW ทั่วไป (เวิร์กสเตชันเสียงดิจิตอล) เช่นการขนส่งทั่วโลกสำหรับการซิงโครไนซ์และการจัดตารางเวลารวมถึง synths และเอฟเฟกต์ prebuilt นอกจากนี้ Tone ยังให้หน่วยการสร้างประสิทธิภาพสูงเพื่อสร้างซินธิไซเซอร์เอฟเฟกต์และสัญญาณควบคุมที่ซับซ้อนของคุณเอง
Audio.js - AudioJS เป็นไลบรารี JavaScript แบบดรอปอินที่อนุญาตให้ใช้แท็ก <audio> ของ HTML5 ได้ทุกที่ มันใช้พื้นเมือง <audio> ที่มีอยู่และกลับไปที่เครื่องเล่นแฟลชที่มองไม่เห็นเพื่อเลียนแบบเบราว์เซอร์อื่น ๆ นอกจากนี้ยังให้บริการเครื่องเล่น HTML ที่สอดคล้องกัน UI กับเบราว์เซอร์ทั้งหมดซึ่งสามารถใช้ CSS มาตรฐานที่ใช้แล้ว
peaks.js - องค์ประกอบ UI JavaScript สำหรับการโต้ตอบกับรูปคลื่นเสียง
Howler.js - JavaScript Audio Library สำหรับเว็บสมัยใหม่ Howler.js ทำให้การทำงานกับเสียงใน JavaScript ง่ายและเชื่อถือได้ในทุกแพลตฟอร์ม Howler.js เป็นห้องสมุดเสียงสำหรับเว็บสมัยใหม่ เป็นค่าเริ่มต้นไปยัง Web Audio API และกลับไปที่ HTML5 Audio สิ่งนี้ทำให้การทำงานกับเสียงใน JavaScript ง่ายและเชื่อถือได้ในทุกแพลตฟอร์ม
CoffeeCollider - CoffeeCollider เป็นภาษาสำหรับการสังเคราะห์เสียงแบบเรียลไทม์และองค์ประกอบอัลกอริทึมใน HTML5 แนวคิดของโครงการนี้ได้รับการออกแบบให้เป็น "เขียน coffeescript และประมวลผลเป็น supercollider"
pico.js - โปรเซสเซอร์เสียงสำหรับ cross -platform
Timbre.js - Timbre.js ให้การประมวลผลการทำงานและการสังเคราะห์เสียงในเว็บแอพของคุณด้วยวิธีการของ JavaScript ที่ทันสมัยเช่น jQuery หรือ Node.js. มันมี t-object จำนวนมาก (อย่างเป็นทางการ: วัตถุ Timbre) ที่เชื่อมต่อเข้าด้วยกันเพื่อกำหนดเส้นทางที่ใช้กราฟสำหรับการแสดงเสียงโดยรวม มันเป็นเป้าหมายของโครงการนี้ที่จะเข้าใกล้การประมวลผลเสียงรุ่นต่อไปสำหรับเว็บ
Rythm.js - ห้องสมุด JavaScript ที่ทำให้หน้าเว็บของคุณเต้น
P5.sound - P5.Sound ขยาย P5 ด้วยฟังก์ชั่นเสียงเว็บรวมถึงการป้อนเสียงการเล่นการวิเคราะห์และการสังเคราะห์
WADJS - ห้องสมุด JavaScript สำหรับการจัดการเสียง Web Audio Daw ใช้ Web Audio API สำหรับการสังเคราะห์เสียงแบบไดนามิก มันเหมือนกับ jQuery สำหรับหูของคุณ
Ableton.js - Ableton.js ช่วยให้คุณควบคุมอินสแตนซ์หรืออินสแตนซ์ของ Ableton โดยใช้ Node.js มันพยายามครอบคลุมฟังก์ชั่นให้ได้มากที่สุด
Sound.js - "Sound.js" เป็นห้องสมุดไมโครที่ให้คุณโหลดเล่นและสร้างเอฟเฟกต์เสียงและเพลงสำหรับเกมและแอปพลิเคชันแบบโต้ตอบ มันเล็กมาก: น้อยกว่า 800 บรรทัดของรหัสและไม่มีการพึ่งพา คลิกที่นี่เพื่อลองสาธิตการโต้ตอบ You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (การโคลนเสียงแบบยิงไม่กี่ครั้ง)
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

ขยาย