تنزيل audio development tools - تنزيل كود مصدر audio development tools

أدوات تطوير الصوت (ADT)

هذه قائمة بأدوات تطوير الصوت والصوت والموسيقى التي تحتوي على التعلم الآلي، وتوليد الصوت، ومعالجة الإشارات الصوتية، وتوليف الصوت، وصوت الألعاب، ومحطة عمل الصوت الرقمي، والصوت المكاني، واسترجاع المعلومات الموسيقية، وتوليد الموسيقى، والتعرف على الكلام، وتوليف الكلام، تركيب صوت الغناء وأكثر من ذلك.

جدول المحتويات

التعلم الآلي (ML)
توليد الصوت (AG)
معالجة الإشارات الصوتية (ASP)
تركيب الصوت (SS)
صوت اللعبة (GA)
محطة عمل الصوت الرقمي (DAW)
الصوت المكاني (SA)
معالجة صوت الويب (WAP)
استرجاع معلومات الموسيقى (MIR)
جيل الموسيقى (MG)
التعرف على الكلام (ASR)
تركيب الكلام (TTS)
الغناء الصوتي التركيبي (SVS)

قائمة المشاريع

التعلم الآلي (ML)

Librosa - Librosa عبارة عن حزمة بايثون لتحليل الموسيقى والصوت. فهو يوفر اللبنات الأساسية اللازمة لإنشاء أنظمة استرجاع المعلومات الموسيقية.
Essentia - Essentia هي مكتبة C++ مفتوحة المصدر لتحليل الصوت واسترجاع معلومات الموسيقى المستندة إلى الصوت وتم إصدارها بموجب ترخيص Affero GPLv3. يحتوي على مجموعة واسعة من الخوارزميات القابلة لإعادة الاستخدام والتي تنفذ وظيفة إدخال/إخراج الصوت، وكتل معالجة الإشارات الرقمية القياسية، والتوصيف الإحصائي للبيانات، ومجموعة كبيرة من واصفات الموسيقى الطيفية والزمنية والنغمية وعالية المستوى. مكتبة C++ لتحليل الصوت والموسيقى والوصف والتوليف، بما في ذلك روابط Python.
DDSP - DDSP: معالجة الإشارات الرقمية القابلة للتمييز. DDSP عبارة عن مكتبة تضم إصدارات مختلفة من وظائف DSP الشائعة (مثل أجهزة المزج وأجهزة تشكيل الموجات والمرشحات). وهذا يسمح باستخدام هذه العناصر القابلة للتفسير كجزء من نموذج التعلم العميق، خاصة كطبقات الإخراج لتوليد الصوت.
MIDI-DDSP - MIDI-DDSP: التحكم التفصيلي في الأداء الموسيقي عبر النمذجة الهرمية. MIDI-DDSP هو نموذج توليد صوت هرمي لتوليف MIDI الموسع من DDSP.
DDSP-VST - مركب وتأثير DDSP العصبي في الوقت الفعلي. المكونات الإضافية VST3/AU وتطبيقات سطح المكتب التي تم إنشاؤها باستخدام إطار عمل JUCE وDDSP.
torchsynth - مُركِّب معياري اختياري لوحدة معالجة الرسومات في pytorch، أسرع بمقدار 16200 مرة من الوقت الفعلي، لباحثي تعلم الآلة الصوتي.
aubio - aubio هي أداة مصممة لاستخراج التعليقات التوضيحية من الإشارات الصوتية. وتشمل ميزاته تقسيم ملف صوتي قبل كل هجوم من هجماته، وإجراء اكتشاف طبقة الصوت، والنقر على الإيقاع، وإنتاج تدفقات متوسطة الحجم من الصوت المباشر.
audioFlux - audioFlux هي مكتبة أدوات تعليمية عميقة لتحليل الصوت والموسيقى واستخراج الميزات. وهو يدعم العشرات من طرق تحويل تحليل التردد الزمني ومئات من مجموعات ميزات المجال الزمني ومجال التردد المقابلة. يمكن توفيره لشبكات التعلم العميق للتدريب، ويستخدم لدراسة المهام المختلفة في المجال الصوتي مثل التصنيف والفصل واسترجاع معلومات الموسيقى (MIR) وASR وما إلى ذلك.
Polymath - يستخدم Polymath التعلم الآلي لتحويل أي مكتبة موسيقى (على سبيل المثال من القرص الصلب أو YouTube) إلى مكتبة نماذج لإنتاج الموسيقى. تقوم الأداة تلقائيًا بفصل الأغاني إلى فروع (إيقاعات، جهير، وما إلى ذلك)، وتكميمها بنفس الإيقاع وشبكة الإيقاعات (على سبيل المثال، 120 نبضة في الدقيقة)، وتحليل البنية الموسيقية (على سبيل المثال، الآية، والكورس، وما إلى ذلك)، والمفتاح (على سبيل المثال، C4، E3). ، وما إلى ذلك) ومعلومات أخرى (جرس، جهارة الصوت، وما إلى ذلك)، وتحويل الصوت إلى midi. والنتيجة هي مكتبة نماذج قابلة للبحث تعمل على تبسيط سير العمل لمنتجي الموسيقى ودي جي ومطوري الصوت تعلم الآلة.
IPython - يوفر IPython مجموعة أدوات غنية لمساعدتك على تحقيق أقصى استفادة من استخدام Python بشكل تفاعلي.
torchaudio - مكتبة صوتية لـ PyTorch. معالجة البيانات وتحويلها لمعالجة الإشارات الصوتية، مدعوم من PyTorch.
TorchLibrosa - تطبيق PyTorch لـ Librosa.
torch-audiomentations - تكبير سريع للبيانات الصوتية في PyTorch. مستوحاة من السمعيات. مفيدة للتعلم العميق.
PyTorch Audio Augmentations - مكتبة تعزيزات البيانات الصوتية لـ PyTorch للصوت في المجال الزمني.
Asteroid - Asteroid عبارة عن مجموعة أدوات لفصل مصدر الصوت تعتمد على Pytorch والتي تتيح إجراء تجارب سريعة على مجموعات البيانات الشائعة. يأتي مزودًا بكود مصدر يدعم مجموعة كبيرة من مجموعات البيانات والبنيات، ومجموعة من الوصفات لإعادة إنتاج بعض الأوراق المهمة.
Kapre - Kapre: معالجات Keras الصوتية المسبقة. معالجات الصوت الأولية من Keras - تحسب STFT وInverseSTFT وMelspectrogram وغيرها على وحدة معالجة الرسومات في الوقت الفعلي.
praudio - إطار المعالجة المسبقة للصوت لتطبيقات الصوت للتعلم العميق.
مجموعة أدوات المزج التلقائي - نماذج ومجموعات بيانات لتدريب نماذج المزج التلقائي للتعلم العميق.
DeepAFx - DeepAFx: تأثيرات صوتية عميقة. تُستخدم تأثيرات معالجة الإشارات الصوتية (FX) لمعالجة خصائص الصوت عبر مجموعة متنوعة من الوسائط. ومع ذلك، قد يكون استخدام العديد من العملات الأجنبية أمرًا صعبًا أو مملًا، خاصة بالنسبة للمستخدمين المبتدئين. نهدف في عملنا إلى تبسيط كيفية استخدام FX الصوتي من خلال تدريب الآلة على استخدام FX مباشرةً وتنفيذ مهام إنتاج الصوت تلقائيًا. ومن خلال استخدام الأدوات المألوفة والحالية لمعالجة واقتراح معلمات التحكم، يمكننا إنشاء نموذج فريد يمزج قوة الذكاء الاصطناعي مع التحكم الإبداعي البشري لتمكين المبدعين.
nnAudio - nnAudio عبارة عن مجموعة أدوات لمعالجة الصوت تستخدم شبكة PyTorch العصبية التلافيفية كواجهة خلفية لها. ومن خلال القيام بذلك، يمكن إنشاء مخططات طيفية من الصوت أثناء التدريب على الشبكة العصبية ويمكن تدريب نواة فورييه (على سبيل المثال، أو نواة CQT).
WavEncoder - WavEncoder هي مكتبة Python لتشفير الإشارات الصوتية، والتحويلات لتكبير الصوت، وتدريب نماذج تصنيف الصوت باستخدام واجهة PyTorch الخلفية.
SciPy - SciPy (يُنطق "Sigh Pie") هو برنامج مفتوح المصدر للرياضيات والعلوم والهندسة. يتضمن وحدات للإحصاء، والتحسين، والتكامل، والجبر الخطي، وتحويلات فورييه، ومعالجة الإشارات والصور، ومحلولات ODE، والمزيد.
pyAudioAnalogy - مكتبة تحليل الصوت في Python: استخراج الميزات والتصنيف والتجزئة والتطبيقات.
Mutagen - Mutagen هي وحدة بايثون للتعامل مع البيانات الوصفية الصوتية. وهو يدعم ملفات الصوت ASF وFLAC وMP4 وMonkey's Audio وMP3 وMusepack وOgg Opus وOgg FLAC وOgg Speex وOgg Theora وOgg Vorbis وTrue Audio وWavPack وOptimFROG وAIFF. يتم دعم جميع إصدارات ID3v2، ويتم تحليل جميع إطارات ID3v2.4 القياسية. يمكنه قراءة رؤوس Xing لحساب معدل البت وطول ملفات MP3 بدقة. يمكن تحرير علامات ID3 وAPEv2 بغض النظر عن تنسيق الصوت. يمكنه أيضًا معالجة تدفقات Ogg على مستوى الحزمة/الصفحة الفردية.
LibXtract - LibXtract هي مكتبة بسيطة ومحمولة وخفيفة الوزن لوظائف استخراج ميزات الصوت. الغرض من المكتبة هو توفير مجموعة شاملة نسبيًا من أساسيات استخراج الميزات المصممة لتكون "متسلسلة" لإنشاء تسلسلات هرمية للاستخراج.
ديجافو - بصمات الصوت والتعرف عليها في بايثون. يمكن لـ Dejavu حفظ الصوت من خلال الاستماع إليه مرة واحدة وأخذ بصمات أصابعه. ثم من خلال تشغيل أغنية وتسجيل إدخال الميكروفون أو القراءة من القرص، يحاول Dejavu مطابقة الصوت مع بصمات الأصابع الموجودة في قاعدة البيانات، مما يؤدي إلى إعادة الأغنية التي يتم تشغيلها.
المطابقة - ️ مطابقة وإتقان الصوت مفتوح المصدر. Matchering 2.0 عبارة عن تطبيق ويب مبتكر ومكتبة Python لمطابقة الصوت وإتقانه.
TimeSide - TimeSide هو إطار عمل بلغة python يتيح التحليل الصوتي المنخفض والعالي المستوى، والتصوير، وتحويل الترميز، والبث، ووضع العلامات. تم تصميم واجهة برمجة التطبيقات (API) عالية المستوى الخاصة بها لتمكين المعالجة المعقدة لمجموعات بيانات كبيرة جدًا لأي أصول صوتية أو فيديو باستخدام بنية المكونات الإضافية، وواجهة خلفية آمنة قابلة للتطوير، وواجهة ويب ديناميكية قابلة للتوسيع.
Meyda - Meyda هي مكتبة لاستخراج ميزات الصوت في Javascript. تدعم Meyda استخراج الميزات دون الاتصال بالإنترنت بالإضافة إلى استخراج الميزات في الوقت الفعلي باستخدام Web Audio API. لقد كتبنا ورقة حول هذا الموضوع، وهي متاحة هنا.
Audiomentations - مكتبة بايثون لزيادة البيانات الصوتية. مستوحاة من الألبومات. مفيدة للتعلم العميق. يعمل على وحدة المعالجة المركزية. يدعم الصوت الأحادي والصوت متعدد القنوات. يمكن دمجها في خطوط أنابيب التدريب، على سبيل المثال Tensorflow/Keras أو Pytorch. ساعد الأشخاص في الحصول على نتائج عالمية المستوى في مسابقات Kaggle. يتم استخدامه من قبل الشركات التي تصنع منتجات صوتية من الجيل التالي.
soundata - مكتبة بايثون لتنزيل مجموعات البيانات الصوتية وتحميلها والعمل معها.
auraloss - مجموعة من وظائف فقدان الصوت التي تركز على PyTorch.
Neutone - البرنامج المساعد الصوتي AI والمجتمع. سد الفجوة بين أبحاث الذكاء الاصطناعي والإبداع
Waveformer - بنية فعالة لاستخراج الصوت المستهدف في الوقت الحقيقي.
EfficientAT - وضع علامات صوتية فعالة على نطاق واسع. نحن نقدم نماذج AudioSet المدربة مسبقًا وجاهزة للتدريب النهائي واستخراج التضمينات الصوتية.
EfficientAT_HEAR - تقييم نماذج EfficientAT على أساس التقييم الشامل لمعيار تمثيل الصوت.
VAD-python - كاشف النشاط الصوتي في بايثون. كود بايثون لتطبيق كاشف النشاط الصوتي على ملف الموجة. كاشف النشاط الصوتي يعتمد على النسبة بين الطاقة في نطاق الكلام والطاقة الكلية.
Diffsynth - مركب موسيقي مختلف في PyTorch.
Realtime DDSP - DDSP في الوقت الحقيقي (البث المباشر) في PyTorch متوافق مع النيوتون.
pc-ddsp - مشفرات صوتية DDSP يمكن التحكم فيها.
SSSSM-DDSP - مطابقة صوت المركب شبه الخاضع للإشراف مع معالج الإشارة الرقمي (DSP) القابل للتمييز.
GOLF - مشفر صوتي عصبي قائم على DDSP.
audacitorch - أغلفة PyTorch لاستخدام النموذج الخاص بك بجرأة!
Scyclone - Scyclone هو مكون إضافي للصوت يستخدم تقنية نقل الصوت العصبي لتقديم طريقة جديدة لإنتاج الصوت.
Scyclone AI - إنشاء إعدادات مسبقة لـ Scyclone: مكون إضافي لنقل الصوت العصبي في الوقت الحقيقي.
برمجة المركب التلقائي متعدد المهام - هذا هو الكود الخاص بمشروع برمجة المركب التلقائي متعدد VST.
NeuralNote - البرنامج المساعد الصوتي لنسخ الصوت إلى MIDI باستخدام التعلم العميق.
AudioDec - برنامج ترميز الصوت العصبي عالي الدقة مفتوح المصدر.
PaSST - تدريب فعال لمحولات الصوت باستخدام برنامج Patchout.
الكلام_بيانات_augment - ملخص لخوارزميات زيادة بيانات الكلام.
AugLy - مكتبة تكبير البيانات للصوت والصورة والنص والفيديو.
NeuraFuzz - مكون إضافي للصوت العصبي تم تدريبه على تصميم دوائر زغب تناظرية مخصصة.
Ultimate Vocal Remover GUI - واجهة المستخدم الرسومية لمزيل الصوت الذي يستخدم الشبكات العصبية العميقة.
Frechet Audio Distance - مكتبة خفيفة الوزن لحساب مسافة Frechet Audio Distance.
LAPE - إطار عمل موحد لمعالجة وتقييم الصوت منخفض الموارد (التدريب المسبق لـ SSL والضبط النهائي).
Azure SDK for Python - هذا المستودع مخصص للتطوير النشط لـ Azure SDK for Python.
Panotti - مصنف صوتي للشبكة العصبية متعدد القنوات باستخدام Keras.
Allie - Allie هو إطار عمل لبناء نماذج التعلم الآلي من ملفات الصوت أو النص أو الصورة أو الفيديو أو ملفات .CSV.
Torchplugins - المكونات الإضافية Max/MSP وPureData وUnity لتحميل نماذج Pytorch.
aeiou - (ML) أدوات الإدخال / الإخراج للهندسة الصوتية.
BirdNET-Analyzer - محلل BirdNET لمعالجة البيانات الصوتية العلمية.
Spring-reverb-dl-models - النمذجة التناظرية الافتراضية لتردد الربيع مع التعلم العميق.
EVAR ~ - EVAR ~ حزمة تقييم للتمثيلات الصوتية.
Julius - معالج DSP سريع يعتمد على PyTorch للإشارات الصوتية و1D.
NeuralDX7 - تجارب التعلم الآلي العشوائية المتعلقة بـ Yamaha DX7 الكلاسيكي.
HANCE - تقدم HANCE تقنيات معالجة الإشارات عالية الجودة تم تطويرها بواسطة متخصصين في التعلم الآلي ومهندسي الصوت وخبراء معالجة الصوت. تم تصميم تقنيتنا لتزويد المستخدمين بأعلى تجربة صوتية ممكنة عن طريق إزالة الضوضاء والتردد وضعف الإشارة الأخرى.
IDEAW - علامة مائية صوتية عصبية قوية مع تضمين مزدوج قابل للعكس.
SyneThesia - SynEthesia عبارة عن متخيل موسيقى وصوت قائم على التعلم العميق، ولعب بالكلمات على Synesthesia، وهي حالة عصبية حيث يدرك المرء الحافز بطرق متعددة (على سبيل المثال رؤية الصوت).
Voxaboxen - Voxaboxen هو إطار عمل للتعلم العميق مصمم للعثور على أوقات البدء والتوقف للأحداث الصوتية (المحتملة المتداخلة) في التسجيل.
voice-separate - أداة بسيطة للغاية لفصل الغناء وموسيقى الخلفية، مترجمة بالكامل لتشغيل الويب، باستخدام نماذج ثنائية/4 جذع/5 جذع.
تحسين الكلام - التعلم العميق لتقليل الضوضاء الصوتية.
SNAC - يقوم برنامج ترميز الصوت العصبي متعدد المقاييس (SNAC) بضغط الصوت بمعدل 44.1 كيلو هرتز إلى رموز منفصلة بمعدل بت منخفض.
Supervoice GPT - نموذج GPT يقوم بالتحويل من نص إلى مقاطع صوتية بفترات مناسبة للتغذية في مركب الصوت.
تحرير الصوت - تحرير الصوت بدون لقطة بدون إشراف والمعتمد على النص باستخدام عكس DDPM.
MAX-Audio-Classifier - IBM Developer Model Asset Exchange: مصنف الصوت.
أنيرا - بنية لاستدلال الشبكة العصبية في التطبيقات الصوتية في الوقت الحقيقي.
FakeSound - الكشف العام عن الصوت في Deepfake.
Audio Mamba - نموذج الفضاء ثنائي الاتجاه لتعلم التمثيل الصوتي.
SSAMBA - SSAMBA: تعلم التمثيل الصوتي تحت الإشراف الذاتي باستخدام نموذج الفضاء في ولاية مامبا.
SLAM-LLM - SLAM-LLM عبارة عن مجموعة أدوات للتعلم العميق تتيح للباحثين والمطورين تدريب نموذج لغة كبير متعدد الوسائط مخصص (MLLM)، مع التركيز على معالجة الكلام واللغة والصوت والموسيقى.
MIDI2vec - MIDI2vec: تعلم التضمينات لتمثيلات مساحة متجه MIDI.

^ العودة إلى المحتويات ^

توليد الصوت (AG)

AudioLCM - إنشاء تحويل النص إلى صوت باستخدام نماذج الاتساق الكامن.
Aufffusion - Aufffusion: الاستفادة من قوة الانتشار ونماذج اللغة الكبيرة لتوليد النص إلى الصوت.
Audiobox - Audiobox: إنشاء الصوت الموحد مع مطالبات اللغة الطبيعية.
أمفيون - أمفيون: مجموعة أدوات مفتوحة المصدر لإنشاء الصوت والموسيقى والكلام.
Nendo - مجموعة أدوات الصوت Nendo AI.
صوت مستقر - نشر الصوت الكامن المشروط بالتوقيت السريع.
WavJourney - إنشاء الصوت التركيبي باستخدام نماذج لغوية كبيرة.
Audiocraft - Audiocraft هي مكتبة PyTorch لأبحاث التعلم العميق حول توليد الصوت.
vschaos2 - vschaos2: التوليف الصوتي العصبي القديم.
الرنان العصبي - تركيب صوت الجسم الصلب باستخدام رنانات نمطية قابلة للتمايز.
SoundStorm - SoundStorm: توليد الصوت الموازي الفعال.
SpeechGPT - SpeechGPT: تمكين نماذج اللغات الكبيرة من خلال قدرات المحادثة الجوهرية متعددة الوسائط.
CLAPSpeech - CLAPSpeech: تعلم علم العروض من سياق النص مع التدريب المسبق على اللغة والصوت المتباين.
AudioGPT - AudioGPT: فهم وتوليد الكلام والموسيقى والصوت والرأس الناطق.
Bark - Bark هو نموذج لتحويل النص إلى صوت قائم على المحولات تم إنشاؤه بواسطة Suno. يمكن لـ Bark إنشاء كلام واقعي للغاية ومتعدد اللغات بالإضافة إلى مقاطع صوتية أخرى - بما في ذلك الموسيقى وضوضاء الخلفية والمؤثرات الصوتية البسيطة.
TANGO - TANGO هو نموذج نشر كامن (LDM) لتوليد تحويل النص إلى الصوت (TTA). يمكن لـ TANGO إنشاء صوتيات واقعية بما في ذلك أصوات الإنسان وأصوات الحيوانات والأصوات الطبيعية والاصطناعية والمؤثرات الصوتية من المطالبات النصية.
ArchiSound - توليد الصوت باستخدام نماذج الانتشار في PyTorch.
WaveGAN - WaveGAN: تعلم كيفية تركيب الصوت الخام باستخدام شبكات الخصومة التوليدية.
NeuralSound - تركيب صوتي مشروط قائم على التعلم مع النقل الصوتي.
RAVE - RAVE: أداة التشفير التلقائي المتغيرة للصوت في الوقت الفعلي. جهاز تشفير تلقائي متغير لتركيب صوتي عصبي سريع وعالي الجودة.
AudioLDM - AudioLDM: إنشاء تحويل النص إلى صوت باستخدام نماذج الانتشار الكامنة.
Make-An-Audio - Make-An-Audio: إنشاء تحويل النص إلى صوت باستخدام نماذج الانتشار المحسّنة السريعة.
Make-An-Audio 3 - Make-An-Audio 3: تحويل النص إلى صوت عبر محولات الانتشار الكبيرة المعتمدة على التدفق.
Moûsai - Moûsai: تحويل النص إلى صوت مع الانتشار الكامن للسياق الطويل.
Im2Wav - إنشاء الصوت الموجه بالصور. نقترح Im2Wav، وهو نظام توليد صوتي مفتوح المجال موجه بالصور. بالنظر إلى صورة إدخال أو سلسلة من الصور، يقوم Im2Wav بإنشاء صوت ذي صلة لغويًا.
Oobleck - برنامج ترميز VAE مفتوح لتدفق الصوت من أجل تركيب الصوت العصبي.
USS - هذا هو تطبيق PyTorch لفصل المصدر العالمي باستخدام البيانات ذات التصنيف الضعيف. يمكن لنظام USS اكتشاف فئات الصوت وفصلها تلقائيًا عن التسجيل الحقيقي. يمكن لنظام USS فصل ما يصل إلى مئات من فئات الصوت (فئات الصوت) في بنية وجودية هرمية.
الناشرون - ؟ Diffusers هي المكتبة المفضلة لأحدث نماذج النشر المدربة مسبقًا لإنشاء الصور والصوت وحتى الهياكل ثلاثية الأبعاد للجزيئات.
سلام واحد - نموذج تمثيل عام عبر طرق الرؤية والصوت واللغة.
tiny-audio-diffusion - هذا مستودع لإنشاء عينات صوتية قصيرة وتدريب نماذج نشر الشكل الموجي على وحدة معالجة الرسومات (GPU) التي تحتوي على أقل من 2 جيجابايت من ذاكرة الفيديو (VRAM).
أدوات الصوت المستقرة - نماذج توليدية لتوليد الصوت المشروط.
CTAG - إنشاء تحويل النص إلى الصوت بشكل إبداعي عبر برمجة المركب.
برنامج ترميز Audiogen - برنامج ترميز صوتي عصبي استريو منخفض الضغط بمعدل 48 كيلو هرتز للصوت العام، مما يعمل على تحسين دقة الصوت؟.
WavCraft - WavCraft هو وكيل AI لإنشاء الصوت وتحريره.
FoleyCrafter - FoleyCrafter: إضفاء الحيوية على مقاطع الفيديو الصامتة بأصوات نابضة بالحياة ومتزامنة.

^ العودة إلى المحتويات ^

معالجة الإشارات الصوتية (ASP)

SouPyX - SouPyX هي مساحة غنية بالألوان لاستكشاف الصوت، ومناسبة للبحث والاستكشاف في مجموعة متنوعة من المجالات الصوتية. في SouPyX، يمكنك إجراء البحث والاستكشاف في معالجة الصوت، وتوليف الصوت، والمؤثرات الصوتية، والصوت المكاني، والتصور الصوتي، وصوت الذكاء الاصطناعي، وغير ذلك الكثير.
SoundFile - SoundFile عبارة عن مكتبة صوتية تعتمد على libsndfile وCFFI وNumPy.
Audio DSPy - audio_dspy عبارة عن حزمة Python لأدوات معالجة الإشارات الصوتية.
pyAudioDspTools - pyAudioDspTools عبارة عن حزمة python 3 لمعالجة الصوت باستخدام numpy فقط.
موجة - توفر وحدة الموجة واجهة ملائمة لتنسيق الصوت WAV. لا يدعم الضغط/إلغاء الضغط، لكنه يدعم الصوت الأحادي/الستيريو.
FFmpeg - FFmpeg عبارة عن مجموعة من المكتبات والأدوات اللازمة لمعالجة محتوى الوسائط المتعددة مثل الصوت والفيديو والترجمات والبيانات الوصفية ذات الصلة.
Opus - ضغط الصوت الحديث للإنترنت.
Pedalboard - Pedalboard هي مكتبة Python للعمل مع الصوت: القراءة والكتابة وإضافة التأثيرات والمزيد. وهو يدعم تنسيقات الملفات الصوتية الأكثر شيوعًا وعددًا من المؤثرات الصوتية الشائعة، كما يسمح أيضًا باستخدام تنسيقات VST3 وAudio Unit للمكونات الإضافية التابعة لجهات خارجية.
PyAudio - يوفر PyAudio روابط Python لـ PortAudio v19، مكتبة الإدخال/الإخراج الصوتية عبر الأنظمة الأساسية. باستخدام PyAudio، يمكنك بسهولة استخدام Python لتشغيل الصوت وتسجيله على مجموعة متنوعة من الأنظمة الأساسية، مثل GNU/Linux وMicrosoft Windows وApple macOS.
PortAudio - PortAudio هي مكتبة إدخال/إخراج صوتية مجانية ومتعددة المنصات ومفتوحة المصدر. يتيح لك كتابة برامج صوتية بسيطة بلغة 'C' أو C++ والتي سيتم تجميعها وتشغيلها على العديد من الأنظمة الأساسية بما في ذلك Windows وMacintosh OS X وUnix (OSS/ALSA). الغرض منه هو تعزيز تبادل البرامج الصوتية بين المطورين على منصات مختلفة. تستخدم العديد من التطبيقات PortAudio لإدخال/إخراج الصوت.
Pyo - pyo هي وحدة Python مكتوبة بلغة C للمساعدة في إنشاء البرنامج النصي لمعالجة الإشارات الرقمية. وحدة Python DSP. باستخدام Pyo، سيتمكن المستخدم من تضمين سلاسل معالجة الإشارات مباشرةً في نصوص أو مشاريع Python، ومعالجتها في الوقت الفعلي من خلال المترجم الفوري.
tinytag - tinytag هي مكتبة لقراءة البيانات الوصفية للموسيقى لمعظم الملفات الصوتية الشائعة بلغة python النقية. قراءة البيانات الوصفية للصوت والموسيقى ومدة ملفات MP3 وOGG وOPUS وMP4 وM4A وFLAC وWMA وWave وAIFF باستخدام python 2 أو 3.
Friture - Friture هو تطبيق لتصور وتحليل البيانات الصوتية الحية في الوقت الحقيقي. يعرض Friture البيانات الصوتية في العديد من عناصر واجهة المستخدم، مثل النطاق، أو محلل الطيف، أو مخطط طيفي متداول ثنائي الأبعاد.
sounddevice - توفر وحدة Python هذه روابط لمكتبة PortAudio وبعض الوظائف الملائمة لتشغيل وتسجيل صفائف NumPy التي تحتوي على إشارات صوتية.
Pydub - معالجة الصوت من خلال واجهة بسيطة وسهلة عالية المستوى.
NAudio - مكتبة الصوت وMIDI لـ .NET.
SoundCard - SoundCard هي مكتبة لتشغيل وتسجيل الصوت دون اللجوء إلى ملحق CPython. بدلاً من ذلك، يتم تنفيذه باستخدام CFFI الرائع والمكتبات الصوتية الأصلية لنظام التشغيل Linux وWindows وmacOS.
TarsosDSP - TarsosDSP هي مكتبة جافا لمعالجة الصوت. هدفها هو توفير واجهة سهلة الاستخدام لخوارزميات معالجة الموسيقى العملية التي يتم تنفيذها، بأبسط طريقة ممكنة، في Java خالصة ودون أي تبعيات خارجية أخرى.
Maximilian - Maximilian عبارة عن مكتبة لتركيب الصوت ومعالجة الإشارات متعددة المنصات ومتعددة الأهداف. تمت كتابته بلغة C++ ويوفر روابط لجافا سكريبت.
مجموعة أدوات التجميع في C++ (STK) - مجموعة أدوات التجميع في C++ (STK) هي مجموعة من فئات معالجة الإشارات الصوتية مفتوحة المصدر والتوليف الخوارزمي المكتوبة بلغة برمجة C++.
JUCE - JUCE هو إطار تطبيق C++ مفتوح المصدر ومتعدد المنصات لإنشاء تطبيقات سطح المكتب والهواتف المحمولة عالية الجودة، بما في ذلك VST وVST3 وAU وAUv3 وAAX وLV2 المكونات الإضافية الصوتية ومضيفي المكونات الإضافية. يمكن دمج JUCE بسهولة مع المشاريع الحالية عبر CMake، أو يمكن استخدامه كأداة لإنشاء المشاريع عبر Projucer، الذي يدعم تصدير المشاريع لـ Xcode (macOS وiOS)، وVisual Studio، وAndroid Studio، وCode::Blocks، وLinux Makefiles كملفات بالإضافة إلى احتوائه على محرر التعليمات البرمجية المصدر.
iPlug 2 - إطار عمل المكونات الإضافية للصوت C++ لسطح المكتب والهاتف المحمول والويب.
CHOC - مجموعة من الفئات الرأسية فقط، المرخصة بشكل مسموح، لتوفير المهام الأساسية المفيدة مع الحد الأدنى من التبعيات.
Q - Q عبارة عن مكتبة C++ متعددة المنصات لمعالجة الإشارات الصوتية الرقمية. تمت تسميتها على اسم "عامل Q"، وهو معلمة بلا أبعاد تصف جودة دائرة الرنين، وقد تم تصميم مكتبة Q DSP لتكون بسيطة وأنيقة، كما يوحي اسمها ببساطة، وفعالة بما يكفي للتشغيل على وحدات التحكم الدقيقة الصغيرة.
BasicDSP - BasicDSP - أداة لمعالجة الصوت / تجربة معالجة الإشارات.
DaisySP - مكتبة DSP قوية ومفتوحة المصدر بلغة C++.
مجموعة أدوات معالجة إشارات الكلام (SPTK) - مجموعة أدوات معالجة إشارات الكلام (SPTK) عبارة عن مجموعة من أدوات معالجة إشارات الكلام لبيئات UNIX، على سبيل المثال، تحليل LPC، وتحليل PARCOR، وتحليل LSP، ومرشح تركيب PARCOR، ومرشح تركيب LSP، وتقنيات تكميم المتجهات ، وغيرها من الإصدارات الموسعة منها.
eDSP - eDSP (معالجة الإشارات الرقمية السهلة) هو إطار عمل لمعالجة الإشارات الرقمية مكتوب بلغة C++ الحديثة والذي ينفذ بعض الوظائف والخوارزميات الشائعة المستخدمة بشكل متكرر في معالجة الإشارات الرقمية وهندسة الصوت وأنظمة الاتصالات.
KFR - KFR هو إطار عمل C++ DSP مفتوح المصدر يركز على الأداء العالي. إطار عمل C++ DSP سريع وحديث، FFT، تحويل معدل العينة، مرشحات FIR/IIR/Biquad (SSE، AVX، AVX-512، ARM NEON).
MWEngine - محرك صوتي وDSP لنظام Android، مكتوب بلغة C++، مما يوفر أداءً منخفض الاستجابة في سياق موسيقي، مع توفير Java/Kotlin API. يدعم كلاً من OpenSL وAAudio.
LabSound - LabSound هو محرك صوتي يعتمد على الرسم البياني C++. تم تجهيز المحرك كمكتبة ثابتة مضمنة بالبطاريات مخصصة للتكامل في العديد من أنواع البرامج: الألعاب، والمرئيات، والتثبيتات التفاعلية، وبيئات الترميز المباشر، ومكونات VST الإضافية، وتطبيقات تحرير/تسلسل الصوت، والمزيد.
Gist - Gist عبارة عن مكتبة لتحليل الصوت تعتمد على لغة C++.
Realtime_PyAudio_FFT - تحليل الصوت في الوقت الفعلي في Python، باستخدام PyAudio وNumpy لاستخراج ميزات FFT وتصورها من دفق الصوت.
Spectrum - التحليل الطيفي في بايثون. Spectrum هي مكتبة Python تحتوي على أدوات لتقدير كثافة الطاقة الطيفية بناءً على تحويل فورييه أو الطرق البارامترية أو تحليل القيم الذاتية. تعتمد طرق فورييه على تقديرات الارتباط والمخطط الدوري وتقديرات ويلش. تتوفر نوافذ مستدقة قياسية (Hann، Hamming، Blackman) ونوافذ أكثر غرابة (DPSS، Taylor، ...).
tidstream - أدوات لتوليد ومعالجة تيارات Vorbis وOpus المباشرة.
AudioTraits - AudioTraits عبارة عن فكرة مجردة مصممة لجعل اختبار معالجة الصوت أكثر ملاءمة وقابلية للقراءة. تقوم "سمة الصوت" بتحليل إشارة صوتية معينة (بعض أو كل قنواتها) والتحقق من خاصية معينة. نتيجة هذا الفحص منطقية، مما يسمح بدمجها بسهولة في أي إطار اختبار للوحدة.
محرر genMDM - واجهة على شبكة الإنترنت لـ genMDM، ووحدة تحكم MIDI لـ Sega Mega Drive وGenesis. كما يدعم واجهة Mega Drive MIDI.
3DAudioVisualizers - مجموعة OpenGL Audio Visualizer في C++ باستخدام JUCE للصوت وواجهة المستخدم الرسومية.
AudioStretchy - AudioStretchy هي مكتبة Python تسمح لك بتمديد الإشارات الصوتية بمرور الوقت دون تغيير درجة الصوت.
SwiftAudio - SwiftAudioEx هو مشغل صوتي يعمل بنظام iOS مكتوب بلغة Swift، مما يسهل العمل مع تشغيل الصوت من التدفقات والملفات.
WaveTools - WaveTools هو إطار لمعالجة الملفات الصوتية. ملفات WAVE (.wav) على وجه الخصوص.
سيمبلي كور أوديو - ؟ إطار عمل Swift يهدف إلى جعل استخدام Core Audio أقل إرهاقًا في نظام التشغيل macOS.
DPF - إطار البرنامج الإضافي DISTRHO. تم تصميم DPF لجعل تطوير المكونات الإضافية الجديدة مهمة سهلة وممتعة.
Neural Amp Modeler Plug-in - مكون إضافي VST3/AudioUnit لـ Neural Amp Modeler، تم تصميمه باستخدام iPlug2.
lsp-dsp-lib - مكتبة DSP لمعالجة الإشارات.
الهيب هوب - مكتبة لكتابة المكونات الإضافية الصوتية التي تقوم بتشغيل واجهة المستخدم في عرض الويب. على أساس DPF.
MGT-python - صندوق أدوات الإيماءات الموسيقية لـ Python.
ASP - أدوات بايثون لمعالجة الإشارات الصوتية.
TinyAudio - TinyAudio هي مكتبة إخراج الصوت عبر الأنظمة الأساسية.
pymixconsole - وحدة تحكم خلط متعددة المسارات بدون رأس في بايثون.
Effects-Plugin - قالب البرنامج المساعد للمؤثرات الصوتية باستخدام Elementary وJUCE.
miniaudio - مكتبة تشغيل الصوت والتقاطه المكتوبة بلغة C، في ملف مصدر واحد.
AudioMass - أداة مجانية كاملة المواصفات لتحرير الصوت والموجات على شبكة الإنترنت.
نموذج مشغل موسيقى Android العالمي - نموذج تطبيق صوتي لنظام Android.
jsfx - مجموعة مجانية من ملحقات JS (JesuSonic) لـ Reaper.
فورييه - تحويلات فورييه السريعة (FFTs) في الصدأ.
ProtoFaust - نماذج DSP الأولية في Faust للمركب المعياري VCV Rack.
Polar - محرك صوتي لمعالجة CUDA (Windows/Linux).
محول الصوت إلى MIDI - برنامج لاكتشاف درجة الصوت من ملفات wav والكتابة في الوقت المناسب لـ MIDI.
AudioTSM - AudioTSM هي مكتبة بيثون لإجراءات تعديل مقياس الوقت الصوتي في الوقت الحقيقي، أي الخوارزميات التي تغير سرعة الإشارة الصوتية دون تغيير درجة الصوت.
تأخير التصفية المتعددة - تأثير صوتي رقمي أصلي مبرمج من خلال Juce/C++.
convoLV2 - convoLV2 هو مكون إضافي LV2 لدمج الإشارات الصوتية بدون زمن انتقال.
Cloud Seed - Cloud Seed عبارة عن مكون إضافي ترددي خوارزمي مدمج في C# وC++ لمحاكاة المساحات الضخمة التي لا نهاية لها والأصداء المعدلة.
موسيقى الخلفية - موسيقى الخلفية، أداة مساعدة صوتية لنظام التشغيل macOS: توقف الموسيقى مؤقتًا تلقائيًا، وتعيين مستويات صوت التطبيقات الفردية، وتسجيل صوت النظام.
audiowaveform - برنامج C++ لإنشاء بيانات الشكل الموجي وتقديم صور الموجة من الملفات الصوتية.
Mutagen - وحدة بايثون للتعامل مع البيانات الوصفية الصوتية.
lewton - وحدة فك ترميز Vorbis مكتوبة باللون الصدأ النقي.
Hound - مكتبة تشفير وفك تشفير wav في Rust.
Rodio - مكتبة تشغيل الصوت الصدأ.
CPAL - مكتبة الإدخال/الإخراج الصوتية عبر الأنظمة الأساسية في حالة صدأ خالص.
CSCore - CSCore هي مكتبة صوتية مجانية مكتوبة بالكامل بلغة C#.
TinyOSC - مكتبة بسيطة للتحكم في الصوت المفتوح (OSC) مكتوبة بلغة الفانيليا C.
TinyWav - مكتبة C بسيطة لقراءة وكتابة ملفات الصوت WAV (16b-int و32b-float).
JAsioHost - مضيف ASIO يستند إلى Java (إدخال/إخراج دفق الصوت).
PyWavelets - PyWavelets هي مكتبة مجانية مفتوحة المصدر لتحويل المويجات في بايثون. المويجات هي دالات رياضية أساسية يتم تحديدها في كل من الوقت والتردد.
ChowMultiTool - البرنامج المساعد الصوتي متعدد الأدوات.
نماذج RE201 - النماذج الرقمية لرولاند RE201. VST3، والمكونات الإضافية للاتحاد الأفريقي وكود المصدر.
RtAudio - مجموعة من فئات C++ التي توفر واجهة برمجة تطبيقات مشتركة لإدخال/إخراج الصوت في الوقت الفعلي عبر Linux (ALSA الأصلي وJACK وPulseAudio وOSS)، وMacintosh OS X (CoreAudio وJACK)، وWindows (DirectSound وASIO وWASAPI) أنظمة التشغيل.
RtAudio-rs - غلاف آمن للصدأ وارتباطات بـ RtAudio.
PFFFT - FFT سريع جدًا والتفاف سريع مع PFFASTCONV.
SHAART - SHAART عبارة عن مجموعة أدوات لتحليل الصوت تعتمد على لغة بايثون، للأغراض التعليمية.
TD-JUCE - صوت JUCE وVSTs في TouchDesigner.
JIVE - JIVE عبارة عن حزمة من وحدات JUCE تتمحور حول الرغبة في اتباع نهج أكثر حداثة لتطوير واجهة المستخدم.
Amplituda - Amplituda - مكتبة أندرويد تعتمد على FFMPEG والتي تعالج الملفات الصوتية وتوفر مجموعة من العينات.
TagLib - مكتبة البيانات الوصفية الصوتية لـ TagLib.
speexdsp - مكتبة بايثون لإلغاء الصدى Speex.
PyPam - أداة التحليل الصوتي السلبي لـ Python للمراقبة الصوتية السلبية (PAM).
AudioTools - معالجة موجهة نحو الكائنات للبيانات الصوتية، مع التعزيزات التي تدعمها وحدة معالجة الرسومات، والمزيد.
Equalize It - المشروع عبارة عن مكون إضافي VST للمساواة. تشتمل واجهة المستخدم على محلل طيف، ولوحة تحكم للمرشح، ومنحنيات استجابة التردد، وأجهزة قياس المستوى.
JDSP4Linux - معالج تأثير صوتي لعملاء PipeWire وPulseAudio.
FIRconv - تطبيقات Python لمرشحات الاستجابة الدافعة المحدودة (FIR).
OpenDSP - نظام التشغيل الحقيقي المدمج بدون رأس Linux للصوت والفيديو DSP.
Ultralight-juce - دمج عارض Ultralight C++/HTML مع JUCE للحصول على واجهات مستخدم أجمل.
Vult - Vult مفيد بشكل خاص عند برمجة خوارزميات معالجة الإشارات الرقمية (DSP) مثل المؤثرات الصوتية أو أجهزة المزج.
CloudSeed [JUCE] - واجهة مستخدم مستندة إلى JUCE للمكون الإضافي CloudSeed VST.
TFliteTemplatePlugin - مكونات إضافية لقالب JUCE لاستخدام TensorFlow lite للاستدلال التعليمي العميق.
DrumFixer - DrumFixer هو مكون إضافي صوتي مصمم لمساعدة مهندسي المزج على تحقيق صوت أفضل للطبول.
BasicAudioPlayer - مكتبة Swift تسهل إنشاء مشغلات الصوت المستندة إلى AVAudioEngine.
PLAudioMixer - خلاط صوت بسيط يعتمد على وضع العرض غير المتصل بـ AVAudioEngine.
estratto - Estratto هي مكتبة Rust قوية وسهلة الاستخدام مصممة لاستخراج الميزات الصوتية الغنية من الإشارات الصوتية الرقمية.
vampy - غلاف يسمح بكتابة المكونات الإضافية لتحليل الصوت في Vamp بلغة Python.
SoundWave - SoundWave عبارة عن طريقة عرض قابلة للتخصيص تمثل الأصوات بمرور الوقت.
PyAV - PyAV عبارة عن رابط Pythonic لمكتبات FFmpeg.
audio-dsp - اللعب مع تطوير البرنامج المساعد الصوتي + DSP.
openSMILE - openSMILE (تفسير الكلام والموسيقى مفتوح المصدر عن طريق استخراج مساحة كبيرة) عبارة عن مجموعة أدوات كاملة ومفتوحة المصدر لتحليل الصوت ومعالجته وتصنيفه وتستهدف بشكل خاص تطبيقات الكلام والموسيقى.
Carla - Carla عبارة عن مضيف مكون إضافي صوتي كامل المواصفات، مع دعم للعديد من برامج تشغيل الصوت وتنسيقات المكونات الإضافية.
JUCE-HEAVY - مشروع JUCE يوضح كيفية توصيل JUCE بملفات المصدر التي تم إنشاؤها بواسطة Heavy C++ (HVCC).
Dplug - إطار البرنامج المساعد الصوتي. VST2/VST3/AU/AAX/LV2 لنظام التشغيل Linux/macOS/Windows.
DAWNet - DAWNet عبارة عن مكون إضافي لـ DAW (محطة عمل صوتية رقمية) يتصل بـ Google Colab أو Script عن بعد.
المعالج الأولي للصوت السمكي - المعالجة المسبقة للصوت للتدريب.
clap-validator - أداة التحقق والاختبار التلقائية لـ CLAP.
DSP Testbench - اختبار DSP لمستخدمي إطار عمل JUCE.
Coupler - Coupler هو إطار عمل لكتابة المكونات الإضافية الصوتية في Rust. وهو يدعم حاليًا واجهات برمجة التطبيقات VST3 وCLAP، مع خطط لدعم AUv2 وAAX في المستقبل القريب.
PyOgg - يوفر PyOgg روابط Python لتنسيقات الملفات الصوتية Opus وVorbis وFLAC الخاصة بـ Xiph.org بالإضافة إلى تنسيق حاوية Ogg الخاصة بها.
Streamlit-audiorcorder - مسجل صوت لـ Streamlit.
DtBlkFx - DtBlkFx عبارة عن مكون إضافي VST يستند إلى تحويل فورييه السريع (FFT).
SmartElectronix - الإصدارات المفتوحة المصدر لجميع المكونات الإضافية Bram @ SmartElectronix.
Cookiejuce - أداة سطر الأوامر لتوليد مشاريع Juce الحديثة مع Cmake.
Auglib - Auglib هي مكتبة زيادة ، والتي توفر تحويلات لتعديل إشارات وملفات الصوت.
Klang - Klang هي لغة لتصميم وتطوير عمليات الصوت في الوقت الفعلي في C ++.

^ العودة إلى المحتويات ^

تخليق الصوت (SS)

CSOUND - CSOUND هو نظام حوسبة الصوت والموسيقى تم تطويره في الأصل بواسطة Barry Vercoe في عام 1985 في MIT Media Lab. منذ التسعينيات ، تم تطويره من قبل مجموعة من المطورين الأساسيين.
Pure Data - Pure Data ( PD ) هي لغة برمجة مرئية تم تطويرها بواسطة Miller Puckette في التسعينيات لإنشاء موسيقى الكمبيوتر التفاعلية وأعمال الوسائط المتعددة. في حين أن Puckette هو المؤلف الرئيسي للبرنامج ، فإن PD هو مشروع مفتوح المصدر مع قاعدة مطور كبيرة تعمل على امتدادات جديدة. يتم إصداره بموجب BSD-3-Cause. يعمل على Linux و MacOS و iOS و Android "Android (نظام التشغيل)") و Windows. توجد الموانئ لـ FreeBSD و IRIX.
Plugdata - بيئة برمجة مرئية لتجربة الصوت والنماذج الأولية والتعليم.
Max/MSP/Jitter - Max ، المعروف أيضًا باسم Max/MSP/Jitter ، هي لغة برمجة مرئية للموسيقى والوسائط المتعددة التي تم تطويرها وصيانتها من قبل شركة البرمجيات التي تتخذ من سان فرانسيسكو مقراً لها. خلال أكثر من ثلاثين عامًا ، تم استخدامه من قبل الملحنين وفناني الأداء ومصممي البرامج والباحثين والفنانين لإنشاء تسجيلات وعروض وتركيبات.
Kyma (لغة تصميم الصوت) - Kyma هي لغة برمجة بصرية لتصميم الصوت الذي يستخدمه الموسيقيون والباحثون ومصممي الصوت. في Kyma ، يقوم المستخدم ببرامج DSP متعددة المعالجات عن طريق توصيل الوحدات النمطية بيانيا على شاشة جهاز كمبيوتر Macintosh أو Windows.
SuperCollider - SuperCollider هي منصة لتوليف الصوت والتكوين الخوارزمي ، يستخدمه الموسيقيون والفنانين والباحثين الذين يعملون مع الصوت. خادم صوتي ولغة البرمجة و IDE لتوليف الصوت والتكوين الخوارزمي.
Sonic PI - Sonic PI هي بيئة ترميز حية تعتمد على روبي "Ruby (لغة البرمجة)") ، المصممة أصلاً لدعم كل من دروس الحوسبة والموسيقى في المدارس ، التي طورتها Sam Aaron في مختبر الكمبيوتر بجامعة كامبريدج بالتعاون مع Raspberry Pi مؤسسة.
Reaktor - Reaktor هو استوديو للموسيقى الرسومية للبرامج المعيارية التي تم تطويرها بواسطة Native Instruments (NI). يسمح للموسيقيين والمتخصصين في الصوت بتصميم وبناء أدواتهم الخاصة ، وأخذ العينات "Sampler (الآلة الموسيقية)") ، والآثار وأدوات تصميم الصوت. يتم تزويده بالعديد من الأدوات والتأثيرات الجاهزة ، من محاكاة المزج الكلاسيكية إلى أدوات تصميم الصوت المستقبلية.
RTCMIX- RTCMIX هي برنامج "لغة" في الوقت الفعلي للقيام بتوليف الصوت الرقمي ومعالجة الإشارات. إنه مكتوب في C/C ++ ، ويتم توزيعه مفتوح المصدر ، مجانًا.
Chuck - Chuck هي لغة برمجة لتوليف الصوت في الوقت الفعلي وإنشاء الموسيقى. يوفر Chuck نموذجًا فريدًا من نوع البرمجة القائم على الوقت الدقيق والتعبير (نسمي هذا التوقيت بقوة) ، ومعدلات تحكم ديناميكية ، والقدرة على إضافة وتعديل الرمز أثناء التنقل. بالإضافة إلى ذلك ، يدعم Chuck MIDI ، و OpenSoundControl ، وجهاز HID ، والصوت متعدد القنوات. إنه مفتوح المصدر ومتوفر بحرية على MacOS X و Windows و Linux. إنه ممتع وسهل التعلم ، ويقدم الملحنين والباحثين وفناني الأداء أداة برمجة قوية لبناء وتجربة برامج توليف/تحليل صوتي معقدة ، والموسيقى التفاعلية في الوقت الفعلي.
Faust-Faust (دفق الصوت الوظيفي) هي لغة برمجة وظيفية لتوليف الصوت ومعالجة الصوت مع التركيز القوي على تصميم المربعات والأدوات الموسيقية والتأثيرات الصوتية ، إلخ. لمجموعة متنوعة من المنصات والمعايير.
الروح - لغة برمجة الروح و API. Soul (لغة الصوت) هي محاولة لتحديث وتحسين الطريقة التي يتم بها كتابة وتنفيذ رمز الصوت ذو الأداء العالي والكلية.
CMAJOR - CMAJOR هي لغة برمجة لكتابة برامج صوتية سريعة محمولة. لقد سمعت عن C ، C ++ ، C#، Objective-C ... حسنًا ، C Major هي لغة عائلة C مصممة خصيصًا لكتابة رمز معالجة إشارة DSP.
VCV Rack - Rack هو التطبيق المضيف لمنصة مزج Eurorack Modular Vrual VCV.
Gwion - Gwion هي لغة برمجة ، تهدف إلى صنع الموسيقى. مستوحاة بقوة من تشاك ، ولكن إضافة ميزات عالية المستوى ؛ templating ، وظائف من الدرجة الأولى وأكثر من ذلك. يهدف إلى أن تكون بسيطة وصغيرة وسريعة وقابلة للتمديد وقابلة للتضمين.
الصوت الابتدائي - الابتدائي هو إطار JavaScript ومحرك صوتي عالي الأداء يساعدك على البناء بسرعة وشحن بثقة. إطار عمل ، إطار عمل لكتابة برامج الصوت على الويب أو للتطبيقات الأصلية.
Elementary - Elementary هي مكتبة JavaScript/C ++ لبناء تطبيقات الصوت.
SOUND2SONTH - SOUND2SONTH: تفسير الصوت عبر تقدير معلمات مزج FM.
JSYN - JSYN هو مزج صوتي وحدات لجافا من قبل فيل بورك. يتيح لك Jsyn تطوير برامج موسيقى الكمبيوتر التفاعلية في Java. يمكن استخدامه لإنشاء المؤثرات الصوتية أو بيئات الصوت أو الموسيقى. يعتمد JSYN على النموذج التقليدي لمولدات الوحدات التي يمكن توصيلها معًا لتشكيل أصوات معقدة.
SYNTHAX - يتمتع مُلاحظ سريعًا في Jax ⚡accelerating Superio Synthesis إلى ما هو أبعد من سرعات الوقت الفعلي دورًا مهمًا يلعبه في تقدم تقنيات إنتاج الصوت الذكية. Synthax هو مزج وحدات افتراضي سريع مكتوب في Jax. في ذروته ، يولد Synthax صوتًا أكثر من 60،000 مرة من الوقت الحقيقي ، وأسرع بكثير من أحدث ما في توليف الصوت المتسارع.
Midica - Midica هو مترجم لفترات برمجة الموسيقى. يترجم رمز المصدر إلى MIDI. ولكن يمكن استخدامه أيضًا كمشغل MIDI أو مترجم MIDI أو Decompiler أو Karaoke Player أو ALDA Player أو ABC Player أو Lilypond Player أو MIDI File Analyzer. تكتب الموسيقى مع واحدة من اللغات المدعومة (MidicaPl أو ALDA أو ABC).
Mercury - Mercury هي لغة الحد الأدنى والقابلة للقراءة للإنسان للترميز المباشر للموسيقى الإلكترونية الخوارزمية. تم تصميم جميع عناصر اللغة حول جعل التعليمات البرمجية أكثر سهولة وأقل تشويشًا للجمهور. يمتد هذا الدافع إلى نمط الترميز نفسه الذي يستخدم أسماء وصفية واضحة للوظائف وبناء بناء جملة واضح.
ALDA - ALDA هي لغة برمجة قائمة على النص لتكوين الموسيقى. يتيح لك كتابة الموسيقى وتشغيلها باستخدام محرر نصوص فقط وخط الأوامر. يفضل تصميم اللغة على حد سواء جماليات ومرونة وسهولة الاستخدام.
محرك الموسيقى الأفلاطوني - محرك الموسيقى الأفلاطوني هو محاولة لإنشاء خوارزميات الكمبيوتر التي تحاكي بشكل سطحي مجمل الثقافة الإنسانية الإبداعية والماضي والحاضر والمستقبل. إنها تفعل ذلك بطريقة تفاعلية للسماح للمستخدم باختيار معلمات وإعدادات مختلفة بحيث تكون النتيجة النهائية فريدة من نوعها للمستخدم مع الحفاظ على الفكرة الثقافية التي ألهمت العمل.
Pyo-Tools-مستودع فصول Python جاهزة للاستخدام لبناء تأثيرات الصوت والتوليف مع Pyo.
PY -MODURY - إطار برمجة الصوت المعيارية والتجريبية لبيثون. Py-Modular هي بيئة برمجة صوتية صغيرة تجريبية للبيثون. يهدف إلى أن يكون قاعدة لاستكشاف تقنيات الصوت وسير العمل الجديدة. تم تصميم معظم كل شيء في Py-Modular حول سير عمل يستند إلى العقدة ، مما يعني أن الطبقات الصغيرة تقوم بمهام صغيرة ويمكن تصحيحها معًا لإنشاء مواد توليفات كاملة أو أفكار أكبر.
Bach: مساعد الملحن الآلي-مجموعة من التصحيحات والخارجية المتقاطعة لـ Max ، تهدف إلى جلب ثراء التكوين بمساعدة الكمبيوتر إلى عالم الوقت الحقيقي.
Audiokit - Audiokit هو توليف صوتي ومعالجة وتحليل منصة لنظام التشغيل iOS و MacOS (بما في ذلك Catalyst) و TVOS.
Twang - مكتبة لتوليف الصوت المتقدم الصدأ النقي.
Gensound - معالجة الصوت البيثون وإطار توليد. طريقة Python لمعالجة الصوت وتوليف.
OTTO - The Otto عبارة عن صندوق للأجهزة الرقمية ، مع موالفة وأسماءات وتأثيرات ومستلزم مع صوتي. الواجهة مسطحة وعزيزة للاستخدام ، ولكن الأهم من ذلك كله ، تهدف إلى تشجيع التجريب.
لوريس - لوريس هي مكتبة لتحليل الصوت والتوليف والتحول ، الذي طورته كيلي فيتز وليبلد هين في مجموعة Cerl Sound. تتضمن LORIS مكتبة فئة C ++ ووحدة Python وواجهة C-Linkable ومرافق سطر الأوامر والوثائق.
Iannix - Iannix هو جهاز تسلسل رسومي مفتوح المصدر ، يعتمد على أعمال Iannis Xenakis ، للفن الرقمي. مزامنة Iannix عبر أحداث ومنحنيات التحكم في الصوت المفتوح (OSC) إلى بيئتك في الوقت الفعلي.
Leipzig - مكتبة تكوين الموسيقى لـ Clojure و ClojureScript.
Nyquist - Nyquist هي لغة صوتية ولغة تكوين تقدم بناء جملة LISP بالإضافة إلى بناء جملة اللغة الضرورية وبيئة تنمية متكاملة قوية .. Nyquist هو نظام أنيق وقوي يعتمد على البرمجة الوظيفية.
OpenMusic (OM) - OpenMusic (OM) هي لغة برمجة بصرية تستند إلى LISP. يتم إنشاء البرامج المرئية عن طريق تجميع الرموز وتوصيلها التي تمثل الوظائف وهياكل البيانات. يتم تنفيذ معظم البرمجة والعمليات عن طريق سحب أيقونة من مكان معين وإسقاطها إلى مكان آخر. يتم توفير هياكل التحكم البصرية المدمجة (مثل حلقات) ، تلك الواجهة مع LISP. يمكن بسهولة استخدام رمز CommonLisp/Clos الحالي في OM ، ويمكن تطوير رمز جديد بطريقة مرئية.
ORCλ - ORCA هي لغة برمجة باطنية مصممة لإنشاء تسلسلات إجرائية بسرعة ، حيث كل حرف من الحروف الأبجدية عبارة عن عملية ، حيث تعمل الأحرف الصغيرة على الانفجار ، تعمل الأحرف الكبيرة على كل إطار.
Overtone - Overtone هي بيئة صوتية مفتوحة المصدر مصممة لاستكشاف الأفكار الموسيقية الجديدة من التوليف وأخذ العينات إلى بناء الأدوات ، وترميز الحية والتشويش التعاوني. نحن نجمع بين محرك الصوت الفائق القوي ، مع Clojure ، وهو من أحدث أنواع LISP ، لإنشاء تجربة صوتية تفاعلية مسكرة.
التماس - الموسيقى الكهربائية الصوتية - قاعدة. الموسيقى الصوتية الكهربائية المستمرة هي مشروع مستوحى من Alvise Vidolin و Nicola Bernardini.
GLICOL - GLICOL (اختصار لـ "لغة الترميز المباشر الموجه إلى الرسم البياني") هي لغة موسيقى كمبيوتر مع كل من لغتها ومحرك الصوت المكتوب بلغة برمجة الصدأ ، وهو بديل حديث لـ C/C ++. بالنظر إلى هذه الطبيعة ذات المستوى المنخفض ، يمكن أن يعمل Glicol على العديد من المنصات المختلفة مثل المتصفحات والمكونات الإضافية VST ولوحة Bela. يتيح بناء الجملة الشبيه بالخلاف والمحرك الصوتي القوي أيضًا الجمع بين التحكم في التسلسل أو التسلسل عالي المستوى مع تخليق الصوت الدقيق ذات المستوى المنخفض ، كل ذلك في الوقت الفعلي.
PAPERSYNTH - نص مكتوبة بخط اليد إلى موالفة! PaperSynth هو مشروع يهدف إلى قراءة الكلمات الرئيسية التي كتبتها على قطعة من الورق وتحويلها إلى توليفات يمكنك تشغيلها على الهاتف.
المرنان العصبي VST - هذا هو مكون إضافي VST يستخدم شبكة عصبية لإنشاء مرشحات تستند إلى أشكال ومواد ثنائية الأبعاد تعسفية. من الممكن استخدام MIDI لإحداث نبضات بسيطة لإثارة هذه المرشحات. بالإضافة إلى ذلك ، يمكن استخدام أي إشارة صوتية كمدخلات للمرشحات.
Scyclone - Scyclone هو مكون إضافي للصوت يستخدم تقنية نقل Timbre العصبية لتقديم نهج جديد لإنتاج الصوت. يبني المكون الإضافي على منهجية الهذيان ، وهو تشفير تلقائي للتغيرات الصوتية في الوقت الفعلي ، مما يسهل نقل timbre العصبي في كل من وضع الاستدلال الواحد والزوجين.
Mlinmax - ML لتوليد الصوت والمعالجة في لعبة MAX Programming Max Cycling '74.
Adlplug - FM Chip Synthesizer - OPL & OPN - VST/LV2/Standalone.
Surge - Plugizer Plugizer (تم إصداره مسبقًا كـ Vember Audio Rase).
CSTOP - Cstop هو مكون إضافي لتأثير الصوت Stop Stop متوفر في AU & VST3 لنظام التشغيل Mac (Windows قريبًا).
Compufart - ضرطة Sound Synthesizer والخوارزمية في cmajor.
Py -JS - Python3 Externals لـ MAX / MSP.
PD -LUA - LUA Bindings for PD ، تم تحديثه لـ LUA 5.3+.
Live 4 Life - أداة أداء مكانية لـ SuperCollider.
CAESARLOOPER - CAESARLOOPER هو استنساخ فائق لمكون Augustus Loop VST من قبل الخبراء.
Dexed - DX7 FM Multi Plaform/Multi Format Plugin.
Leapmotion لـ Max - LeapMotion خارجية لركوب الدراجات 74 كحد أقصى.
Kontakt -Public - موارد للأدوات الأصلية Kontakt Builders.
Pylive - الاستعلام والتحكم في Ableton Live من Python.
ML -Lib - مكتبة تعلم الآلة لـ Max و Pure Data.
Zengarden - Zengarden هي مكتبة قائمة بذاتها لتشغيل تصحيحات البيانات النقية.
Max -SDK - مجموعة تطوير البرمجيات لـ Max بواسطة Cycling '74.
PD-HVCC-إنشاء بيئة Gen ~ مثل PD ، بناءً على المترجم الثقيل.
كوروسيلورز - كائنات MAX/MSP للتخليق الصوتي والإيقاعي باستخدام شبكات من المذبذبات المقترنة.
ASCII -Audio - يولد صوت PCM من سلسلة ASCII. النص مرئي على صورة الطيفية.
BelaminimoGemulation - تنفيذ رقمي لموازنة تمثيلية الحد الأدنى مع أشكال موجية مضادة للرقابة واستجمام لفلتر سلم Moog.
Edisyn - محرر تصحيح Synthesizer.
حزمة Soundgen - R لتوليف الصوت والتحليل الصوتي.
الكاردينال - المكون الإضافي للتوليف المعياري الظاهري.
نماذج صدى الرفرفة - يقدم هذا المستودع عرضًا تجريبيًا MATLAB لتوليف صدى الرفرفة.
عفوًا - عفوًا ، ورقة الآن! مكتبة التيار المتردد لتوليف الصوت والمعالجة ، مخصصة للتطبيقات المدمجة ، مكتوبة باستخدام نمط شبه.
أداة Sonic Pi -؟ التحكم في Sonic Pi من سطر الأوامر ، في Python.
Sonicpi.vim - Sonic Pi البرنامج المساعد لـ VIM.
تسيطر على الشحوم - مولد إيقاع الإقليدي max4live.
KPSTRONG-هذا هو تنفيذ موالفة karplus القوية المذهلة ، والتي تعمل على أنها C ++ في الوقت الفعلي على أجهزة Bela.
NN_TILDE - A MAX / PD خارجي لمعالجة الصوت في الوقت الفعلي.
Grainbow - مزج يستخدم الكشف عن الملعب لاختيار المرشحين للتخليق الحبيبي أو أخذ العينات.
SignalFlow - إطار توليف الصوت لـ Python ، مصمم للتعبير الواضح والموجز عن الأفكار الموسيقية المعقدة.
Syntheon - استنتاج المعلمة لملفات الموسيقى لتبسيط عملية تصميم الصوت. يدعم حيوية و dexed.
Rnbojucetemplate - قالب Juce بما في ذلك الحد الأدنى من المزج تم إنشاؤه باستخدام RNBO's RNBO's MAXMSP ، والذي يلف حالة RNBOOBJECT في المعالجات السمعية في Juce باستخدام أزياء AudioprocessorTreevaluestate الحديثة.
السائل.
LaunchPadx - واجهة SuperCollider بسيطة لوحدة التحكم في Novation.
FAUG - مضاهاة نموذج D MINIMOOG مع جزء DSP مكتوب في فاوست. Moog + Faust = Faug.
الكتل - الكتل عبارة عن مزج معياري متوفر كقائمة مستقلة و VST3 و AU لنظام التشغيل Windows و MacOS.
Bessel's Trick - Bessel's Trick هي مكون إضافي للصوت العصبي لتحويل النغمة الحية لأصوات الآلات الموسيقية باستخدام توليف تعديل التردد (FM).

^ العودة إلى المحتويات ^

صوت اللعبة (GA)

تشونتي - تشاك في الوحدة. البرنامج المساعد لاستخدام تشاك في الوحدة. متوفر على متجر أصول الوحدة.
Raveler - Wwise Plugin الذي يدير نماذج الهذيان ، مما يتيح نقل timbre في الوقت الحقيقي عبر تخليق الصوت العصبي في إعداد صوت اللعبة.
LASP - المكون الإضافي لمعالجة الإشارة الصوتية المنخفضة للوحدة.
Pyreper - غلاف بيثون لريبر.
Reaper-Keys-Vim-Bindings for Reaper.
أدوات ريبر - مستودع أدوات ريبر السمعي. مجموعة من الامتدادات والبرامج النصية والأدوات لـ Reaper.
REAWWISE - REAWWISE هو امتداد Reaper يمكن لمصممي الصوت استخدامه لنقل ملفات الصوت من Reaper إلى مشاريع wwise.
WWISER - A WRISE .BNK Parser ، للمساعدة في التعامل مع الصوت من الألعاب باستخدام محرك wwise.
WAAPI-TEXT-TO-TPEEGE-تكامل النص إلى الكلام wwise باستخدام المحررين الخارجيين.
JSFXR لـ wwise - JSFXR (تم نقله من SFXR) مع اتصال wwise المضافة ، مضمن في الإلكترون.
Soloud - Soloud هو محرك صوت C/C ++ مجاني ومحمول مجاني للألعاب.
Audiotoys - DSP رسومات الشعار المبتكرة للوحدة.
Dolby.io Virtual World Plugin for Unity - مع المكون الإضافي Dolby.io Virtual World للوحدة ، يمكنك بسهولة دمج الصوت المكاني dolby.io ، مدعوم من تقنية Dolby Atmos في تطبيقاتك العالمية الافتراضية.
Dolby.io Virtual Worlds Plugin للمحرك غير الواقع - مع المكون الإضافي Dolby.io الظاهري للمحرك غير الواقع ، يمكنك بسهولة دمج الصوت المكاني dolby.io ، مدعوم من تقنية Dolby Atmos في تطبيقاتك العالمية الافتراضية.
محاكاة المحرك - محاكاة محرك الاحتراق التي تولد صوتًا واقعيًا.
Jack Audio for Unity - يتيح هذا المكتبة/المكون الإضافي توجيه الصوت متعدد القنوات بين Unity3D و Jackaudio.
Plugin Voxel - يسمح Voxel Plugin بإنشاء عوالم حجمية تمامًا ، قابلة للتدمير تمامًا ، لا حصر لها في محرك غير واقعي. وهو متوافق مع 4.24 ، 4.25 ، 4.26 ، 4.27 و unreal 5.
Rev Unity - Rev Unity Tachometer Demo.
Unity Audio Manager (UAM) -؟ تستخدم لتشغيل/تغيير/توقف/كتم/... أصوات واحدة أو متعددة في ظرف أو حدث معين في ثنائي الأبعاد و 3D ببساطة عبر. شفرة.
Audio-Manager-For-Unity-أداة لتحديد وتنفيذ سلوكيات الصوت في الوحدة في محرر قائم على العقدة.
Unity Wwise Addressables - تضيف هذه الحزمة دعمًا لتوزيع وتحميل أصول wwise باستخدام نظام Onity Addressables.
RFXGen-مولد Sounds FX بسيط وسهل الاستخدام.
ULIPSYNC-Lipsync القائم على MFCC للوحدة باستخدام نظام الوظائف ومترجم Burst.
Godot-fmod-integration-FMOD Studio Middleware Integration and Scripting API Bindings for Godot Game Engine.
نظام الصوت FMOD - نظام الصوت الوحدة باستخدام FMOD.
WW2OGG - تحويل Audiokinetic Wwise Riff/RIFX Vorbis إلى OGG Vorbis القياسية.
Cavern-محرك الصوت القائم على الكائن وحزمة الترميز مع عرض Dolby Atmos ، وتصحيح الغرفة ، و HRTF ، و Uniity Audio Audio ، وأكثر من ذلك بكثير.
RNBO Unity Audio Plugin - RNBO Adapter للمكون الإضافي الصوتي الأصلي لـ Unity.
Metasounds RNBO - محول RNBO الذي ينفذ العقد metasound.

^ العودة إلى المحتويات ^

محطة عمل الصوت الرقمية (DAW)

Audacity-Audacity هو محرر صوتي سهل الاستخدام ومتعدد الأطراف لنظام التشغيل Windows و MacOS و GNU/Linux وأنظمة التشغيل الأخرى.
Tracktion - Tracktion هو محطة عمل صوتي مفتوح المصدر عبر المنصات مع واجهة مستخدم بديهية ووظائف تحرير وخلط الصوت القوية.
Pro Tools Scripting SDK - تتيح لك برنامج Pro Tools Scripting SDK السيناريات Pro باستخدام واجهة برمجة تطبيقات مستقلة عن اللغة لإنشاء سير عمل آلي جديد في أدوات Pro.
ريبي - غلاف بيثوني لصالح ريبرز بيثون بيثون.
REAPER -SDK - REAPER C/C ++ امتداد SDK.
redcripts - البرامج النصية المجانية والمفتوحة المصدر للأشعة السينية للمصدر.
Rescripts - نصوص Cockos.
REABLINK - امتداد مكون الإضافات Reaper يوفر روابط طمأنينة لجلسة رابط Ableton ، وتطبيقات خطة اختبار Ableton Link Test لـ Reaper.
Voodoohop-Ableton-Tools-Ableton Live Harmony و Tempo Tools. تعزز Ableton مع تصور بديهي للوئام الموسيقي وكذلك السماح لديناميكيات Tempo للمسار بالتحكم في الإيقاع الرئيسي في الوقت الفعلي.
Abletonparsing - تحليل ملف Ableton ASD (علامات الاعوجاج والمزيد) في Python.
Ableton Push - مكتبة للعمل مع دفع Ableton في المتصفح.
PYFLP - FL Studio Project Project Parser.
VST3SDK - VST 3 Plug -in SDK.
Tuneflow -؟+ بناء خوارزميات الموسيقى الخاصة بك ونماذج الذكاء الاصطناعى مع الجيل التالي Daw
TuneFlow-Py-TuneFlow-Py هو Python SDK من الإضافات TuneFlow.
SO-VITS-SVC Plugin لـ TuneFlow-SO-VITS-SVC كمكون إضافي لسلح.
Radium - محرر الموسيقى الرسومية. تعقب الجيل القادم.
Bass Studio - Bass Studio هي محطة عمل صوتية رقمية (DAW) مكتوبة في C ++. يتم توفير Windows و MacOs و Linux بنيات. يتم دعم كل من تنسيق المكون الإضافي VST2 و Clap.
Gridsound-Gridsound هي محطة عمل صوتية رقمية مفتوحة المصدر تعمل مع HTML5 وبشكل أكثر دقة مع واجهة برمجة تطبيقات Audio الجديدة.
Meadowlark - Meadowlark هو (العمل قيد التقدم) DAW مجاني ومفتوح المصدر (محطة عمل الصوت الرقمية) لـ Linux و Mac و Windows. إنه يهدف إلى أن يكون تسجيلًا قويًا وتأليفًا وتحريرًا وتصميم الصوت والخلط وإتقان الأداة للفنانين في جميع أنحاء العالم ، بينما يكونون أيضًا بديهية وقابلة للتخصيص.
MIXXX - MIXXX هو برنامج DJ مجاني يمنحك كل ما تحتاجه لأداء مزيج مباشر.
Hybrid-DJ-Set-مزامنة برنامج DJ (MIXXX) مع بيانات خالصة لتطبيق الأدوات الافتراضية في أداء مباشر.
LV2 - LV2 هو معيار إضافي للأنظمة الصوتية. إنه يحدد واجهة برمجة تطبيقات C القابلة للتمديد للمكونات الإضافية ، وتنسيق لأدلة "حزمة" قائمة بذاتها تحتوي على ملحقات إضافية وبيانات تعريف وموارد أخرى.
ARDOR - سجل ، تحرير ، وخلط على Linux و MacOS و Windows.
LMMS - LMMS هو بديل مجاني عبر المنصات للبرامج التجارية مثل FL Studio® ، والذي يتيح لك إنتاج الموسيقى مع جهاز الكمبيوتر الخاص بك. ويشمل ذلك إنشاء الألحان واليقوات ، وتوليف وخلط الأصوات ، وترتيب العينات.
QUTTOR - QUTTOR هو تطبيق تسلسل صوتي/MIDI Multi -Tracker مكتوب في C ++ مع إطار QT. منصة الهدف هي Linux ، حيث تعتبر مجموعة Audio Connection (Jack) للصوت ، والهندسة المعمارية Linux Sound المتقدمة (ALSA) لـ MIDI ، هي البنية التحتية الرئيسية التي تتطور كـ Linux Desktop Workstation Workstation Gui ، مخصصة بشكل خاص لـ The Linux. استوديو المنزل الشخصي.
Smart-Audio-mixer-محطة عمل صوتية رقمية حديثة (DAW) باستخدام C ++/Juce.
المكونات الإضافية OpenVino ™ AI لـ Audacity - مجموعة من التأثيرات التي تدعم الذكاء الاصطناعى والمولدات والمحللين من أجل الجرأة.
JOKDAW-محطة عمل صوتية رقمية مُركزة على لوحة المفاتيح (DAW) تأخذ بعض إشارات التصميم من محرري الفيديو غير الخطي مثل AVID.
SCORE OSSIA - صوتي تسلسل Intermedia يدعم الصوت (VST ، VST3 ، LV2 ، JSFX ، إلخ) بالإضافة إلى التحكم في الفيديو والأجهزة (OSC ، MIDI ، DMX ، NDI ، MQTT ، COAP ، إلخ)

^ العودة إلى المحتويات ^

الصوت المكاني (SA)

Spaudiopy - حزمة Python الصوت المكاني. ينصب التركيز (حتى الآن) على ترميزات الصوت المكانية وفك التشفير. تتضمن الحزمة على سبيل المثال معالجة التوافقيات الكروية و (الاداءات الأذنية) لدلالات مكبرات الصوت ، مثل VBAP و Allrad.
spatial_audio_framework (SAF)-spatial_audio_framework (SAF) هو إطار عمل مفتوح المصدر وعبر المنصات لتطوير الخوارزميات والبرامج ذات الصلة المكانية في C/C ++. المقصود في الأصل كمورد للباحثين في هذا المجال ، نمت الإطار تدريجيا إلى قاعدة كود كبيرة وموثقة جيدًا تضم عددًا من الوحدات النمطية المميزة ؛ مع كل وحدة تستهدف حقلًا فرعيًا محددًا من الصوت المكاني (مثل Ambisonics الترميز/فك التشفير ، ومعالجة الصفيف الكروي ، وربطة السعة ، ومعالجة HRIR ، ومحاكاة الغرفة ، إلخ).
HO-SIRR-عرض الاستجابة المكانية ذات الترتيب العالي (HO-SIRR) هو طريقة عرض ، والتي يمكن أن تقوم بتوليف استجابات دافع غرفة مكبرات الصوت (RIRS) باستخدام الإدخال المتناسق الكروي (Ambisonic/B-format) من الترتيب التعسفي. تنفيذ MATLAB لخوارزمية عرض الدافع المكاني العالي (HO-SIRR) ؛ نهج بديل لإعادة إنتاج RIRS Ambisonic على مكبرات الصوت.
SPATGRIS - Spatgris هو برنامج مكاني صوتي يحرر الملحنين ومصممي الصوت من قيود إعدادات السماعات في العالم الحقيقي. مع توزيع المكون الإضافي ControlGris باستخدام spatgris ، يمكن أن تتكون مسارات مكانية غنية مباشرة في DAW الخاص بك واستنساخها في الوقت الفعلي على أي تخطيط مكبر الصوت. إنه سريع ومستقر أو عبر منصات وسهلة التعلم ويعمل مع الأدوات التي تعرفها بالفعل. يدعم Spatgris أي إعداد مكبر صوت ، بما في ذلك التخطيطات ثنائية الأبعاد مثل Quad و 5.1 أو Octophonic ، وتخطيطات ثلاثية الأبعاد مثل قباب السماعات ، وقاعات الحفلات الموسيقية ، والمسارح ، وما إلى ذلك ، يمكن أيضًا خلط المشاريع إلى ستيريو باستخدام وظيفة نقل ذات صلة بالسينما أو ستيريو بسيط بنية.
Steam Audio - Steam Audio يقدم حلًا صوتيًا كامل الميزة يدمج البيئة ومحاكاة المستمع. HRTF يحسن بشكل كبير الانغماس في VR. يكمل انتشار الصوت القائم على الفيزياء الانغماس السمعي من خلال إعادة إنشاء كيفية تفاعل الصوت مع البيئة الافتراضية باستمرار.
SPATIALAUDIOKIT - SPATIALAUDIOKIT هي حزمة سريعة لتسهيل تأليف تطبيقات الصوت المكانية على منصات Apple.
libmysofa - قارئ لملفات أريكة AES للحصول على HRTFs أفضل.
omnitone - omnitone: صوتي مكاني تقديم على الويب. Omnitone هو تطبيق قوي لفك تشفير Ambisonic وتقديم بكلتا الأذنين في API API على شبكة الإنترنت. يتم تشغيل عملية التقديم الخاصة بها بالميزات الأصلية السريعة من واجهة برمجة تطبيقات Web Audio (GainNode و Convolver) ، مما يضمن الأداء الأمثل. يعتمد تنفيذ Omnitone على مواصفات Google المكانية للوسائط ومرشحات سادي الأذنين. كما أنه يعمل على صدى الصوت SDK للويب.
Mach1 المكاني - Mach1 المكاني SDK يتضمن واجهات برمجة التطبيقات للسماح للمطورين بتصميم تطبيقات يمكنها تشفير أو المقلاة على تجسيد صوتي مكاني من تدفقات الصوت و/أو التشغيل وتفكيك Mach1spatial 8channel المكاني يمزج التوجه الحالي. بالإضافة إلى ذلك ، يتيح SDK المكاني Mach1 للمستخدمين تحويل مزيج الصوت المحيطي/المكاني بأمان من وإلى تنسيقات Mach1spatial أو Mach1horizon VVBP .
SoundSpaces - SoundSpaces هي منصة محاكاة صوتية واقعية لأبحاث الذكاء الاصطناعى المجسدة الصوتية. من التنقل السمعي والبصري ، والاستكشاف الصوتي المرئي إلى تحديد الموقع الصدى وإعادة بناء خطة الطابق البصري الصوتي ، يوسع هذه المنصة بحثًا عن الرؤية المجسدة إلى نطاق أوسع من الموضوعات.
المطابقة الصوتية المرئية - نقدم مهمة المطابقة الصوتية المرئية ، حيث يتم تحويل مقطع صوتي إلى يبدو وكأنه تم تسجيله في بيئة مستهدفة. بالنظر إلى صورة للبيئة المستهدفة وموضوع موجة للصوت المصدر ، فإن الهدف هو إعادة توسيع الصوت لمطابقة الصوتيات المستهدفة للغرفة كما اقترحها هندستها وموادها المرئية.
Fast-RIR-هذا هو التنفيذ الرسمي لمولد استجابة الغرفة السريعة المنتشر في الشبكة العصبية (RIR-RIR) لاستجابات دافع الغرف (RIRS) لبيئة صوتية معينة.
Pygsound-توليد استجابة دافعة بناءً على محرك انتشار الصوت الهندسي الحديث.
RIRIS - RIRIS هو تنفيذ MATLAB لاستيفاء استجابة الدافع الغرفة باستخدام تحويلات Shearlet السريعة.
الموازي reverb-raytracer-Raytracer لاستجابات الدافع (للتردد) ، يتأثر بتقنيات إضاءة الرسومات النقطية.
Synth 3D - VST Synthesizer مع كائنات مذبذب افتراضية موضوعة في الفضاء ثلاثي الأبعاد.
Libbasicsofa - مكتبة أساسية للغاية لقراءة التنسيق الموجهة المكاني لملفات الصوتيات (SOFA) ، وهو تنسيق لتخزين HRTFs و/أو BRIRs لتكاثر الصوت Binuaral.
Mesh2hrtf - برنامج مفتوح للحساب العددي لوظائف النقل المتعلقة بالرأس.
Openal Soft - Openal Soft هو تطبيق برمجيات لأجهزة واجهة برمجة تطبيقات الصوت 3D المنفتح.
SoundScape_ir - SoundScape_ir هو صندوق أدوات تستند إلى Python لاسترجاع معلومات SoundScape ، تهدف إلى المساعدة في تحليل تسجيلات soundscape.
أجسام السبر - نقدم نموذجًا يمكن أن يولد حقول صوت ثلاثية الأبعاد دقيقة من الأجسام البشرية من ميكروفونات سماعات الرأس والجسم تشكل المدخلات.
SoundScapy - مكتبة Python لتحليل وتصور تقييمات الشريط الصوتي.
Ambix-Plat-Platform Ambisonic VST أو LV2 المكونات مع ترتيب متغير للاستخدام في محطات عمل الصوت الرقمية مثل Reaper أو Ardor أو كطبقات مستقلة Jack.
HOAC - ترميز Ammisonics العالي من أجل الصوت المكاني.
OpenSoundLab - OpenSoundLab (OSL) يجعل تصحيح الصوت ثلاثي الأبعاد في تجربة الواقع المختلط باستخدام وضع النجاح في Meta Quest.
See-2 Sound؟ -صفر طلقة البيئة المكانية إلى الصوت المكاني.

^ العودة إلى المحتويات ^

معالجة صوت الويب (WAP)

WEBRTC Audio Processing - Bython Binding لمعالجة الصوت WEBRTC.
WebChuck - WebChuck يجلب Chuck ، لغة برمجة صوتية قوية ، إلى الويب! تم تجميع رمز المصدر C ++ من Chuck إلى Webassembly (WASM) ويعمل عبر واجهة AudioWorkletNode من واجهة برمجة تطبيقات الصوت على الويب.
midi.js -؟ جعل الحياة سهلة لإنشاء تطبيق midi على الويب. يتضمن مكتبة لبرنامج Synesthesia في تطبيقك للتعرف على الذاكرة أو لإنشاء تأثيرات ثلاثية. تحويل SoundFonts للغيتار ، باس ، الطبول ، إلخ. في الكود الذي يمكن قراءته من قبل المتصفح. يربط Midi.JS معًا ، ويعتمد على الأطر التي تجلب MIDI إلى المتصفح. قم بدمجه مع Jasmid لإنشاء دفق MIDI على شبكة الإنترنت مماثلة لهذا العرض التوضيحي ، أو مع Three.js ، Sparks.js ، أو GLSL لإنشاء تجارب صوتية/بصرية.
معالج صوت الويب - مكتبة لمعالجة الصوت في الوقت الفعلي في متصفحات الويب.
Tone.js - Tone.js هو إطار صوتي على شبكة الإنترنت لإنشاء موسيقى تفاعلية في المتصفح. تهدف بنية Tone.js إلى أن تكون مألوفة لكل من الموسيقيين ومبرمجي الصوت إنشاء تطبيقات صوتية قائمة على الويب. على المستوى العالي ، توفر Tone ميزات شائعة (محطة عمل الصوت الرقمية) مثل النقل العالمي لمزامنة الأحداث والجدولة بالإضافة إلى موالفة وتأثيرات مبنية مسبقًا. بالإضافة إلى ذلك ، توفر Tone كتل بناء عالية الأداء لإنشاء مجموعات خاصة بك وتأثيراتك وإشارات التحكم المعقدة.
Audio.js - Audiojs هي مكتبة JavaScript التي تتيح استخدام علامة HTML5 <audio> في أي مكان. يستخدم <audio> الأصلي ، حيث يتوفر ويعود إلى مشغل فلاش غير مرئي لمحاكاةه لمتصفحات أخرى. كما أنه يخدم واجهة مستخدم HTML Player ثابتة لجميع المتصفحات التي يمكن تصميمها CSS القياسية.
Peaks.js - مكون JavaScript UI للتفاعل مع أشكال الموجات الصوتية.
Howler.js - JavaScript Audio Library للشبكة الحديثة. Howler.js يجعل العمل مع الصوت في JavaScript سهلة وموثوقة في جميع المنصات. Howler.js هي مكتبة صوتية للشبكة الحديثة. إنه الافتراضي لاتصالات API على الويب ويعود إلى HTML5 Audio. هذا يجعل العمل مع الصوت في JavaScript سهلة وموثوقة عبر جميع المنصات.
CoffeeCollider - CoffeeCollider هي لغة لتوليف الصوت في الوقت الحقيقي وتكوين الخوارزمية في HTML5. تم تصميم مفهوم هذا المشروع على أنه "كتابة Coffescript ، ويتم معالجته على أنه SuperCollider."
PICO.JS - معالج الصوت للمنظمة.
Timbre.js - Timbre.js يوفر معالجة وظيفية وتجميع الصوت في تطبيقات الويب الخاصة بك مع طريقة JavaScript الحديثة مثل jQuery أو Node.js. يحتوي على العديد من الكائنات T-Object (رسميًا: كائن Timbre) الذي يتصل معًا لتحديد التوجيه المستند إلى الرسم البياني لتقديم الصوت بشكل عام. إنه هدف من هذا المشروع للتعامل مع معالجة الصوت من الجيل التالي للويب.
RythM.JS - مكتبة JavaScript التي تصنع رقص صفحتك.
P5.Sound - P5.Sound يمتد P5 مع وظائف الصوت على شبكة الإنترنت بما في ذلك إدخال الصوت والتشغيل والتحليل والتوليف.
WADJS - مكتبة JavaScript لمعالجة الصوت. ويب الصوت داو. استخدم واجهة برمجة تطبيقات الصوت على الويب لتوليف الصوت الديناميكي. إنه مثل jQuery لآذانك.
Ableton.js - Ableton.js يتيح لك التحكم في مثيلك أو مثيلات Ableton باستخدام Node.js. يحاول تغطية أكبر عدد ممكن من الوظائف.
Sound.js - "Sound.js" هي مكتبة صغيرة تتيح لك تحميل وتشغيل وإنشاء المؤثرات الصوتية والموسيقى للألعاب والتطبيقات التفاعلية. إنه صغير جدًا: أقل من 800 سطر من الكود وليس التبعيات. انقر هنا لتجربة عرض تفاعلي. You can use it as-as, or integrate it into your existing framework.
tuna - An audio effects library for the Web Audio API.
XSound - XSound gives Web Developers Powerful Audio Features Easily !
Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
AudioMass - Free full-featured web-based audio & waveform editing tool.
WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
Aurora.js - JavaScript audio decoding framework.
Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
Pitch detection - Pitch detection in Web Audio using autocorrelation.
SAT - Streaming Audiotransformers for online Audio tagging.
WebAudioXML - An XML syntax for building Web Audio API applications.
FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
wave-resampler - PCM audio resampler written entirely in JavaScript.
useSound - A React Hook for playing sound effects.
Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
audio-worklet-loader - Audio Worklet loader for webpack.

^ Back to Contents ^

Music Information Retrieval (MIR)

Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
Partitura - A python package for handling modern staff notation of music.
Midifile - C++ classes for reading/writing Standard MIDI Files.
MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
crema - convolutional and recurrent estimators for music analysis.
MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
Music Exploration - App to explore latent spaces of music collections.
LooPy - A data framework for music information retrieval focusing on electronic music.
Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
carat - Computer-aided rhythm analysis toolbox.
miditoolkit - A python package for working with MIDI data.
Midly - A feature-complete MIDI parser and writer focused on speed.
libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
solfege.ai ? - Detect solfege hand signs using machine learning ?
libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
jams - A JSON Annotated Music Specification for Reproducible MIR Research.
Piano Trainer - A music practice program with MIDI support.
quickly - A LilyPond library for python (slated to become the successor of python-ly).
ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
Parangonar - Parangonar is a Python package for note alignment of symbolic music.
musicparser - Deep learning based dependency parsing for music sequences.
musif - Music Feature Extraction and Analysis.
pycompmusic - Tools to help researchers work with Dunya and CompMusic.
CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
PyABC - Python package for parsing and analyzing ABC music notation.
mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
midi-db - ? Data concerning MIDI standards.

^ Back to Contents ^

Music Generation (MG)

isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
music21 - music21 is a Toolkit for Computational Musicology.
Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
MusicLM - MusicLM: Generating Music From Text.
SingSong - SingSong: Generating musical accompaniments from singing.
Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
libatm - libatm is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here.
Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
PyMusicLooper - A script for creating seamless music loops, with play/export support.
ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
linuxwave - Generate music from the entropy of Linux ??
Chord2Melody - Automatic Music Generation AI.
symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
DeBussy - Solo Piano Music AI Implementation.
Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
Somax 2 - Somax 2 is an application for musical improvisation and composition.
Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
Anticipatory - Anticipatory Music Transformer.
MIDI Language Model - Generative modeling of MIDI files.
modulo - A Toolkit for Tinkering with Digital Musical Instruments.
MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.

^ Back to Contents ^

Speech Recognition (ASR)

Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
Leon - ? Leon is your open-source personal assistant.
DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
dejavu - Audio fingerprinting and recognition in Python.
Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
paasr - Privacy Aware Automatic Speech Recognition.
whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
pypinyin - A Python tool for converting Chinese character to Pinyin.
PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
SALMONN - Speech Audio Language Music Open Neural Network.
PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
SwiftSpeech - A speech recognition framework designed for SwiftUI.
SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.

^ Back to Contents ^

Speech Synthesis (TTS)

VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
Vocode - Vocode is an open-source library for building voice-based LLM applications.
TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (قليل من استنساخ الصوت بالرصاص).
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
RAD-MMM - A TTS model that makes a speaker speak new languages.
BUD-E - A conversational and empathic AI Voice Assistant.
Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
lina-speech - linear attention based text-to-speech.
ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
ChatTTS - ChatTTS is a generative speech model for daily dialogue.
StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
OpenVoice - Instant voice cloning by MyShell.
MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.

^ Back to Contents ^

Singing Voice Synthesis (SVS)

NNSVS - Neural network-based singing voice synthesis library for research.
Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
OpenUtau - Open singing synthesis platform / Open source UTAU successor.
so-vits-svc - SoftVC VITS Singing Voice Conversion.
Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
midi2voice - Singing Synthesis from MIDI file.
MoeGoe - Executable file for VITS inference.
Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
OpenVoice - Instant voice cloning by MyShell.

^ Back to Contents ^

يوسع