تنزيل pyannote audio - تنزيل كود مصدر pyannote audio

pyannote audio

شفرة المصدر الأخرى

Version 3.3.1

تنزيل

هل تستخدم مجموعة أدوات pyannote.audio مفتوحة المصدر في الإنتاج؟ فكر في التبديل إلى pyannoteAI للحصول على خيارات أفضل وأسرع.

`pyannote.audio` مجموعة أدوات تدوين المتحدث

pyannote.audio عبارة عن مجموعة أدوات مفتوحة المصدر مكتوبة بلغة Python لتدوين المتحدثين. استنادًا إلى إطار عمل التعلم الآلي PyTorch، فهو يأتي مزودًا بأحدث النماذج وخطوط الأنابيب المدربة مسبقًا، والتي يمكن تحسينها بشكل أكبر لتتوافق مع بياناتك الخاصة للحصول على أداء أفضل.

ليرة تركية؛ د

قم بتثبيت pyannote.audio باستخدام pip install pyannote.audio
قبول شروط المستخدم pyannote/segmentation-3.0
قبول شروط المستخدم pyannote/speaker-diarization-3.1
قم بإنشاء رمز الوصول على hf.co/settings/tokens .

 from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
    "pyannote/speaker-diarization-3.1" ,
    use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )

# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))

# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )

# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
    print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

أبرز

؟ خطوط الأنابيب (والنماذج) المدربة مسبقًا؟ محور النموذج
؟ أداء متطور (انظر المعيار)
؟ واجهة برمجة تطبيقات بايثون الأولى
⚡التدريب على وحدات معالجة الرسومات المتعددة باستخدام pytorch-lightning

التوثيق

سجل التغيير
الأسئلة المتداولة
نماذج
- وأوضح المهام المتاحة
- تطبيق نموذج تم تدريبه مسبقًا
- التدريب والضبط ونقل التعلم
خطوط الأنابيب
- وأوضح خطوط الأنابيب المتاحة
- تطبيق خط أنابيب مدرب مسبقا
- تكييف خط الأنابيب المُدرب مسبقًا مع بياناتك الخاصة
- تدريب خط الأنابيب
المساهمة
- إضافة نموذج جديد
- إضافة مهمة جديدة
- إضافة خط أنابيب جديد
- مشاركة النماذج وخطوط الأنابيب المدربة مسبقًا
مدونة
- 2022-12-02 > "كيف وصلت إلى المركز الأول في Ego4D 2022 والمركز الأول في البيزن 2022 والمركز السادس في VoxSRC 2022 تحديات ديار المتحدثين"
- 2022-10-23 > "نموذج واحد لتجزئة السماعات للتحكم في كل السماعات"
- 2021-08-05 > "اكتشاف نشاط البث الصوتي باستخدام pyannote.audio"
فيديوهات
- مقدمة إلى مذكرات المتحدث / المدرسة الصيفية JSALT 2023 / 90 دقيقة
- نموذج تجزئة السماعات / Interspeech 2021 / 3 دقائق
- الإصدار الأول من pyannote.audio / ICASSP 2020 / 8 دقائق
مساهمات المجتمع (لا يحتفظ بها الفريق الأساسي)
- 05-04-2024 > تسجيل المتحدث غير المتصل بالإنترنت (speaker-diarization-3.1) بواسطة Simon Ottenhaus
- 2024-09-24 > تقييم خطوط أنابيب فصل الكلام المُدربة مسبقًا pyannote بواسطة Clément Pages

المعيار

خارج الصندوق، من المتوقع أن يكون الإصدار 3.1 pyannote.audio أفضل (وأسرع) من الإصدار 2.x. تمثل هذه الأرقام معدلات الخطأ في الترميز (%):

المعيار	v2.1	v3.1	pyannoteAI
إيشيل-4	14.1	12.2	11.9
علي ميتينج (القناة 1)	27.4	24.4	22.5
آمي (آي إتش إم)	18.9	18.8	16.6
أمي (SDM)	27.1	22.4	20.9
افا-AVD	66.3	50.0	39.8
كالهوم (الجزء 2)	31.6	28.4	22.2
ديهارد 3 (كامل)	26.9	21.7	17.2
الأرباح21	17.0	9.4	9.0
Ego4D (مطور)	61.5	51.2	43.8
MSDWild	32.8	25.3	19.8
رامك	22.5	22.2	18.4
ريبيري (المرحلة الثانية)	8.2	7.8	7.6
فوكسكونفيرس (الإصدار 0.3)	11.2	11.3	9.4

معدل خطأ الترميز (%)

الاستشهادات

إذا كنت تستخدم pyannote.audio فيرجى استخدام الاستشهادات التالية:

 @inproceedings { Plaquet23 ,
  author = { Alexis Plaquet and Hervé Bredin } ,
  title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

 @inproceedings { Bredin23 ,
  author = { Hervé Bredin } ,
  title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

تطوير

ستقوم الأوامر أدناه بإعداد الخطافات والحزم اللازمة لتطوير مكتبة pyannote.audio .

pip install -e .[dev,testing]
pre-commit install

امتحان

pytest

يوسع

معلومات إضافية

الإصدار Version 3.3.1
النوع شفرة المصدر الأخرى
وقت التحديث 2024-11-16
الحجم 50MB
من Github

تطبيقات ذات صلة

audio share

2024-11-02
تطبيق Heylink الصوتي

2023-07-28
ماك الصوت

2023-07-18
مقطع موسيقى اوديو ماك نسخة الاندرويد

2023-07-17
ريالتيك ريالتيك ALC HD الصوت

2009-05-30
ريالتيك ريالتيك ALC HD الصوت

2009-05-30

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل

pyannote audio

pyannote.audio مجموعة أدوات تدوين المتحدث