pyannote audio
Version 3.3.1
هل تستخدم مجموعة أدوات pyannote.audio
مفتوحة المصدر في الإنتاج؟ فكر في التبديل إلى pyannoteAI للحصول على خيارات أفضل وأسرع.
pyannote.audio
مجموعة أدوات تدوين المتحدث pyannote.audio
عبارة عن مجموعة أدوات مفتوحة المصدر مكتوبة بلغة Python لتدوين المتحدثين. استنادًا إلى إطار عمل التعلم الآلي PyTorch، فهو يأتي مزودًا بأحدث النماذج وخطوط الأنابيب المدربة مسبقًا، والتي يمكن تحسينها بشكل أكبر لتتوافق مع بياناتك الخاصة للحصول على أداء أفضل.
pyannote.audio
باستخدام pip install pyannote.audio
pyannote/segmentation-3.0
pyannote/speaker-diarization-3.1
hf.co/settings/tokens
. from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
بواسطة Clément Pages خارج الصندوق، من المتوقع أن يكون الإصدار 3.1 pyannote.audio
أفضل (وأسرع) من الإصدار 2.x. تمثل هذه الأرقام معدلات الخطأ في الترميز (%):
المعيار | v2.1 | v3.1 | pyannoteAI |
---|---|---|---|
إيشيل-4 | 14.1 | 12.2 | 11.9 |
علي ميتينج (القناة 1) | 27.4 | 24.4 | 22.5 |
آمي (آي إتش إم) | 18.9 | 18.8 | 16.6 |
أمي (SDM) | 27.1 | 22.4 | 20.9 |
افا-AVD | 66.3 | 50.0 | 39.8 |
كالهوم (الجزء 2) | 31.6 | 28.4 | 22.2 |
ديهارد 3 (كامل) | 26.9 | 21.7 | 17.2 |
الأرباح21 | 17.0 | 9.4 | 9.0 |
Ego4D (مطور) | 61.5 | 51.2 | 43.8 |
MSDWild | 32.8 | 25.3 | 19.8 |
رامك | 22.5 | 22.2 | 18.4 |
ريبيري (المرحلة الثانية) | 8.2 | 7.8 | 7.6 |
فوكسكونفيرس (الإصدار 0.3) | 11.2 | 11.3 | 9.4 |
معدل خطأ الترميز (%)
إذا كنت تستخدم pyannote.audio
فيرجى استخدام الاستشهادات التالية:
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
ستقوم الأوامر أدناه بإعداد الخطافات والحزم اللازمة لتطوير مكتبة pyannote.audio
.
pip install -e .[dev,testing]
pre-commit install
pytest