Menggunakan toolkit sumber terbuka pyannote.audio
dalam produksi? Pertimbangkan untuk beralih ke pyannoteAI untuk opsi yang lebih baik dan lebih cepat.
pyannote.audio
pyannote.audio
adalah toolkit sumber terbuka yang ditulis dengan Python untuk diarisasi pembicara. Berdasarkan kerangka pembelajaran mesin PyTorch, ia hadir dengan model dan pipeline terlatih yang canggih, yang dapat disesuaikan lebih lanjut dengan data Anda untuk kinerja yang lebih baik.
pyannote.audio
dengan pip install pyannote.audio
pyannote/segmentation-3.0
pyannote/speaker-diarization-3.1
hf.co/settings/tokens
. from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
oleh Clément Pages Secara langsung, pipeline diarisasi speaker pyannote.audio
v3.1 diharapkan jauh lebih baik (dan lebih cepat) daripada v2.x. Angka-angka tersebut adalah tingkat kesalahan diarisasi (dalam %):
Tolok ukur | v2.1 | v3.1 | pyannoteAI |
---|---|---|---|
AISHELL-4 | 14.1 | 12.2 | 11.9 |
AliMeeting (saluran 1) | 27.4 | 24.4 | 22.5 |
AMI (IHM) | 18.9 | 18.8 | 16.6 |
AMI (SDM) | 27.1 | 22.4 | 20.9 |
AVA-AVD | 66.3 | 50.0 | 39.8 |
PANGGILAN RUMAH (bagian 2) | 31.6 | 28.4 | 22.2 |
DIHARD 3 (penuh) | 26.9 | 21.7 | 17.2 |
Penghasilan21 | 17.0 | 9.4 | 9.0 |
Ego4D (pengembangan) | 61.5 | 51.2 | 43.8 |
MSDWild | 32.8 | 25.3 | 19.8 |
RAMC | 22.5 | 22.2 | 18.4 |
REPERE (fase2) | 8.2 | 7.8 | 7.6 |
VoxConverse (v0.3) | 11.2 | 11.3 | 9.4 |
Tingkat kesalahan diarisasi (dalam%)
Jika Anda menggunakan pyannote.audio
silakan gunakan kutipan berikut:
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
Perintah di bawah ini akan menyiapkan hook dan paket pra-komit yang diperlukan untuk mengembangkan pustaka pyannote.audio
.
pip install -e .[dev,testing]
pre-commit install
pytest