ใช้ชุดเครื่องมือโอเพ่นซอร์ส pyannote.audio
ในการผลิตหรือไม่ ลองเปลี่ยนไปใช้ pyannoteAI เพื่อตัวเลือกที่ดีขึ้นและเร็วขึ้น
pyannote.audio
pyannote.audio
เป็นชุดเครื่องมือโอเพ่นซอร์สที่เขียนด้วยภาษา Python สำหรับการแยกเสียงของผู้พูด ขึ้นอยู่กับเฟรมเวิร์กการเรียนรู้ของเครื่อง PyTorch มันมาพร้อมกับโมเดลและไปป์ไลน์ที่ได้รับการฝึกล่วงหน้าที่ล้ำสมัย ซึ่งสามารถปรับแต่งข้อมูลของคุณเองเพิ่มเติมเพื่อประสิทธิภาพที่ดียิ่งขึ้น
pyannote.audio
ด้วย pip install pyannote.audio
pyannote/segmentation-3.0
pyannote/speaker-diarization-3.1
hf.co/settings/tokens
from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
โดย Clément Pagés เมื่อแกะกล่อง คาดว่าไปป์ไลน์การแยกเสียงลำโพง pyannote.audio
v3.1 จะดีกว่า (และเร็วกว่า) มาก (และเร็วกว่า) มากเมื่อเทียบกับ v2.x ตัวเลขเหล่านี้เป็นอัตราความผิดพลาดในการแปลงข้อมูล (เป็น %):
เกณฑ์มาตรฐาน | เวอร์ชัน 2.1 | เวอร์ชัน 3.1 | pyannoteAI |
---|---|---|---|
ไอเชลล์-4 | 14.1 | 12.2 | 11.9 |
อาลีมีตติ้ง (ช่อง 1) | 27.4 | 24.4 | 22.5 |
AMI (IHM) | 18.9 | 18.8 | 16.6 |
เอเอ็มไอ (SDM) | 27.1 | 22.4 | 20.9 |
เอวา-เอวีดี | 66.3 | 50.0 | 39.8 |
โทรกลับบ้าน (ส่วนหนึ่ง 2) | 31.6 | 28.4 | 22.2 |
DIHARD 3 (เต็ม) | 26.9 | 21.7 | 17.2 |
รายได้21 | 17.0 | 9.4 | 9.0 |
อีโก้ 4ดี (ผู้พัฒนา) | 61.5 | 51.2 | 43.8 |
MSDWild | 32.8 | 25.3 | 19.8 |
ร.ม | 22.5 | 22.2 | 18.4 |
รีเพอเร (เฟส2) | 8.2 | 7.8 | 7.6 |
VoxConverse (v0.3) | 11.2 | 11.3 | 9.4 |
อัตราความผิดพลาดในการเปลี่ยนไดอะไรเซชัน (เป็น%)
หากคุณใช้ pyannote.audio
โปรดใช้ข้อมูลอ้างอิงต่อไปนี้:
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
คำสั่งด้านล่างนี้จะตั้งค่า hooks และแพ็คเกจล่วงหน้าที่จำเป็นสำหรับการพัฒนาไลบรารี pyannote.audio
pip install -e .[dev,testing]
pre-commit install
pytest