피안노트 오디오
Version 3.3.1
프로덕션에서 pyannote.audio
오픈 소스 툴킷을 사용하시나요? 더 좋고 더 빠른 옵션을 위해 pyannoteAI로 전환하는 것을 고려해보세요.
pyannote.audio
스피커 분할 툴킷 pyannote.audio
는 화자 분할을 위해 Python으로 작성된 오픈 소스 툴킷입니다. PyTorch 기계 학습 프레임워크를 기반으로 최첨단 사전 훈련된 모델과 파이프라인이 함께 제공되므로 더 나은 성능을 위해 자신의 데이터에 맞게 더욱 미세 조정할 수 있습니다.
pip install pyannote.audio
로 pyannote.audio
설치하십시오.pyannote/segmentation-3.0
사용자 조건 수락pyannote/speaker-diarization-3.1
사용자 조건 수락hf.co/settings/tokens
에서 액세스 토큰을 생성하세요. from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
음성 분리 파이프라인 평가 작성자: Clément Pagés 기본적으로 pyannote.audio
스피커 분할 파이프라인 v3.1은 v2.x보다 훨씬 더 좋고 더 빠를 것으로 예상됩니다. 해당 숫자는 분할 오류율(%)입니다.
기준 | v2.1 | v3.1 | 피안노트AI |
---|---|---|---|
아이셸-4 | 14.1 | 12.2 | 11.9 |
알리미팅(채널 1) | 27.4 | 24.4 | 22.5 |
AMI (IHM) | 18.9 | 18.8 | 16.6 |
AMI(SDM) | 27.1 | 22.4 | 20.9 |
AVA-AVD | 66.3 | 50.0 | 39.8 |
콜홈(파트 2) | 31.6 | 28.4 | 22.2 |
DIHARD 3(전체) | 26.9 | 21.7 | 17.2 |
수입21 | 17.0 | 9.4 | 9.0 |
Ego4D (개발자) | 61.5 | 51.2 | 43.8 |
MSD와일드 | 32.8 | 25.3 | 19.8 |
RAMC | 22.5 | 22.2 | 18.4 |
REPERE(2단계) | 8.2 | 7.8 | 7.6 |
복스컨버스(v0.3) | 11.2 | 11.3 | 9.4 |
분할 오류율(%)
pyannote.audio
사용하는 경우 다음 인용문을 사용하세요.
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
아래 명령은 pyannote.audio
라이브러리 개발에 필요한 사전 커밋 후크와 패키지를 설정합니다.
pip install -e .[dev,testing]
pre-commit install
pytest