¿Utiliza el kit de herramientas de código abierto pyannote.audio
en producción? Considere cambiar a pyannoteAI para obtener opciones mejores y más rápidas.
pyannote.audio
kit de herramientas de registro de locutores pyannote.audio
es un conjunto de herramientas de código abierto escrito en Python para la diarioización de los oradores. Basado en el marco de aprendizaje automático PyTorch, viene con canalizaciones y modelos previamente entrenados de última generación, que pueden ajustarse aún más a sus propios datos para obtener un rendimiento aún mejor.
pyannote.audio
con pip install pyannote.audio
pyannote/segmentation-3.0
pyannote/speaker-diarization-3.1
hf.co/settings/tokens
. from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
por Clément Pagés Desde el primer momento, se espera que el canal de registro de altavoces pyannote.audio
v3.1 sea mucho mejor (y más rápido) que v2.x. Esas cifras son tasas de error de registro (en%):
Punto de referencia | v2.1 | v3.1 | pyannoteAI |
---|---|---|---|
AISHELL-4 | 14.1 | 12.2 | 11.9 |
AliMeeting (canal 1) | 27.4 | 24.4 | 22,5 |
IAM (IHM) | 18.9 | 18.8 | 16.6 |
IAM (SDM) | 27.1 | 22.4 | 20.9 |
AVA-AVD | 66,3 | 50.0 | 39,8 |
LLAMADA A CASA (parte 2) | 31,6 | 28.4 | 22.2 |
DIHARD 3 (completo) | 26,9 | 21.7 | 17.2 |
Ganancias21 | 17.0 | 9.4 | 9.0 |
Ego4D (desarrollador) | 61,5 | 51.2 | 43,8 |
MSDsalvaje | 32,8 | 25.3 | 19.8 |
RAMC | 22,5 | 22.2 | 18.4 |
REPERE (fase 2) | 8.2 | 7.8 | 7.6 |
VoxConverse (v0.3) | 11.2 | 11.3 | 9.4 |
Tasa de error de registro (en %)
Si utiliza pyannote.audio
utilice las siguientes citas:
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
Los siguientes comandos configurarán paquetes y ganchos de confirmación previa necesarios para desarrollar la biblioteca pyannote.audio
.
pip install -e .[dev,testing]
pre-commit install
pytest