Используете набор инструментов с открытым исходным кодом pyannote.audio
в производстве? Рассмотрите возможность перехода на pyannoteAI, чтобы получить лучшие и быстрые варианты.
pyannote.audio
набор инструментов для диаризации динамиков pyannote.audio
— это набор инструментов с открытым исходным кодом, написанный на Python для ведения дневника говорящих. Основанный на платформе машинного обучения PyTorch, он поставляется с современными предварительно обученными моделями и конвейерами, которые можно дополнительно настроить в соответствии с вашими собственными данными для еще большей производительности.
pyannote.audio
с помощью pip install pyannote.audio
pyannote/segmentation-3.0
pyannote/speaker-diarization-3.1
hf.co/settings/tokens
. from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
"pyannote/speaker-diarization-3.1" ,
use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )
# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))
# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )
# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...
pyannote
, Клеман Пажес Ожидается, что готовый конвейер диаризации динамиков pyannote.audio
версии 3.1 будет намного лучше (и быстрее), чем версия 2.x. Эти цифры представляют собой долю ошибок диаризации (в %):
Контрольный показатель | v2.1 | v3.1 | pyannoteAI |
---|---|---|---|
АЙШЕЛЛ-4 | 14.1 | 12.2 | 11,9 |
АлиМитинг (канал 1) | 27,4 | 24,4 | 22,5 |
АМИ (ИХМ) | 18,9 | 18,8 | 16,6 |
АМИ (СДМ) | 27.1 | 22,4 | 20,9 |
АВА-АВД | 66,3 | 50,0 | 39,8 |
ЗВОНИТЕ ДОМОЙ (часть 2) | 31,6 | 28,4 | 22.2 |
ДИХАРД 3 (полный) | 26,9 | 21,7 | 17.2 |
Заработок21 | 17,0 | 9.4 | 9,0 |
Ego4D (разработчик) | 61,5 | 51,2 | 43,8 |
MSDWild | 32,8 | 25,3 | 19,8 |
РАМЦ | 22,5 | 22.2 | 18,4 |
РЕПЕРЕ (фаза 2) | 8.2 | 7,8 | 7,6 |
ВоксКонверс (v0.3) | 11.2 | 11.3 | 9.4 |
Доля ошибок диаризации (в %)
Если вы используете pyannote.audio
используйте следующие цитаты:
@inproceedings { Plaquet23 ,
author = { Alexis Plaquet and Hervé Bredin } ,
title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
@inproceedings { Bredin23 ,
author = { Hervé Bredin } ,
title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
}
Приведенные ниже команды установят перехватчики предварительной фиксации и пакеты, необходимые для разработки библиотеки pyannote.audio
.
pip install -e .[dev,testing]
pre-commit install
pytest