Скачать pyannote audio - скачать исходный код pyannote audio

pyannote audio

Другой исходный код

Version 3.3.1

Скачать

Используете набор инструментов с открытым исходным кодом pyannote.audio в производстве? Рассмотрите возможность перехода на pyannoteAI, чтобы получить лучшие и быстрые варианты.

`pyannote.audio` набор инструментов для диаризации динамиков

pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для ведения дневника говорящих. Основанный на платформе машинного обучения PyTorch, он поставляется с современными предварительно обученными моделями и конвейерами, которые можно дополнительно настроить в соответствии с вашими собственными данными для еще большей производительности.

ТЛ;ДР

Установите pyannote.audio с помощью pip install pyannote.audio
Примите условия пользователя pyannote/segmentation-3.0
Примите условия пользователя pyannote/speaker-diarization-3.1
Создайте токен доступа по адресу hf.co/settings/tokens .

 from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
    "pyannote/speaker-diarization-3.1" ,
    use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )

# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))

# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )

# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
    print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

Основные моменты

? предварительно обученные конвейеры (и модели) на ? модельный центр
? высочайшая производительность (см. Контрольный показатель)
? API, ориентированный на Python
⚡ тренировка нескольких графических процессоров с помощью pytorch-lightning

Документация

Журнал изменений
Часто задаваемые вопросы
Модели
- Доступные задачи объяснены
- Применение предварительно обученной модели
- Обучение, точная настройка и передача обучения
Трубопроводы
- Объяснение доступных конвейеров
- Применение предварительно обученного конвейера
- Адаптация предварительно обученного конвейера к вашим собственным данным
- Обучение конвейера
Содействие
- Добавляем новую модель
- Добавление новой задачи
- Добавление нового конвейера
- Совместное использование предварительно обученных моделей и конвейеров
Блог
- 2022-12-02 > «Как я занял 1-е место на Ego4D 2022, 1-е место на Albayzin 2022 и 6-е место на соревнованиях по диаризации спикеров VoxSRC 2022»
- 2022-10-23 > «Одна модель сегментации говорящих, чтобы управлять ими всеми»
- 2021-08-05 > «Потоковое обнаружение голосовой активности с помощью pyannote.audio»
Видео
- Введение в диаризацию спикеров / Летняя школа JSALT 2023 / 90 мин.
- Модель сегментации говорящих / Interspeech 2021 / 3 мин
- Первый выпуск pyannote.audio / ICASSP 2020 / 8 мин
Вклад сообщества (не поддерживается основной командой)
- 2024-04-05 > Автономная диаризация спикеров (speaker-diarization-3.1), автор Саймон Оттенхаус
- 2024-09-24 > Оценка предварительно обученных конвейеров разделения речи pyannote , Клеман Пажес

Контрольный показатель

Ожидается, что готовый конвейер диаризации динамиков pyannote.audio версии 3.1 будет намного лучше (и быстрее), чем версия 2.x. Эти цифры представляют собой процент ошибок диаризации (в %):

Контрольный показатель	v2.1	v3.1	pyannoteAI
АЙШЕЛЛ-4	14.1	12.2	11,9
АлиМитинг (канал 1)	27,4	24,4	22,5
АМИ (ИХМ)	18,9	18,8	16,6
АМИ (СДМ)	27.1	22,4	20,9
АВА-АВД	66,3	50,0	39,8
ЗВОНИТЕ ДОМОЙ (часть 2)	31,6	28,4	22.2
ДИХАРД 3 (полный)	26,9	21,7	17.2
Заработок21	17,0	9.4	9,0
Ego4D (разработчик)	61,5	51,2	43,8
MSDWild	32,8	25,3	19,8
РАМЦ	22,5	22.2	18,4
РЕПЕРЕ (фаза 2)	8.2	7,8	7,6
ВоксКонверс (v0.3)	11.2	11.3	9.4

Доля ошибок диаризации (в %)

Цитаты

Если вы используете pyannote.audio используйте следующие цитаты:

 @inproceedings { Plaquet23 ,
  author = { Alexis Plaquet and Hervé Bredin } ,
  title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

 @inproceedings { Bredin23 ,
  author = { Hervé Bredin } ,
  title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

Разработка

Приведенные ниже команды установят перехватчики предварительной фиксации и пакеты, необходимые для разработки библиотеки pyannote.audio .

pip install -e .[dev,testing]
pre-commit install

Тест

pytest

Расширять

Дополнительная информация

Версия Version 3.3.1
Тип Другой исходный код
Время обновления 2024-11-16
размер 50MB
От Github

Связанные приложения

audio share

2024-11-02
Приложение Heylink Audio

2023-07-28
Аудиомакс

2023-07-18
Аудио-музыкальный клип Android-версия

2023-07-17
Realtek Realtek ALC HD Аудио

2009-05-30
Realtek Realtek ALC HD Аудио

2009-05-30

pyannote audio

`pyannote.audio` набор инструментов для диаризации динамиков

ТЛ;ДР

Основные моменты

Документация

Контрольный показатель

Цитаты

Разработка

Тест

audio share

Приложение Heylink Audio

Аудиомакс

Аудио-музыкальный клип Android-версия

Realtek Realtek ALC HD Аудио

Realtek Realtek ALC HD Аудио

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

pyannote audio

pyannote.audio набор инструментов для диаризации динамиков

ТЛ;ДР

Основные моменты

Документация

Контрольный показатель

Цитаты

Разработка

Тест

`pyannote.audio` набор инструментов для диаризации динамиков