Скачать espnet - Скачать исходный код espnet

espnet

Другой исходный код

version 202409

Скачать

Ubuntu/Python3.11/Pip Ubuntu/Python3.10/conda Debian11/Python3.10/Conda Windows/Python3.10/Pip macos/python3.10/pip macos/python3.10/conda

Документы | Пример | Пример (ESPNet2) | Docker | Блокнот

ESPNet-это сквозное речевое инструментарий, охватывающий сквозное распознавание речи, текст в речь, перевод речи, улучшение речи, дневник оратора, понимание разговорного языка и так далее. ESPNet использует Pytorch в качестве двигателя глубокого обучения, а также следует за обработкой данных в стиле Kaldi, извлечении/формате функций и рецептах, чтобы обеспечить полную настройку для различных экспериментов по обработке речи.

Учебная серия

Учебное пособие 2019 в межспике
- Материал
Учебник 2021 года в CMU
- Онлайн -видео
- Материал
Учебник 2022 года в CMU
- Использование ESPNet (ASR в качестве примера)
  - Онлайн -видео
  - Материал
- Добавить новые модели/задачи в ESPNet
  - Онлайн -видео
  - Материал

Ключевые функции

Полный рецепт в стиле Кальди

Поддержка номеров рецептов ASR (WSJ, Switchboard, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspeech и т. Д.)
Поддержка номера рецептов TTS аналогично рецепту ASR (LJSPEECH, LIBRITTS, M-AILABS и т. Д.)
Поддержите количество рецептов ST (Fisher-Callhome Spanish, Libri-Trans, IWSLT'18, How2, UST-C, MBOSHI-FRENCH и т. Д.)
Поддержка номера рецептов MT (IWSLT'14, IWSLT'16, приведенные выше рецепты ST и т. Д.)
Поддержка номера рецептов SLU (Catslu-Maps, FSC, Grabo, IEMOCAP, JDCINAL, SNIPS, SLURP, SWBD-DA и т. Д.)
Номера поддержки рецептов SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX и т. Д.)
Поддержка рецепта преобразования голоса (базовая линия VCC2020)
Рецепт Diarize Diarization Support (mini_librispeech, librimix)
Рецепт поддержки синтеза голоса пения (ofuton_p_utagoe_db, opencpop, m4singer и т. Д.)

ASR: автоматическое распознавание речи

Современная производительность в нескольких тестах ASR (сопоставимо/превосходит гибридный DNN/HMM и CTC)
Гибридный CTC/Основанный на внимании сквозняк ASR
- Быстрая/точная тренировка с многозадачностью CTC/внимания
- Декодирование сустава CTC/внимания для повышения декодирования монотонного выравнивания
- Encoder: VGG-подобный CNN + BIRNN (LSTM/GRU), подпроката Birnn (LSTM/GRU), трансформатор, конформер, филиал или электронный режим
- Декодер: RNN (LSTM/GRU), трансформатор или S4
Внимание: вспыхивание внимания, точечный продукт, внимание к местоположению, варианты мульти-головы
Включите RNNLM/LSTMLM/Transformerlm/N-Gram, обученный только текстовым данным
Декодирование графического процессора партии
Увеличение данных
На основе преобразователя сквозной ASR
- Архитектура:
  - Пользовательский энкодер, поддерживающий RNNS, Confermer, Branpalformer (W / Variants), 1d Conv / Tdnn.
  - Декодер с параметрами, разделенными по блокам, поддерживающим RNN, без сохранения состояния с 1D Conv, Mega и RWKV.
  - Precoder: VGG2L или Conv2D доступен.
- Алгоритмы поиска:
  - Жадный поиск ограничен одним выбросом с помощью TimeStep.
  - Алгоритм поиска луча по умолчанию [Graves, 2012] без предварительного поиска.
  - Синхронное декодирование длиной длиной [Saon et al., 2020].
  - Время синхронное декодирование [Saon et al., 2020].
  - N-шаг ограниченный поиск луча, модифицированный из [Kim et al., 2020].
  - Модифицированный поиск адаптивного расширения на основе [Kim et al., 2021] и NSC.
- Функции:
  - Единый интерфейс для офлайн и потокового распознавания речи.
  - Многозадачное обучение с различными вспомогательными потерями:
    - Encoder: CTC, вспомогательный преобразователь и симметричная дивергенция KL.
    - Декодер: перекрестная энтропия с сглаживанием метки.
  - Перенос обучения с помощью акустической модели и/или языковой модели.
  - Обучение с методом регуляризации Fastemit [Yu et al., 2021].
Пожалуйста, обратитесь к странице учебного пособия для полной документации.
Сегментация CTC
Неавторегрессивная модель на основе Mask-CTC
Примеры ASR для поддержки документации по исчезновенному языку (пожалуйста, см. EGS/PUEBLA_NAHUATL и EGS/yoloxoChitl_mixtec для получения подробной информации)
Предварительно обученная модель WAV2VEC2.0 в качестве энкодера, импортированная из Fairseq.
Самоподобные учебные представления в качестве функций, используя восходящие модели в S3PRL на фронтенде.
- Установите frontend на s3prl
- Выберите любую модель вверх по течению, установив frontend_conf на соответствующее имя.
Перевод обучения:
- Легкое использование и переносы из моделей, ранее обученных вашей группой или моделями, из репозитория обнимающего лица ESPNet.
- Документация и игрушечный пример, проведенный на Colab.
Потоковой трансформатор/конформер ASR с блочным синхронным поиском луча.
Ограниченное самоуничтожение на основе Longformer в качестве кодера для длинных последовательностей
Openai Whisper Model, надежный ASR на основе крупномасштабного, слабоучительно многозадачного обучения

Демонстрация

Демонстрация ASR в реальном времени с ESPNet2
Демонстрация Gradio Web на обнимании места для лица. Проверьте демо -версию в Интернете
Потоковой трансформатор ASR Local Demo с ESPNet2.

TTS: текст в речь

Архитектура
- Такотрон2
- Трансформатор-TTS
- Fastspeech
- Fastspeech2
- Confermer Fastspeech & Fastspeech2
- Вит
- Самолеты
Многогазное и многоязычное расширение
- Предварительно обученное встрадание (например, X-Vector)
- Спикер идентификатор встраивания
- Идентификатор языка
- Глобальный токен стиля (GST) встраивание
- Смесь вышеупомянутых встроений
Сквозное обучение
- Сквозная модель текста к волне (например, Vits, Jets и т. Д.)
- Совместное обучение текста2MEL и Vocoder
Различная языковая поддержка
- En / jp / zn / de / ru / и больше ...
Интеграция с нейронными вокодерами
- Параллельная волна
- Мелган
- Многополосный Мелган
- Хифиган
- Stylemelgan
- Смесь приведенных выше моделей

Демонстрация

Демонстрация TTS в реальном времени с ESPNet2
Интегрированный в обнимающееся пространство для лица с Gradio. Смотрите демонстрацию:

Чтобы обучить нейронного вокадера, пожалуйста, проверьте следующие репозитории:

Кан-Баяши/Параллельвейван
r9y9/wavenet_vocoder

SE: улучшение речи (и разделение)

Усовершенствование речи с одним дивиксером
Разделение речи с несколькими динамиками
Унифицированный энкодер-сепаратор-декодер Структура для моделей временной области и частотной области
- Encoder/Decoder: STFT/ISTFT, сверток/транспонированная конструкция
- Сепараторы: BLSTM, трансформатор, конформер, Tasnet, DPRNN, SKIM, SVOICE, DC-CRN, DCCRN, глубокая кластеризация, сеть глубоких аттракторов, FASNET, IFASNET, Нейронные формирования луча и т. Д.
Гибкая интеграция ASR: работа в качестве отдельной задачи или как фронт ASR
Легко импортировать предварительно обученные модели из астероида
- Поддерживаются как предварительно обученные модели из астероида, так и конкретная конфигурация.

Демонстрация

Interactive SE Демо с ESPNet2
Потоковая демонстрация SE с ESPNet2

ST: Перевод речи и MT: машинный перевод

Современная производительность в нескольких критериях ST (сопоставимо/превосходит Cascaded ASR и MT)
На основе трансформаторов сквозная улица (новый!)
Трансформеры на основе сквозного MT (новый!)

VC: преобразование голоса

Параллельный VC на основе трансформатора и такотрона с использованием спектрограммы MEL
Следует за собой венчурное капитал на основе каскадного ASR+TTS (базовая система для преобразования голоса 2020 года!)

SLU: Понимание разговорного языка

Архитектура
- Основанный на трансформаторах энкодер
- Кодер на основе конформеров
- Энкодер на основе филиала
- Энкодер на основе электронного ярчформатора
- Декодер на основе RNN
- Декодер на основе трансформатора
Поддержать многозадачность с ASR
- Прогнозировать как намерения, так и транскрипт ASR
Поддерживать многозадачность с NLU
- Обдумывание модели Encoder на основе 2 модели проходов
Поддержка с использованием предварительно обученных моделей ASR
- Хуберт
- Wav2vec2
- VQ-APC
- Тера и многое другое ...
Поддержка с использованием предварительно обученных моделей НЛП
- БЕРТ
- Mpnet и многое другое ...
Различная языковая поддержка
- En / jp / zn / nl / и больше ...
Поддерживает использование контекста из предыдущих высказываний
Поддерживает использование других задач, таких как SE в манере трубопровода
Поддерживает два Pass SLU, которые объединяют демонстрацию транскриптов аудио и ASR ASR
Выполнение шумного понимания разговорного языка с использованием модели улучшения речи с последующей моделью понимания разговорного языка.
Выполнение понимания двухпроходного языка, где вторая модель Pass занимается как акустической, так и семантической информации.
Интегрированный в обнимающееся пространство для лица с Gradio. Смотрите демо SLU на нескольких языках:

Сумма: Суммизация речи

Рецепт суммирования речи с окончанием к концу для учебных видео с использованием ограниченного самопринятого [Sharma et al., 2022]

SVS: синтез по пению голоса

Рамки слияния из мусорных
Архитектура
- Неавторегрессивная модель на основе RNN
- Xiaoice
- Такотрон
- Diffsinger (в процессе)
- Витсингер
- Visinger 2 (его вариации с различной архитектурой Vocoders)
Поддержка многоязычного и многоязычного синтеза пения
- Спикер идентификатор встраивания
- Идентификатор языка
Различная языковая поддержка
- Jp / en / kr / zh
Тяжелая интеграция с нейронными вокодерами (так же, как TTS)

SSL: самоотверженное обучение

Поддержите предварительное обучение Hubert:
- Пример рецепта: egs2/librispeech/ssl1

UASR: неконтролируемый ASR (Евро: ESPNET без присмотра

Архитектура
- wav2vec-u (с различными самоотверженными моделями)
- wav2vec-u 2.0 (в процессе)
Поддержка PrefixBeamSearch и K2 Decoding на основе K2

S2T: речь к тексту с многоязычными многозадачными моделями в стиле шепота

Воспроизводит обучение в стиле шепота с нуля с использованием публичных данных: OWSM
Поддерживает несколько задач в одной модели
- Многоязычное распознавание речи
- В любом любом речевом переводе
- Идентификация языка
- Прогнозирование временной метки на уровне высказывания (сегментация)

DNN Framework

Гибкая сетевая архитектура благодаря цепочке и Pytorch
Гибкая обработка фронта
Мониторинг на основе тензордора
Крупномасштабное обучение на основе глубокого скорости

Espnet2

Смотрите ESPNet2.

Независимо от Kaldi/Chainer, в отличие от ESPNet1
При обучении при обучении извлечение функций и обработка текста при обучении
Поддержка DistributedDataparallel и Daraparallel Оба
Поддержка нескольких узлов обучения и интегрировано с Slurm или MPI
Поддержка обучения Sharded, предоставленная Fairscale
Рецепт шаблона, который можно применять ко всем корпусам
Возможно обучить любой размер корпуса без ошибки памяти процессора
ESPNet Model Zoo
Интегрирован с Wandb

Установка

Если вы собираетесь провести полные эксперименты, включая обучение DNN, то см. Установку.
Если вам просто нужен только модуль Python:
```
 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
```
Если вы используете ESPNet1, пожалуйста, установите цепь и Cupy.
```
pip install chainer==6.0.0 cupy==6.0.0    # [Option]
```
Возможно, вам придется установить несколько пакетов в зависимости от каждой задачи. Мы подготовили различные сценарии установки в инструментах/установщиках.
(ESPNet2) После установки запустите wandb login и Set --use_wandb true , чтобы включить отслеживание прогонов с использованием W & B.

Контейнер Docker

Перейдите в Docker/ и следуйте инструкциям.

Вклад

Спасибо, что нашли время для ESPNet! Любой вклад в ESPNet приветствуются и не стесняйтесь задавать любые вопросы или запросы по вопросам. Если это ваш первый вклад ESPNet, пожалуйста, следуйте руководству взноса.

ASR Результаты

расширять

Мы перечислим частоту ошибок символа (CER) и частоту ошибок Word (WER) основных задач ASR.

Задача	Cer (%)	Wer (%)	Предварительно обученная модель
Айшелл Дев/Тест	4.6/5.1	N/a	связь
ESPNet2 Aishell Dev/Test	4.1/4.4	N/a	связь
Общий голос разработчик/тест	1,7/1,8	2.2/2.3	связь
CSJ Eval1/Eval2/Eval3	5,7/3,8/4.2	N/a	связь
ESPNet2 CSJ Eval1/Eval2/Eval3	4,5/3,3/3,6	N/a	связь
Espnet2 gigaspeech dev/test	N/a	10.6/10.5	связь
Hkust Dev	23.5	N/a	связь
Espnet2 hkust dev	21.2	N/a	связь
Librispeech dev_clean/dev_other/test_clean/test_other	N/a	1,9/4.9/2,1/4.9	связь
ESPNet2 librispeech dev_clean/dev_other/test_clean/test_other	0,6/1,5/0,6/1,4	1,7/3,4/1,8/3,6	связь
Switchboard (Eval2000) Callhm/SWBD	N/a	14.0/6.8	связь
Коммулятор ESPNet2 (Eval2000) Callhm/SWBD	N/a	13.4/7.3	связь
Tedlium2 dev/test	N/a	8.6/7.2	связь
ESPNet2 Tedlium2 Dev/Test	N/a	7.3/7.1	связь
Tedlium3 dev/test	N/a	9.6/7.6	связь
WSJ Dev93/Eval92	3.2/2.1	7.0/4.7	N/a
ESPNet2 WSJ Dev93/Eval92	1,1/0,8	2.8/1,8	связь

Обратите внимание, что производительность задач CSJ, HKUST и Librispeech была значительно улучшена с использованием широкой сети (#UNITS = 1024) и больших подразделений, если это необходимо, сообщили RWTH.

Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/asr1/RESULTS.md .

ASR Демо

расширять

Вы можете распознать речь в файле WAV, используя предварительно обученные модели. Перейдите в каталог рецептов и запустите utils/recog_wav.sh следующим образом:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

где example.wav - это файл wav, который будет распознавать. Скорость выборки должна соответствовать частоте данных, используемых при обучении.

Доступные предварительно обученные модели в демонстрационном скрипте перечислены ниже.

Модель	Примечания
tedlium2.rnn.v1	Потоковое декодирование на основе VAD на основе CTC
tedlium2.rnn.v2	Потоковое декодирование на основе VAD на основе CTC (пакетное декодирование)
tedlium2.transformer.v1	Трансформатор внимания совместного CTC, обученный Tedlium 2
tedlium3.transformer.v1	Трансформатор внимания совместного CTC, обученный Tedlium 3
librispeech.transformer.v1	Совместный трансформатор внимания CTC, обученный на Librispeech
commonvoice.transformer.v1	Совместный трансформатор внимания CTC, обученный CommonVoice
csj.transformer.v1	Совместный трансформатор внимания CTC, обученный CSJ
csj.rnn.v1	Совместное внимание внимания VGGBLSTM, обученная CSJ

SE результаты

расширять

Мы перечисляем результаты из трех различных моделей на WSJ0-2MIX, который является одним из наиболее широко используемых наборов данных для разделения речи.

Модель	Стои	Сар -	Стержня	СЭР
Маскировка TF	0,89	11.40	10.24	18.04
Конвешетка	0,95	16.62	15.94	25,90
DPRNN-TASNET	0,96	18.82	18.29	28.92

SE Demos

расширять

Вы можете попробовать интерактивную демонстрацию с Google Colab. Пожалуйста, нажмите на следующую кнопку, чтобы получить доступ к демонстрациям.

Он основан на ESPNet2. Предварительно обученные модели доступны как для улучшения речи, так и для задач разлуки речи.

Разделение речи Демоверсии:

ST Результаты

расширять

Мы перечислим 4-граммовый блю с крупными задачами ST.

сквозная система

Задача	Блю	Предварительно обученная модель
Fisher-Callhome Испанский рыбак_test (es-> en)	51.03	связь
Fisher-Callhome Испанский callhome_evltest (es-> en)	20.44	связь
Тест libri-trans (en-> fr)	16.70	связь
How2 dev5 (en-> pt)	45,68	связь
Необходимо C TST-Common (En-> de)	22.91	связь
MBOSHI-FRENCH DEV (FR-> MBOSHI)	6.18	N/a

каскадная система

Задача	Блю	Предварительно обученная модель
Fisher-Callhome Испанский рыбак_test (es-> en)	42.16	N/a
Fisher-Callhome Испанский callhome_evltest (es-> en)	19.82	N/a
Тест libri-trans (en-> fr)	16.96	N/a
How2 dev5 (en-> pt)	44,90	N/a
Необходимо C TST-Common (En-> de)	23.65	N/a

Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/st1/RESULTS.md .

ST Demo

расширять

( Новое! ) Мы сделали новую демонстрацию E2E-ST + TTS в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь переводом речи в речь в реальном времени!

Вы можете перевести речь в файле WAV, используя предварительно обученные модели. Перейдите в каталог рецептов и запустите utils/translate_wav.sh следующим образом:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

где test.wav - это файл wav, который будет переведен. Скорость выборки должна соответствовать частоте данных, используемых при обучении.

Доступные предварительно обученные модели в демонстрационном скрипте перечислены, как показано ниже.

Модель	Примечания
Fisher_callhome_spanish.transformer.v1	Transformer-St Trade на Fisher-Callhome Spanish es-> en

Результаты МТ

расширять

Задача	Блю	Предварительно обученная модель
Fisher-Callhome Испанский рыбак_test (es-> en)	61.45	связь
Fisher-Callhome Испанский callhome_evltest (es-> en)	29,86	связь
Тест libri-trans (en-> fr)	18.09	связь
How2 dev5 (en-> pt)	58.61	связь
Необходимо C TST-Common (En-> de)	27.63	связь
Iwslt'14 test2014 (en-> de)	24,70	связь
Iwslt'14 test2014 (de-> en)	29,22	связь
Iwslt'14 test2014 (de-> en)	32.2	связь
Iwslt'16 test2014 (en-> de)	24.05	связь
Iwslt'16 test2014 (de-> en)	29.13	связь

TTS Результаты

Espnet2

Вы можете слушать сгенерированные образцы в следующем URL.

ESPNet2 TTS сгенерированные образцы

Обратите внимание, что в поколении мы используем Griffin-Lim ( wav/ ) и параллельный Wawgan ( wav_pwg/ ).

Вы можете скачать предварительно обученные модели через espnet_model_zoo .

ESPNet Model Zoo
Предварительно обученный список моделей

Вы можете скачать предварительно обученные Vocoders через kan-bayashi/ParallelWaveGAN .

Кан-Баяши/Параллельвейван
Предварительно обученный список Vocoder

Espnet1

ПРИМЕЧАНИЕ: мы перемещаемся на разработку на основе ESPNet2 для TTS. Пожалуйста, проверьте последние результаты в приведенных выше результатах ESPNet2.

Вы можете послушать наши образцы в демонстрации HP ESPNet-TTS-Sample. Здесь мы перечислим некоторые примечательные:

Одинокий английский оратор Tacotron2
Одинокий японский оратор Tacotron2
Один другой языковой носитель такотрон2
Мультинглийский оратор Tacotron2
Одинокий английский трансформер
Одинокий английский динамик Fastspeech
Мультинглийский трансформатор динамика
Одиночный итальянский динамик Fastspeech
Одиночный трансформатор динамика мандарина
Одиночный динамик мандарина Fastspeech
Multi японский трансформатор динамика
Одно английские модели динамиков с параллельным волнным
Одиночный английский знание знаний на основе дистилляции Fastspeech

Вы можете скачать все предварительно обученные модели и сгенерированные образцы:

Все предварительно обученные модели E2E-TTS
Все сгенерированные образцы

Обратите внимание, что в сгенерированных образцах мы используем следующие вокодеры: Griffin-Lim ( GL ), Wavenet Vocoder ( Wavenet ), Parallel Wabegan ( Parallelwavegan ) и Мелган ( Мелган ). Нейронные вокодеры основаны на следующих репозиториях.

Кан-Баяши / Параллельвовеган: Параллельный волновый / Мелган / Многополосный Мелган
r9y9/wavenet_vocoder: 16 -битная смесь логистики Wavenet Vocoder
Kan-bayashi/pytorchwavenetvocoder: 8-битный Softmax Wavenet Vocoder с формированием шума

Если вы хотите построить свой собственный нейронный вокадер, пожалуйста, проверьте вышеупомянутые репозитории. Kan-Bayashi/ParallelWavegan предоставляет руководство о том, как декодировать особенности модели ESPNet-TTS с нейронными вокалами. Пожалуйста, проверьте это.

Здесь мы перечислим все предварительно обученные нейронные вокалисты. Пожалуйста, скачайте и наслаждайтесь поколением высококачественной речи!

Модель ссылка	Ланг	FS [Гц]	MEL RANGE [Гц]	FFT / Shift / Win [Pt]	Тип модели
ljspeech.wavenet.softmax.ns.v1	Поступка	22.05K	Никто	1024 /256 / нет	Softmax Wavenet
ljspeech.wavenet.mol.v1	Поступка	22.05K	Никто	1024 /256 / нет	Мол Волны
ljspeech.parallel_wavegan.v1	Поступка	22.05K	Никто	1024 /256 / нет	Параллельная волна
ljspeech.wavenet.mol.v2	Поступка	22.05K	80-7600	1024 /256 / нет	Мол Волны
ljspeech.parallel_wavegan.v2	Поступка	22.05K	80-7600	1024 /256 / нет	Параллельная волна
ljspeech.melgan.v1	Поступка	22.05K	80-7600	1024 /256 / нет	Мелган
ljspeech.melgan.v3	Поступка	22.05K	80-7600	1024 /256 / нет	Мелган
libritts.wavenet.mol.v1	Поступка	24K	Никто	1024 /256 / нет	Мол Волны
jsut.wavenet.mol.v1	JP	24K	80-7600	2048 /300 /1200	Мол Волны
jsut.parallel_wavegan.v1	JP	24K	80-7600	2048 /300 /1200	Параллельная волна
csmsc.wavenet.mol.v1	ZH	24K	80-7600	2048 /300 /1200	Мол Волны
csmsc.parallel_wavegan.v1	ZH	24K	80-7600	2048 /300 /1200	Параллельная волна

Если вы хотите использовать вышеуказанные предварительно обученные вокадеры, пожалуйста, точно сопоставьте настройку функции с ними.

TTS Демо

Espnet2

Вы можете попробовать демо в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь синтезом в реальном времени!

Демонстрация TTS в реальном времени с ESPNet2

Модели английского, японского и мандарина доступны в демонстрации.

Espnet1

ПРИМЕЧАНИЕ: мы перемещаемся на разработку на основе ESPNet2 для TTS. Пожалуйста, проверьте последнюю демонстрацию в приведенной выше демонстрации ESPNet2.

Вы можете попробовать демо в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь синтезом в реальном времени.

Демонстрация TTS в реальном времени с ESPNet1

Мы также предоставляем сценарий оболочки для выполнения синтеза. Перейдите в каталог рецептов и запустите utils/synth_wav.sh следующим образом:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Вы можете изменить предварительно обученную модель следующим образом:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

Синтез формы волны выполняется с помощью алгоритма гриффин-лим и нейронных вокалеров (Wavenet и Parallelwavegan). Вы можете изменить предварительно обученную модель Vocoder следующим образом:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder обеспечивает очень качественную речь, но для генерации требуется время.

Смотрите более подробную информацию или доступные модели через --help .

synth_wav.sh --help

Результаты VC

расширять

VC на основе трансформатора и такотрона

Вы можете выслушать некоторые образцы на демонстрационной веб -странице.

Каскадный ASR+TTS как одна из базовых систем VCC2020

Программа преобразования голоса 2020 (VCC2020) принимает ESPNET для создания базовой системы на основе сквозной основы. В VCC2020 целью является внутри/кросс-лингальная непараллельная VC. Вы можете скачать конвертированные образцы каскадной базовой системы ASR+TTS здесь.

SLU результаты

расширять

Мы перечислим производительность в различных задачах и наборах данных SLU, используя метрику, сообщаемую в оригинальной бумаге данных

Задача	Набор данных	Показатель	Результат	Предварительно обученная модель
Классификация намерений	Нанести	Акк	86.3	связь
Классификация намерений	Фс	Акк	99,6	связь
Классификация намерений	FSC невидимый набор динамиков	Акк	98.6	связь
Классификация намерений	FSC невидимый набор высказываний	Акк	86.4	связь
Классификация намерений	FSC Challenge Set Speaker Set	Акк	97.5	связь
Классификация намерений	FSC Challenge Set Shetave Set	Акк	78.5	связь
Классификация намерений	Снам	F1	91.7	связь
Классификация намерений	Грабро (NL)	Акк	97.2	связь
Классификация намерений	Cat Slu Map (Zn)	Акк	78.9	связь
Классификация намерений	Google Speech Commands	Акк	98.4	связь
Слот -начинка	Нанести	SLU-F1	71.9	связь
Классификация акта диалога	Коммутатор	Акк	67.5	связь
Классификация акта диалога	Jdcinal (JP)	Акк	67.4	связь
Распознавание эмоций	Iemocap	Акк	69,4	связь
Распознавание эмоций	swbd_sentiment	Макро F1	61.4	связь
Распознавание эмоций	slue_voxceleb	Макро F1	44,0	связь

Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs2/<name_of_recipe>/asr1/RESULTS.md .

CTC сегментация демонстрация

Espnet1

Сегментация CTC определяет сегменты высказывания в аудиофайлах. Выровненные сегменты высказывания представляют собой ярлыки наборов данных речевых данных.

В качестве демонстрации мы выровняем начало и конец высказываний в аудиофайле ctc_align_test.wav , используя пример сценария utils/asr_align_wav.sh . Для подготовки настройте каталог данных:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Здесь utt_text - это файл, содержащий список высказываний. Выберите предварительно обученную модель ASR, которая включает в себя слой CTC, чтобы найти сегменты высказывания:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Сегменты записываются в aligned_segments как список имен файлов/высказывания, начала и окончания высказывания и окончания и оценки доверия. Оценка доверия - это вероятность в логарифмическом пространстве, которая указывает на то, насколько хорошо высказывалось высказывание. При необходимости удалите плохие высказывания:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

Демонстрационный скрипт utils/ctc_align_wav.sh использует уже предварительно обученную модель ASR (см. Список выше для большего количества моделей). Рекомендуется использовать модели с кодерами на основе RNN (например, BLSTMP) для выравнивания больших аудиофайлов; Вместо того, чтобы использовать трансформаторные модели с высоким потреблением памяти на более длинных аудиодатах. Скорость дискретизации звука должна соответствовать частоте данных, используемых при обучении; При необходимости отрегулируйте с sox . Полный пример рецепта в egs/tedlium2/align1/ .

Espnet2

Сегментация CTC определяет сегменты высказывания в аудиофайлах. Выровненные сегменты высказывания представляют собой ярлыки наборов данных речевых данных.

В качестве демонстрации мы выровняем начало и конец высказываний в аудиофайле ctc_align_test.wav . Это может быть сделано либо непосредственно из командной строки Python, либо с помощью Script espnet2/bin/asr_align.py .

От интерфейса командной строки Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

Выравнивание также работает с фрагментами текста. Для этого установите опцию gratis_blank , которая позволяет пропускать не связанные аудио -разделы без штрафа. Также можно опустить имена высказываний в начале каждой строки, установив kaldi_style_text на false.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

Скрипт espnet2/bin/asr_align.py использует аналогичный интерфейс. Чтобы выравнивать высказывания:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

Вывод сценария может быть перенаправлен в файл segments путем добавления --output segments аргумента. Каждая строка содержит имя файла/высказывания, время начала и окончания высказывания в секунды и оценку уверенности; При желании также текст высказывания. Оценка доверия - это вероятность в логарифмическом пространстве, которая указывает на то, насколько хорошо высказывалось высказывание. При необходимости удалите плохие высказывания:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Смотрите документацию модуля для получения дополнительной информации. Рекомендуется использовать модели с кодерами на основе RNN (например, BLSTMP) для выравнивания больших аудиофайлов; Вместо того, чтобы использовать модели трансформаторов, которые имеют высокое потребление памяти для более длинных аудиоданных. Скорость дискретизации звука должна соответствовать частоте данных, используемых при обучении; При необходимости отрегулируйте с sox .

Кроме того, мы можем использовать этот инструмент для предоставления информации о сегментации уровня токена, если мы подготовим список токенов вместо того, чтобы высказывания в text файле. См. Обсуждение в #4278 (комментарий).

Цитаты

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Расширять

Дополнительная информация

Версия version 202409
Тип Другой исходный код
Время обновления 2025-02-02
размер 23.14MB
От Github

Связанные приложения

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15