voice_activity_detection Скачать - voice_activity_detection Загрузка исходного кода

voice_activity_detection

AI Исходный код

1.0.0

Скачать

Проект обнаружения голосовой активности

Ключевые слова: Python, TensorFlow, глубокое обучение, классификация временных рядов.

Установка
1.1 Базовая установка
1.2 Установка виртуальной среды
1.3 Установка докера
Введение
2.1 Цель
2.2 Результаты
Структура проекта
Набор данных
Использование проекта
5.1 Автоматическая маркировка наборов данных
5.2 Запись необработанных данных в формат .tfrecord
5.3 Обучите CNN классифицировать сигналы речи и шума
5.4 Экспорт обученной модели и выполнение вывода на тестовом наборе
Тодо
Ресурсы

1. Установка

Этот проект был разработан для:

Убунту 20.04
Питон 3.7.3
ТензорФлоу 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 Базовая установка

️ Рекомендуется использовать виртуальные среды!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Установка виртуальной среды

1.3 Установка докера

Вы можете получить последний образ из DockerHub и запустить команды Python внутри контейнера:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Если вы хотите создать образ Docker и запустить контейнер с нуля, выполните следующие команды.

Создайте образ докера:

$ make build

(Это может занять некоторое время.)

Запустите образ докера:

$ make local-nobuild

2. Введение

2.1 Цель

Целью этого проекта является разработка и реализация алгоритма обнаружения голосовой активности в реальном времени на основе глубокого обучения.

Разработанное решение основано на извлечении признаков MFCC и модели 1D-Resnet, которая классифицирует, является ли аудиосигнал речью или шумом.

2.2 Результаты

Модель	Поезд в соотв.	Вал акк.	Тест в соотв.
1D-Резнет	99 %	98 %	97 %

Ниже показаны необработанные и постобработанные результаты тестового аудиосигнала.

alt text

3. Структура проекта

Проект voice_activity_detection/ имеет следующую структуру:

vad/data_processing/ : маркировка, обработка, запись и визуализация необработанных данных.
vad/training/ : данные, входной конвейер, модель и обучение/оценка/прогнозирование
vad/inference/ : экспорт обученной модели и вывода

4. Набор данных

Загрузите набор данных корпуса ASR LibriSpeech с https://openslr.org/12/ и извлеките все файлы в: /path/to/LibriSpeech/ .

Набор данных содержит около 1000 часов чтения английской речи из аудиокниг с частотой 16 кГц и хорошо подходит для обнаружения голосовой активности.

Я автоматически аннотировал test-clean набор набора данных предварительно обученной моделью VAD.

Пожалуйста, не стесняйтесь использовать папку labels/ и предварительно обученную модель VAD (только для вывода) по этой ссылке.

5. Использование проекта

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Автоматическая маркировка наборов данных

Пропустите этот подраздел, если у вас уже есть папка labels/ , содержащая аннотации из другой предварительно обученной модели.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Аннотации будут записаны в /path/to/LibriSpeech/labels/ как файлы .json .

5.2 Запись необработанных данных в формат .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Это запишет разделенные данные в формате .tfrecord в /path/to/LibriSpeech/tfrecords/

5.3 Обучите CNN классифицировать сигналы речи и шума

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Экспорт обученной модели и выполнение вывода на тестовом наборе

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

Обученная модель будет записана в /path/to/LibriSpeech/tfrecords/models/resnet1d/ . Экспортированная модель будет записана в этом каталоге.

6. Дела

Сравните модель глубокого обучения с простым базовым уровнем
Тренируйтесь на полном наборе данных
Улучшение балансировки данных
Добавить увеличение данных временных рядов
Изучите кривую ROC и порог классификации
Добавить онлайн-вывод
Количественно оценить методы постобработки на тестовом наборе
Добавьте описание модели и графики обучения
Добавить демо-версию Google Colab

7. Ресурсы

Обнаружение голосовой активности для голосового пользовательского интерфейса , средний
Глубокое обучение для классификации временных рядов: обзор , Фаваз и др., 2018, Arxiv
Классификация временных рядов с нуля с помощью глубоких нейронных сетей: сильная основа , Ван и др., 2016, Arxiv

Расширять

Дополнительная информация