Веб -сайт: https://ga642381.github.io/speechprompt/
Бумажная ссылка: https://arxiv.org/abs/2303.00733
Диповые диаграммы: https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
Наборы данных DOC: https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md
Скорость выборки для задачи вниз по течению:
При выполнении подсказки на задачу нижнего течения убедитесь, что скорость отбора проб аудионов составляет 16 кГц.
Модификация: недавно существует принудительный прибор Librosa загрузить звук в 16 кГц.
Предварительно обученная загрузка модели:
Убедитесь, что предварительно обученная модель загружена правильно для разумных результатов с подсказкой.
Наблюдение: при правильной загрузке предварительно обученной модели эпоха тренировок для подсказок должна начинаться в EPOCH 46, а не EPOCH 1. Это связано с тем, что предварительно обученный GSLM уже обучен 45 эпохам.
Есть 4 файла, которые у вас будут:
Модель Hubert : кодировка речи
Модель K-средних : квантование речевых представлений в отдельных единицах
Файл словаря : определение единичного пространства для модели языка единицы.
Модель языка единиц (ULM) : выполнение генеративного языкового моделирования в единицах безрелейте
Эти модели могут быть автоматически загружены при запуске трубопровода предварительной обработки.
В Pipline есть 4 шага Pipline. Основная задача здесь-выполнять речи до единицы и сопоставлять этикетки задач
генерировать манифест
квантовать
уменьшить_quantized
create_lm_dataset
Мы сохраняем промежуточные данные на каждом шаге, чтобы мы могли провести дальнейший анализ данных, которые нас интересуют. Кроме того, вы можете лучше понять, как это работает, проверяя каждые промежуточные данные.
Загрузите набор данных
Изменить конфигурацию набора данных ([downstream]/config.yaml)
Изменить глобальную конфигурацию (Preprocess/config.yaml)
Запустите Preporcess/Runner.py
# Вы можете запустить -действие все, чтобы пройти через все 4 этапа: python runner.py -model gslm -downstream scr_google_speech_commands -Все
# Или вы можете выполнить эти 4 этапа последовательно с помощью следующей команды: python runner.py -model gslm -downstream scr_google_speech_commands -generate_manifest Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -ЧАСТЬ Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -ДЕМО Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -Разрешение create_lm_dataset
Вариант 2
Вариант 1
В вербализаторе есть 2 шага, которые отображают этикетки задач в словарный запас языковой модели.
Запустите verbalizer.py
пример:
python verbalizer.py -downstream scr_google_speech_commands -overse -method freq
Этот шаг преобразует вербализованные данные в двоичные файлы, которые будут использоваться для обучения Fairseq.
Запустите fairseq_preprocess.py
пример:
python fairseq_preprocess.py -downstream scr_google_speech_commands --vb_method freq
Во время обучения будут сохранены 2 вида контрольно -пропускных пунктов
base_model
быстрый
запустить Train.py
пример:
Python Train.py -Downstream scr_google_speech_commands --vb_method freq -exp_name scr_google_speech_commands_plen.5 -Помпт_лги 5 -deep_prompt
Загрузить base_model и побуждения для выполнения отбора проб
запустить sample.py
пример:
Python Sample.py -exp_name scr_google_speech_commands_plen.5 -Downstream scr_google_speech_commands --vb_method freq
Вывод - это файл json, содержащий файл_name, исходные единицы, наземную истину (метка) и прогноз модели: