SpeechPrompt v2

SpeechPrompt v2

AI Исходный код

1.0.0

Скачать

SpeechPrompt-V2

Веб -сайт: https://ga642381.github.io/speechprompt/
Бумажная ссылка: https://arxiv.org/abs/2303.00733
Диповые диаграммы: https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
Наборы данных DOC: https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md

Обновление напоминания:

Скорость выборки для задачи вниз по течению:

При выполнении подсказки на задачу нижнего течения убедитесь, что скорость отбора проб аудионов составляет 16 кГц.
Модификация: недавно существует принудительный прибор Librosa загрузить звук в 16 кГц.

Предварительно обученная загрузка модели:

Убедитесь, что предварительно обученная модель загружена правильно для разумных результатов с подсказкой.
Наблюдение: при правильной загрузке предварительно обученной модели эпоха тренировок для подсказок должна начинаться в EPOCH 46, а не EPOCH 1. Это связано с тем, что предварительно обученный GSLM уже обучен 45 эпохам.

Предварительно обученные модели и файлы

Есть 4 файла, которые у вас будут:

Модель Hubert : кодировка речи
Модель K-средних : квантование речевых представлений в отдельных единицах
Файл словаря : определение единичного пространства для модели языка единицы.
Модель языка единиц (ULM) : выполнение генеративного языкового моделирования в единицах безрелейте

Эти модели могут быть автоматически загружены при запуске трубопровода предварительной обработки.

Предварительная обработка

Концепция

В Pipline есть 4 шага Pipline. Основная задача здесь-выполнять речи до единицы и сопоставлять этикетки задач

генерировать манифест
квантовать
уменьшить_quantized
create_lm_dataset

Мы сохраняем промежуточные данные на каждом шаге, чтобы мы могли провести дальнейший анализ данных, которые нас интересуют. Кроме того, вы можете лучше понять, как это работает, проверяя каждые промежуточные данные.

Шаги

Загрузите набор данных
Изменить конфигурацию набора данных ([downstream]/config.yaml)
Изменить глобальную конфигурацию (Preprocess/config.yaml)

Запустите Preporcess/Runner.py

 # Вы можете запустить -действие все, чтобы пройти через все 4 этапа: python runner.py -model gslm -downstream scr_google_speech_commands -Все

 # Или вы можете выполнить эти 4 этапа последовательно с помощью следующей команды: python runner.py -model gslm -downstream scr_google_speech_commands -generate_manifest
Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -ЧАСТЬ
Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -ДЕМО
Python runner.py -модель GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANDS -Разрешение create_lm_dataset

Вариант 2

Вариант 1

Вербализатор

Концепция

В вербализаторе есть 2 шага, которые отображают этикетки задач в словарный запас языковой модели.

Шаги

Запустите verbalizer.py

пример:

 python verbalizer.py -downstream scr_google_speech_commands -overse -method freq

Fairseq Preprocess

Концепция

Этот шаг преобразует вербализованные данные в двоичные файлы, которые будут использоваться для обучения Fairseq.

Шаги

Запустите fairseq_preprocess.py

пример:

 python fairseq_preprocess.py -downstream scr_google_speech_commands --vb_method freq

Обучение

Концепция

Во время обучения будут сохранены 2 вида контрольно -пропускных пунктов

base_model
быстрый

шаги

запустить Train.py

пример:

 Python Train.py
     -Downstream scr_google_speech_commands
     --vb_method freq
     -exp_name scr_google_speech_commands_plen.5
     -Помпт_лги 5
     -deep_prompt

✒ выборка

Концепция

Загрузить base_model и побуждения для выполнения отбора проб

Шаги

запустить sample.py

пример:

 Python Sample.py
     -exp_name scr_google_speech_commands_plen.5
     -Downstream scr_google_speech_commands
     --vb_method freq

Вывод - это файл json, содержащий файл_name, исходные единицы, наземную истину (метка) и прогноз модели:

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-02-14
размер 211.04KB
От Github

Связанные приложения

RVC v2 UI

2024-11-10
TonyShareSQL V2.4 официальная версия v2.4

2024-11-08
TonyShareAccess V2.4 официальная версия v2.4

2024-11-08
БИПО HRMS v2

2023-06-16
Игра МетаГонка v2

2023-04-21
Джинблог v2.0

2022-06-01

SpeechPrompt v2

SpeechPrompt-V2

Обновление напоминания:

Предварительно обученные модели и файлы

Предварительная обработка

Концепция

Шаги

Вербализатор

Концепция

Шаги

Fairseq Preprocess

Концепция

Шаги

Обучение

Концепция

шаги

✒ выборка

Концепция

Шаги

RVC v2 UI

TonyShareSQL V2.4 официальная версия v2.4

TonyShareAccess V2.4 официальная версия v2.4

БИПО HRMS v2

Игра МетаГонка v2

Джинблог v2.0

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

wp functions

termwind