Site: https://ga642381.github.io/speechprompt/
Link em papel: https://arxiv.org/abs/2303.00733
Gráficos de pipeline: https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipline.png
Docross Doc: https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md
Taxa de amostragem para tarefa a jusante:
Ao executar o pedido na tarefa a jusante, verifique se a taxa de amostragem dos áudios é de 16kHz.
Modificação: Existe um compromisso recente para forçar o Librosa a carregar o áudio em 16kHz.
Carregamento de modelo pré-treinado:
Verifique se o modelo pré-treinado é carregado corretamente para obter resultados razoáveis com o aviso.
Observação: Ao carregar o modelo pré-treinado corretamente, a época do treinamento para avisos deve começar na época 46, não na época 1. Isso ocorre porque o GSLM pré-treinado já é treinado para 45 épocas.
Existem 4 arquivos que você estará tendo:
Modelo de Hubert : codificação
Modelo K-Means : quantizando as representações de fala em unidades discretas
Arquivo de dicionário : definindo o espaço da unidade para o modelo de idioma da unidade.
Modelo de idioma da unidade (ULM) : executando modelagem generativa de linguagem nas unidades perturbadas
Esses modelos podem ser baixados automaticamente ao executar o pipeline de pré -processamento.
Existem 4 etapas no PIPLINE DE PROCESSO DE DADOS (Speech2Unit). A principal tarefa aqui é executar a fala para unidades e reunir os rótulos da tarefa
gerar manifesto
quantizar
Reduced_quantized
create_lm_dataset
Salvamos dados intermediários em cada etapa para que possamos fazer uma análise mais aprofundada dos dados em que estamos interessados. Além disso, você pode entender melhor como funciona verificando cada dados intermediários.
Baixe o conjunto de dados
Modifique a configuração do conjunto de dados ([downstream] /config.yaml)
Modifique a configuração global (pré -processamento/config.yaml)
Execute o Preporcess/Runner.py
# Você pode executar --Action tudo para percorrer todos os 4 estágios: python runner.py -Model GSLM -Downstream SCR_GOOGEL_SPEECH_COMMANS --Action All
# Ou você pode ser executado nesses 4 estágios sequencialmente pelo seguinte comando: python runner.py - -model gslm -downstream scr_google_speech_commands --action generate_manifest python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS -AACTION Quantize python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS --Action Reduced_quantized python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS --Action Create_LM_DataSet
Opção 2
Opção 1
Existem 2 etapas no VerbAlizer, que mapeiam os rótulos das tarefas no vocabulário do modelo de idioma.
Run VerbAlizer.py
exemplo:
python verbalizer.py -downstream scr_google_speech_commands --action all - -method freq
Esta etapa converte os dados verbalizados em arquivos binários que serão usados para o treinamento da Fairseq.
Execute Fairseq_preprocess.py
exemplo:
Python Fairseq_preprocess.py -Downstream SCR_GOOGLE_SPEECH_COMMANDS --VB_METHOD FREQ
Durante o treinamento, 2 tipos de pontos de verificação serão salvos
base_model
incitar
execute o trem.py
exemplo:
Python Train.py -DownStream SCR_GOOGLE_SPEECH_COMANDS --vb_method Freq --exp_name scr_google_speech_commands_plen.5 --prompt_length 5 --ep_prompt
Carregar base_model e avisos para executar a amostragem
Executar sample.py
exemplo:
Python Sample.py --exp_name scr_google_speech_commands_plen.5 -DownStream SCR_GOOGLE_SPEECH_COMANDS --vb_method Freq
A saída é um arquivo JSON que contém o arquivo File_Name, as unidades de origem, a verdade em terra (rótulo) e o modelo: