Download SpeechPrompt v2 - SpeechPrompt v2 Download de código fonte

SpeechPrompt v2

Código-Fonte de IA

1.0.0

Baixar

SpeechPrompt-V2

Site: https://ga642381.github.io/speechprompt/
Link em papel: https://arxiv.org/abs/2303.00733
Gráficos de pipeline: https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipline.png
Docross Doc: https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md

Atualizar lembrete:

Taxa de amostragem para tarefa a jusante:

Ao executar o pedido na tarefa a jusante, verifique se a taxa de amostragem dos áudios é de 16kHz.
Modificação: Existe um compromisso recente para forçar o Librosa a carregar o áudio em 16kHz.

Carregamento de modelo pré-treinado:

Verifique se o modelo pré-treinado é carregado corretamente para obter resultados razoáveis com o aviso.
Observação: Ao carregar o modelo pré-treinado corretamente, a época do treinamento para avisos deve começar na época 46, não na época 1. Isso ocorre porque o GSLM pré-treinado já é treinado para 45 épocas.

Modelos e arquivos pré-treinados

Existem 4 arquivos que você estará tendo:

Modelo de Hubert : codificação
Modelo K-Means : quantizando as representações de fala em unidades discretas
Arquivo de dicionário : definindo o espaço da unidade para o modelo de idioma da unidade.
Modelo de idioma da unidade (ULM) : executando modelagem generativa de linguagem nas unidades perturbadas

Esses modelos podem ser baixados automaticamente ao executar o pipeline de pré -processamento.

Pré -processamento

Conceito

Existem 4 etapas no PIPLINE DE PROCESSO DE DADOS (Speech2Unit). A principal tarefa aqui é executar a fala para unidades e reunir os rótulos da tarefa

gerar manifesto
quantizar
Reduced_quantized
create_lm_dataset

Salvamos dados intermediários em cada etapa para que possamos fazer uma análise mais aprofundada dos dados em que estamos interessados. Além disso, você pode entender melhor como funciona verificando cada dados intermediários.

Passos

Baixe o conjunto de dados
Modifique a configuração do conjunto de dados ([downstream] /config.yaml)
Modifique a configuração global (pré -processamento/config.yaml)

Execute o Preporcess/Runner.py

 # Você pode executar --Action tudo para percorrer todos os 4 estágios: python runner.py -Model GSLM -Downstream SCR_GOOGEL_SPEECH_COMMANS --Action All

 # Ou você pode ser executado nesses 4 estágios sequencialmente pelo seguinte comando: python runner.py - -model gslm -downstream scr_google_speech_commands --action generate_manifest
python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS -AACTION Quantize
python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS --Action Reduced_quantized
python runner.py -Model GSLM -Downstream SCR_GOOGLE_SPEECH_COMMANS --Action Create_LM_DataSet

Opção 2

Opção 1

Verbalizador

Conceito

Existem 2 etapas no VerbAlizer, que mapeiam os rótulos das tarefas no vocabulário do modelo de idioma.

Passos

Run VerbAlizer.py

exemplo:

 python verbalizer.py -downstream scr_google_speech_commands --action all - -method freq

Fairseq Process

Conceito

Esta etapa converte os dados verbalizados em arquivos binários que serão usados para o treinamento da Fairseq.

Passos

Execute Fairseq_preprocess.py

exemplo:

 Python Fairseq_preprocess.py -Downstream SCR_GOOGLE_SPEECH_COMMANDS --VB_METHOD FREQ

Treinamento

Conceito

Durante o treinamento, 2 tipos de pontos de verificação serão salvos

base_model
incitar

passos

execute o trem.py

exemplo:

 Python Train.py
     -DownStream SCR_GOOGLE_SPEECH_COMANDS
     --vb_method Freq
     --exp_name scr_google_speech_commands_plen.5
     --prompt_length 5
     --ep_prompt

✒️ Amostragem

Conceito

Carregar base_model e avisos para executar a amostragem

Passos

Executar sample.py

exemplo:

 Python Sample.py
     --exp_name scr_google_speech_commands_plen.5
     -DownStream SCR_GOOGLE_SPEECH_COMANDS
     --vb_method Freq

A saída é um arquivo JSON que contém o arquivo File_Name, as unidades de origem, a verdade em terra (rótulo) e o modelo:

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-02-14
tamanho 211.04KB
Vindo de Github

Aplicativos Relacionados

RVC v2 UI

2024-11-10
Versão oficial v2.4 do TonyShareSQL V2.4

2024-11-08
TonyShareAccess V2.4 versão oficial v2.4

2024-11-08
BIPO HRMS v2

2023-06-16
Jogo MetaRace v2

2023-04-21
JinBlog v2.0

2022-06-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos