Download whisperX - download do código-fonte whisperX

whisperX

Outro código-fonte

3.1.1

Baixar

SussurroX

arco-sussurro

Este repositório fornece reconhecimento de fala automático rápido (70x em tempo real com v2 grande) com carimbos de data e hora em nível de palavra e diarização de alto-falante.

⚡️ Inferência em lote para transcrição 70x em tempo real usando Whisper Large-v2
? back-end de sussurro mais rápido, requer <8 GB de memória GPU para large-v2 com beam_size = 5
Carimbos de data e hora precisos em nível de palavra usando alinhamento wav2vec2
?‍♂️ Multispeaker ASR usando diarização de alto-falante de pyannote-audio (etiquetas de identificação de alto-falante)
Pré-processamento VAD, reduz alucinações e lotes sem degradação do WER

Whisper é um modelo ASR desenvolvido pela OpenAI, treinado em um grande conjunto de dados de áudio diversificado. Embora produza transcrições altamente precisas, os carimbos de data/hora correspondentes estão no nível da expressão, não por palavra, e podem ser imprecisos por vários segundos. O sussurro do OpenAI não oferece suporte nativo ao processamento em lote.

ASR Baseado em Fonemas Um conjunto de modelos ajustados para reconhecer a menor unidade de fala que distingue uma palavra de outra, por exemplo, o elemento p em "tap". Um modelo de exemplo popular é wav2vec2.0.

Alinhamento forçado refere-se ao processo pelo qual as transcrições ortográficas são alinhadas às gravações de áudio para gerar automaticamente a segmentação no nível do telefone.

A Detecção de Atividade de Voz (VAD) é a detecção da presença ou ausência de fala humana.

Diarização de alto-falante é o processo de particionar um fluxo de áudio contendo fala humana em segmentos homogêneos de acordo com a identidade de cada locutor.

Novo

1º lugar no desafio de transcrição Ego4d?
WhisperX aceito na INTERSPEECH 2023
segmento de transcrição v3 por frase: usando nltk sent_tokenize para melhor legendagem e melhor diarização
v3 lançado, código aberto com aceleração de 70x. Usando sussurro em lote com back-end de sussurro mais rápido!
v2 lançada, limpeza de código, importação, filtragem VAD da biblioteca Whisper agora está ativada por padrão, como no artigo.
Queda de papel??‍?! Consulte nossa pré-impressão do ArxiV para benchmarking e detalhes do WhisperX. Também introduzimos inferência em lote mais eficiente, resultando em v2 grande com velocidade em TEMPO REAL *60-70x.

Configurar

Testado para PyTorch 2.0, Python 3.10 (use outras versões por sua conta e risco!)

A execução da GPU requer que as bibliotecas NVIDIA cuBLAS 11.x e cuDNN 8.x sejam instaladas no sistema. Consulte a documentação do CTranslate2.

1. Crie um ambiente Python3.10

conda create --name whisperx python=3.10

conda activate whisperx

2. Instale o PyTorch, por exemplo, para Linux e Windows CUDA11.8:

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

Veja outros métodos aqui.

3. Instale este repositório

pip install git+https://github.com/m-bain/whisperx.git

Se já estiver instalado, atualize o pacote para o commit mais recente

pip install git+https://github.com/m-bain/whisperx.git --upgrade

Se desejar modificar este pacote, clone e instale em modo editável:

 $ git clone https://github.com/m-bain/whisperX.git
$ cd whisperX
$ pip install -e .

Você também pode precisar instalar ffmpeg, ferrugem etc. Siga as instruções do openAI aqui https://github.com/openai/whisper#setup.

Diarização de alto-falante

Para habilitar Speaker Diarization , inclua seu token de acesso Hugging Face (leitura) que você pode gerar aqui após o argumento --hf_token e aceite o contrato do usuário para os seguintes modelos: Segmentation e Speaker-Diarization-3.1 (se você optar por usar Speaker -Diarização 2.x, siga os requisitos aqui.)

Observação
Em 11 de outubro de 2023, há um problema conhecido relacionado ao desempenho lento com pyannote/Speaker-Diarization-3.0 no WhisperX. É devido a conflitos de dependência entre o sussurro mais rápido e o pyannote-audio 3.0.0. Consulte este problema para obter mais detalhes e possíveis soluções alternativas.

Uso (linha de comando)

Inglês

Execute sussurro no segmento de exemplo (usando parâmetros padrão, sussurro pequeno) adicione --highlight_words True para visualizar os tempos das palavras no arquivo .srt.

 whisperx examples/sample01.wav

Resultado usando WhisperX com alinhamento forçado para wav2vec2.0 grande:

amostra01.mp4

Compare isso com o sussurro original, onde muitas transcrições estão fora de sincronia:

amostra_whisper_og.mov

Para aumentar a precisão do carimbo de data e hora, ao custo de maior memória de GPU, use modelos maiores (o modelo de alinhamento maior não é tão útil, consulte o artigo), por exemplo

 whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

Para rotular a transcrição com IDs de locutor (defina o número de locutores, se conhecido, por exemplo, --min_speakers 2 --max_speakers 2 ):

 whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True

Para rodar na CPU em vez da GPU (e para rodar no Mac OS X):

 whisperx examples/sample01.wav --compute_type int8

Outros idiomas

O modelo de alinhamento ASR do fonema é específico do idioma ; para idiomas testados, esses modelos são automaticamente escolhidos em pipelines torchaudio ou huggingface. Basta passar o código --language e usar o Whisper --model large .

Atualmente, os modelos padrão são fornecidos para {en, fr, de, es, it, ja, zh, nl, uk, pt} . Se o idioma detectado não estiver nesta lista, você precisará encontrar um modelo ASR baseado em fonema no hub do modelo huggingface e testá-lo em seus dados.

Por exemplo, alemão

 whisperx --model large-v2 --language de examples/sample_de_01.wav

amostra_de_01_vis.mov

Veja mais exemplos em outros idiomas aqui.

Uso de Python?

 import whisperx
import gc 

device = "cuda" 
audio_file = "audio.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx . load_model ( "large-v2" , device , compute_type = compute_type )

# save model to local path (optional)
# model_dir = "/path/"
# model = whisperx.load_model("large-v2", device, compute_type=compute_type, download_root=model_dir)

audio = whisperx . load_audio ( audio_file )
result = model . transcribe ( audio , batch_size = batch_size )
print ( result [ "segments" ]) # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a , metadata = whisperx . load_align_model ( language_code = result [ "language" ], device = device )
result = whisperx . align ( result [ "segments" ], model_a , metadata , audio , device , return_char_alignments = False )

print ( result [ "segments" ]) # after alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. Assign speaker labels
diarize_model = whisperx . DiarizationPipeline ( use_auth_token = YOUR_HF_TOKEN , device = device )

# add min/max number of speakers if known
diarize_segments = diarize_model ( audio )
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx . assign_word_speakers ( diarize_segments , result )
print ( diarize_segments )
print ( result [ "segments" ]) # segments are now assigned speaker IDs

Demonstrações

Se você não tiver acesso às suas próprias GPUs, use os links acima para experimentar o WhisperX.

Detalhes técnicos

Para detalhes específicos sobre lote e alinhamento, o efeito do VAD, bem como o modelo de alinhamento escolhido, consulte o artigo pré-impresso.

Para reduzir os requisitos de memória da GPU, tente qualquer um dos seguintes (2. e 3. podem afetar a qualidade):

reduza o tamanho do lote, por exemplo --batch_size 4
use um modelo ASR menor --model base
Use um tipo de computação mais leve --compute_type int8

Diferenças de transcrição do sussurro de openai:

Transcrição sem carimbos de data/hora. Para ativar o lote de passagem única, a inferência por sussurro é executada --without_timestamps True , o que garante 1 passagem direta por amostra no lote. No entanto, isso pode causar discrepâncias na saída de sussurro padrão.
Transcrição de segmento baseada em VAD, ao contrário da transcrição tamponada de openai. No artigo Wthe WhisperX, mostramos que isso reduz o WER e permite inferência precisa em lote
--condition_on_prev_text é definido como False por padrão (reduz a alucinação)

Limitações ️

Transcreva palavras que não contenham caracteres no dicionário de modelos de alinhamento, por exemplo, "2014". ou "£ 13,60" não podem ser alinhados e, portanto, não recebem um prazo.
A fala sobreposta não é particularmente bem tratada pelo sussurro nem pelo sussurrox
A diarização está longe de ser perfeita
É necessário um modelo wav2vec2 específico do idioma

Contribuir ?‍?

Se você é multilíngue, uma forma importante de contribuir com este projeto é encontrar modelos de fonemas no huggingface (ou treinar o seu próprio) e testá-los na fala do idioma alvo. Se os resultados parecerem bons, envie uma solicitação pull e alguns exemplos mostrando seu sucesso.

A localização de bugs e solicitações pull também são muito apreciadas para manter este projeto em andamento, uma vez que ele já está divergindo do escopo original da pesquisa.

PENDÊNCIA ?

Contato/Suporte?

Contate [email protected] para dúvidas.

Agradecimentos

Este trabalho, e meu doutorado, são apoiados pelo VGG (Visual Geometry Group) e pela Universidade de Oxford.

Claro, isso se baseia no sussurro do openAI. Pega emprestado código de alinhamento importante do tutorial PyTorch sobre alinhamento forçado e usa o maravilhoso pyannote VAD / Diarization https://github.com/pyannote/pyannote-audio

Valiosos modelos de VAD e diarização de [pyannote audio][https://github.com/pyannote/pyannote-audio]

Ótimo back-end de sussurro mais rápido e CTranslate2

Aqueles que apoiaram este trabalho financeiramente

Por fim, obrigado aos contribuidores do sistema operacional deste projeto, por mantê-lo funcionando e identificando bugs.

Citação

Se você usar isso em sua pesquisa, cite o artigo:

 @article { bain2022whisperx ,
  title = { WhisperX: Time-Accurate Speech Transcription of Long-Form Audio } ,
  author = { Bain, Max and Huh, Jaesung and Han, Tengda and Zisserman, Andrew } ,
  journal = { INTERSPEECH 2023 } ,
  year = { 2023 }
}

Expandir

Informações adicionais

Versão 3.1.1
Tipo Outro código-fonte
Data da Última Atualização 2024-12-31
tamanho 161.14KB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos