ctc forced aligner 다운로드 - ctc forced aligner 기 소스 코드 다운로드

ctc forced aligner

기타 소스코드

v0.2

다운로드

포옹 얼굴 CTC 모델을 사용한 강제 정렬

커뮤니티에 대한 저의 기여에 감사한다면 github에서 프로젝트에 별표를 표시해 주세요(오른쪽 상단 참조).

이 Python 패키지는 Hugging Face의 사전 훈련된 모델을 사용하여 텍스트와 오디오 간의 강제 정렬을 수행하는 효율적인 방법을 제공합니다. 정확한 정렬을 위해 Wav2Vec2, HuBERT 및 MMS 모델의 기능을 활용하므로 음성 말뭉치를 생성하는 강력한 도구가 됩니다.

특징

최소 5배 적은 메모리 사용량: TorchAudio 강제 정렬 API보다 훨씬 적은 메모리를 사용하도록 구현이 개선되었습니다.
광범위한 언어 지원: 영어, 아랍어, 러시아어, 독일어 및 1126개 이상의 언어를 포함한 여러 언어로 작동합니다.
정렬 세분성의 유연성: 문장, 단어 또는 문자 수준 정렬 중에서 선택합니다.
사용자 정의 가능한 정렬 매개변수: <star> 토큰 삽입 빈도, 세그먼트 병합을 위한 병합 임계값 등을 제어합니다.
Hugging Face 모델과 통합: 정확한 정렬을 위해 사전 훈련된 Wav2Vec2, HuBERT 및 MMS 모델의 성능을 활용합니다.
GPU 가속: 더 빠른 추론을 위해 GPU를 활용합니다.
JSON 형식의 출력: 손쉬운 분석 및 통합을 위해 명확하고 구조화된 정렬 결과를 제공합니다.

설치

pip install git+https://github.com/MahmoudAshraf97/ctc-forced-aligner.git

용법

ctc-forced-aligner --audio_path " path/to/audio.wav " --text_path " path/to/text.txt " --language " eng " --romanize

터미널 사용법

인수

논쟁	설명	기본
`--audio_path`	오디오 파일 경로	필수의
`--text_path`	텍스트 파일의 경로	필수의
`--language`	ISO 639-3 코드의 언어	필수의
`--romanize`	기본 모델을 사용할 때 필요한 비라틴어 스크립트 또는 언어에 관계없이 다국어 모델에 대해 로마자 표기를 활성화합니다.	거짓
`--split_size`	정렬 세분성: "문장", "단어" 또는 "문자"	"단어"
`--star_frequency`	`<star>` 토큰의 빈도: "세그먼트" 또는 "가장자리"	"가장자리"
`--merge_threshold`	세그먼트 병합을 위한 병합 임계값	0.00
`--alignment_model`	정렬 모델의 이름	MahmoudAshraf/mms-300m-1130-forced-aligner
`--compute_dtype`	추론을 위한 dtype 계산	"플로트32"
`--batch_size`	추론을 위한 배치 크기	4
`--window_size`	오디오 청킹을 위한 창 크기(초)	30
`--context_size`	초 단위로 청크 간 겹침	2
`--attn_implementation`	주의 구현	"열렬한"
`--device`	추론에 사용할 장치: "cuda" 또는 "cpu"	사용 가능한 경우 "cuda", 그렇지 않으면 "cpu"

예

 # Align an English audio file with the text file
ctc-forced-aligner --audio_path " english_audio.wav " --text_path " english_text.txt " --language " eng " --romanize

# Align a Russian audio file with romanized text
ctc-forced-aligner --audio_path " russian_audio.wav " --text_path " russian_text.txt " --language " rus " --romanize

# Align on a sentence level
ctc-forced-aligner --audio_path " audio.wav " --text_path " text.txt " --language " eng " --split_size " sentence " --romanize

# Align using a model with native vocabulary
ctc-forced-aligner --audio_path " audio.wav " --text_path " text.txt " --language " ara " --alignment_model " jonatasgrosman/wav2vec2-large-xlsr-53-arabic "

파이썬 사용법

 import torch
from ctc_forced_aligner import (
    load_audio ,
    load_alignment_model ,
    generate_emissions ,
    preprocess_text ,
    get_alignments ,
    get_spans ,
    postprocess_results ,
)

audio_path = "your/audio/path"
text_path = "your/text/path"
language = "iso" # ISO-639-3 Language code
device = "cuda" if torch . cuda . is_available () else "cpu"
batch_size = 16


alignment_model , alignment_tokenizer = load_alignment_model (
    device ,
    dtype = torch . float16 if device == "cuda" else torch . float32 ,
)

audio_waveform = load_audio ( audio_path , alignment_model . dtype , alignment_model . device )


with open ( text_path , "r" ) as f :
    lines = f . readlines ()
text = "" . join ( line for line in lines ). replace ( " n " , " " ). strip ()

emissions , stride = generate_emissions (
    alignment_model , audio_waveform , batch_size = batch_size
)

tokens_starred , text_starred = preprocess_text (
    text ,
    romanize = True ,
    language = language ,
)

segments , scores , blank_token = get_alignments (
    emissions ,
    tokens_starred ,
    alignment_tokenizer ,
)

spans = get_spans ( tokens_starred , segments , blank_token )

word_timestamps = postprocess_results ( text_starred , spans , stride , scores )

산출

정렬 결과는 JSON 형식의 다음 정보가 포함된 파일에 저장됩니다.

text : 정렬된 텍스트입니다.
segments : 각각 해당 텍스트 세그먼트의 시작 및 종료 시간을 포함하는 세그먼트 목록입니다.

JSON

{
  "text" : " This is a sample text to be aligned with the audio. " ,
  "segments" : [
    {
      "start" : 0.000 ,
      "end" : 1.234 ,
      "text" : " This "
    },
    {
      "start" : 1.234 ,
      "end" : 2.567 ,
      "text" : " is "
    },
    {
      "start" : 2.567 ,
      "end" : 3.890 ,
      "text" : " a "
    },
    {
      "start" : 3.890 ,
      "end" : 5.213 ,
      "text" : " sample "
    },
    {
      "start" : 5.213 ,
      "end" : 6.536 ,
      "text" : " text "
    },
    {
      "start" : 6.536 ,
      "end" : 7.859 ,
      "text" : " to "
    },
    {
      "start" : 7.859 ,
      "end" : 9.182 ,
      "text" : " be "
    },
    {
      "start" : 9.182 ,
      "end" : 10.405 ,
      "text" : " aligned "
    },
    {
      "start" : 10.405 ,
      "end" : 11.728 ,
      "text" : " with "
    },
    {
      "start" : 11.728 ,
      "end" : 13.051 ,
      "text" : " the "
    },
    {
      "start" : 13.051 ,
      "end" : 14.374 ,
      "text" : " audio. "
    }
  ]
}