ctc forced aligner Télécharger - ctc forced aligner du code source

ctc forced aligner

Autre code source

v0.2

Télécharger

Alignement forcé avec les modèles CTC Hugging Face

S'il vous plaît, mettez le projet en vedette sur github (voir le coin en haut à droite) si vous appréciez ma contribution à la communauté !

Ce package Python fournit un moyen efficace d'effectuer un alignement forcé entre le texte et l'audio à l'aide des modèles pré-entraînés de Hugging Face. Il exploite la puissance des modèles Wav2Vec2, HuBERT et MMS pour un alignement précis, ce qui en fait un outil puissant pour créer des corpus vocaux.

Caractéristiques

Utilisation de mémoire au moins 5 fois inférieure : implémentation améliorée pour utiliser beaucoup moins de mémoire que l'API d'alignement forcé de TorchAudio.
Large gamme de langues prises en charge : fonctionne avec plusieurs langues, dont l'anglais, l'arabe, le russe, l'allemand et 1 126 autres langues.
Flexibilité dans la granularité de l'alignement : choisissez entre l'alignement au niveau d'une phrase, d'un mot ou d'un caractère.
Paramètres d'alignement personnalisables : contrôlez la fréquence d'insertion du jeton <star> , le seuil de fusion pour la fusion de segments, et bien plus encore.
Intégration avec les modèles de Hugging Face : exploitez la puissance des modèles Wav2Vec2, HuBERT et MMS pré-entraînés pour un alignement précis.
Accélération GPU : utilisez votre GPU pour une inférence plus rapide.
Sortie au format JSON : fournit des résultats d'alignement clairs et structurés pour une analyse et une intégration faciles.

Installation

pip install git+https://github.com/MahmoudAshraf97/ctc-forced-aligner.git

Usage

ctc-forced-aligner --audio_path " path/to/audio.wav " --text_path " path/to/text.txt " --language " eng " --romanize

Utilisation des terminaux

Arguments

Argument	Description	Défaut
`--audio_path`	Chemin d'accès au fichier audio	Requis
`--text_path`	Chemin d'accès au fichier texte	Requis
`--language`	Langue dans le code ISO 639-3	Requis
`--romanize`	Activer la romanisation pour les écritures non latines ou pour les modèles multilingues quelle que soit la langue, requise lors de l'utilisation du modèle par défaut	FAUX
`--split_size`	Granularité d'alignement : "phrase", "mot" ou "char"	"mot"
`--star_frequency`	Fréquence du jeton `<star>` : "segment" ou "edges"	"bords"
`--merge_threshold`	Seuil de fusion pour la fusion de segments	0,00
`--alignment_model`	Nom du modèle d'alignement	MahmoudAshraf/mms-300m-1130-alignement-force
`--compute_dtype`	Calculer le type pour l'inférence	"float32"
`--batch_size`	Taille du lot pour l'inférence	4
`--window_size`	Taille de la fenêtre en secondes pour le découpage audio	30
`--context_size`	Chevauchement entre les morceaux en quelques secondes	2
`--attn_implementation`	Attention mise en œuvre	"désireux"
`--device`	Appareil à utiliser pour l'inférence : "cuda" ou "cpu"	"cuda" si disponible, sinon "cpu"

Exemples

 # Align an English audio file with the text file
ctc-forced-aligner --audio_path " english_audio.wav " --text_path " english_text.txt " --language " eng " --romanize

# Align a Russian audio file with romanized text
ctc-forced-aligner --audio_path " russian_audio.wav " --text_path " russian_text.txt " --language " rus " --romanize

# Align on a sentence level
ctc-forced-aligner --audio_path " audio.wav " --text_path " text.txt " --language " eng " --split_size " sentence " --romanize

# Align using a model with native vocabulary
ctc-forced-aligner --audio_path " audio.wav " --text_path " text.txt " --language " ara " --alignment_model " jonatasgrosman/wav2vec2-large-xlsr-53-arabic "

Utilisation de Python

 import torch
from ctc_forced_aligner import (
    load_audio ,
    load_alignment_model ,
    generate_emissions ,
    preprocess_text ,
    get_alignments ,
    get_spans ,
    postprocess_results ,
)

audio_path = "your/audio/path"
text_path = "your/text/path"
language = "iso" # ISO-639-3 Language code
device = "cuda" if torch . cuda . is_available () else "cpu"
batch_size = 16


alignment_model , alignment_tokenizer = load_alignment_model (
    device ,
    dtype = torch . float16 if device == "cuda" else torch . float32 ,
)

audio_waveform = load_audio ( audio_path , alignment_model . dtype , alignment_model . device )


with open ( text_path , "r" ) as f :
    lines = f . readlines ()
text = "" . join ( line for line in lines ). replace ( " n " , " " ). strip ()

emissions , stride = generate_emissions (
    alignment_model , audio_waveform , batch_size = batch_size
)

tokens_starred , text_starred = preprocess_text (
    text ,
    romanize = True ,
    language = language ,
)

segments , scores , blank_token = get_alignments (
    emissions ,
    tokens_starred ,
    alignment_tokenizer ,
)

spans = get_spans ( tokens_starred , segments , blank_token )

word_timestamps = postprocess_results ( text_starred , spans , stride , scores )

Sortir

Les résultats de l'alignement seront enregistrés dans un fichier contenant les informations suivantes au format JSON :

text : Le texte aligné.
segments : une liste de segments, chacun contenant l'heure de début et de fin du segment de texte correspondant.

JSON

{
  "text" : " This is a sample text to be aligned with the audio. " ,
  "segments" : [
    {
      "start" : 0.000 ,
      "end" : 1.234 ,
      "text" : " This "
    },
    {
      "start" : 1.234 ,
      "end" : 2.567 ,
      "text" : " is "
    },
    {
      "start" : 2.567 ,
      "end" : 3.890 ,
      "text" : " a "
    },
    {
      "start" : 3.890 ,
      "end" : 5.213 ,
      "text" : " sample "
    },
    {
      "start" : 5.213 ,
      "end" : 6.536 ,
      "text" : " text "
    },
    {
      "start" : 6.536 ,
      "end" : 7.859 ,
      "text" : " to "
    },
    {
      "start" : 7.859 ,
      "end" : 9.182 ,
      "text" : " be "
    },
    {
      "start" : 9.182 ,
      "end" : 10.405 ,
      "text" : " aligned "
    },
    {
      "start" : 10.405 ,
      "end" : 11.728 ,
      "text" : " with "
    },
    {
      "start" : 11.728 ,
      "end" : 13.051 ,
      "text" : " the "
    },
    {
      "start" : 13.051 ,
      "end" : 14.374 ,
      "text" : " audio. "
    }
  ]
}

Contribuer

Les contributions sont les bienvenues ! N'hésitez pas à ouvrir un problème ou à soumettre une pull request.

Licence

Ce projet est sous licence BSD, notez que le modèle par défaut a la licence CC-BY-NC 4.0, alors assurez-vous d'utiliser un modèle différent pour un usage commercial.