ดาวน์โหลด whisperX - ดาวน์โหลด whisperX ซอร์สโค้ด

whisperX

ซอร์สโค้ดอื่น ๆ

3.1.1

ดาวน์โหลด

วิสเปอร์เอ็กซ์

กระซิบx-โค้ง

พื้นที่เก็บข้อมูลนี้ให้การรู้จำคำพูดอัตโนมัติที่รวดเร็ว (เรียลไทม์ 70x พร้อม large-v2) พร้อมการประทับเวลาระดับคำและการแยกเสียงของผู้พูด

⚡️ การอนุมานแบบกลุ่มสำหรับการถอดความแบบเรียลไทม์ 70x โดยใช้ Whisper Large-v2
- แบ็กเอนด์กระซิบเร็วขึ้น ต้องใช้หน่วยความจำ gpu <8GB สำหรับ large-v2 พร้อม beam_size=5
การประทับเวลาระดับคำที่แม่นยำโดยใช้การจัดตำแหน่ง wav2vec2
‍♂️ ASR ของลำโพงหลายตัวโดยใช้การแยกเสียงของลำโพงจาก pyannote-audio (ป้ายกำกับรหัสลำโพง)
การประมวลผลล่วงหน้าของ VAD ลดอาการประสาทหลอนและการแบทช์โดยไม่ทำให้ WER ลดลง

Whisper เป็นโมเดล ASR ที่พัฒนาโดย OpenAI ซึ่งได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่มีเสียงที่หลากหลาย แม้ว่าจะสร้างการถอดเสียงที่มีความแม่นยำสูง แต่การประทับเวลาที่สอดคล้องกันจะอยู่ที่ระดับคำพูด ไม่ใช่ต่อคำ และอาจคลาดเคลื่อนได้หลายวินาที เสียงกระซิบของ OpenAI ไม่รองรับการแบทช์

Phoneme-Based ASR ชุดแบบจำลองที่ได้รับการปรับแต่งให้จดจำหน่วยคำพูดที่เล็กที่สุดเพื่อแยกแยะคำหนึ่งจากอีกคำหนึ่ง เช่น องค์ประกอบ p ใน "แตะ" โมเดลตัวอย่างยอดนิยมคือ wav2vec2.0

Forced Alignment หมายถึงกระบวนการที่การถอดเสียงแบบออโธกราฟิกสอดคล้องกับการบันทึกเสียงเพื่อสร้างการแบ่งส่วนระดับโทรศัพท์โดยอัตโนมัติ

Voice Activity Detection (VAD) คือการตรวจหาการมีอยู่หรือไม่มีคำพูดของมนุษย์

การแยกเสียงของผู้พูด เป็นกระบวนการแบ่งพาร์ติชันสตรีมเสียงที่มีคำพูดของมนุษย์ออกเป็นส่วนที่เป็นเนื้อเดียวกันตามเอกลักษณ์ของผู้พูดแต่ละคน

ใหม่

อันดับที่ 1 ในการแข่งขันถอดความ Ego4d ?
WhisperX ได้รับการยอมรับที่ INTERSPEECH 2023
ส่วนการถอดเสียง v3 ต่อประโยค: ใช้ nltk send_tokenize เพื่อคำบรรยายที่ดีขึ้นและการแยกส่วนที่ดีขึ้น
เปิดตัว v3, โอเพ่นซอร์สเร่งความเร็ว 70x การใช้เสียงกระซิบแบบแบตช์กับแบ็กเอนด์ที่กระซิบเร็วขึ้น!
เปิดตัว v2, การล้างโค้ด, การนำเข้าไลบรารีกระซิบ การกรอง VAD ตอนนี้เปิดอยู่ตามค่าเริ่มต้น เช่นเดียวกับในรายงาน
กระดาษหล่น??‍?! โปรดดูการพิมพ์ล่วงหน้า ArxiV ของเราสำหรับการวัดประสิทธิภาพและรายละเอียดของ WhisperX นอกจากนี้เรายังแนะนำการอนุมานแบบแบตช์ที่มีประสิทธิภาพมากขึ้น ซึ่งส่งผลให้ large-v2 มีความเร็ว *60-70x REAL TIME

ตั้งค่า

ทดสอบแล้วสำหรับ PyTorch 2.0, Python 3.10 (ใช้เวอร์ชันอื่นด้วยความเสี่ยงของคุณเอง!)

การทำงานของ GPU จำเป็นต้องติดตั้งไลบรารี NVIDIA cuBLAS 11.x และ cuDNN 8.x บนระบบ โปรดดูเอกสารประกอบของ CTranslate2

1. สร้างสภาพแวดล้อม Python3.10

conda create --name whisperx python=3.10

conda activate whisperx

2. ติดตั้ง PyTorch เช่น Linux และ Windows CUDA11.8:

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

ดูวิธีอื่นๆ ที่นี่

3. ติดตั้ง repo นี้

pip install git+https://github.com/m-bain/whisperx.git

หากติดตั้งแล้ว ให้อัพเดตแพ็คเกจเป็นคอมมิตล่าสุด

pip install git+https://github.com/m-bain/whisperx.git --upgrade

หากต้องการแก้ไขแพ็คเกจนี้ ให้โคลนและติดตั้งในโหมดแก้ไขได้:

 $ git clone https://github.com/m-bain/whisperX.git
$ cd whisperX
$ pip install -e .

คุณอาจต้องติดตั้ง ffmpeg, สนิม ฯลฯ ทำตามคำแนะนำของ openAI ที่นี่ https://github.com/openai/whisper#setup

การแยกเสียงของลำโพง

หากต้องการ เปิดใช้งาน Speaker Diarization ให้รวมโทเค็นการเข้าถึง Hugging Face ของคุณ (อ่าน) ที่คุณสามารถสร้างได้จากที่นี่ หลังจากอาร์กิวเมนต์ --hf_token และยอมรับข้อตกลงผู้ใช้สำหรับรุ่นต่อไปนี้: Segmentation และ Speaker-Diarization-3.1 (หากคุณเลือกใช้ Speaker -Diarization 2.x ปฏิบัติตามข้อกำหนดที่นี่แทน)

บันทึก
ณ วันที่ 11 ต.ค. 2023 เกิดปัญหาที่ทราบเกี่ยวกับประสิทธิภาพที่ช้าของ pyannote/Speaker-Diarization-3.0 ใน WhisperX เนื่องจากมีความขัดแย้งในการพึ่งพาระหว่าง Fast-whisper และ pyannote-audio 3.0.0 โปรดดูปัญหานี้สำหรับรายละเอียดเพิ่มเติมและวิธีแก้ปัญหาที่เป็นไปได้

การใช้งาน (บรรทัดคำสั่ง)

ภาษาอังกฤษ

เรียกใช้กระซิบในส่วนตัวอย่าง (โดยใช้พารามิเตอร์เริ่มต้น กระซิบขนาดเล็ก) เพิ่ม --highlight_words True เพื่อแสดงภาพการกำหนดเวลาของคำในไฟล์ .srt

 whisperx examples/sample01.wav

ผลลัพธ์โดยใช้ WhisperX โดยบังคับให้จัดตำแหน่งเป็น wav2vec2.0 ใหญ่:

ตัวอย่าง01.mp4

เปรียบเทียบสิ่งนี้กับเสียงกระซิบต้นฉบับ ซึ่งการถอดเสียงหลายรายการไม่ตรงกัน:

ตัวอย่าง_whisper_og.mov

เพื่อความแม่นยำในการประทับเวลาที่เพิ่มขึ้น โดยมีค่าใช้จ่าย GPU Mem ที่สูงขึ้น ให้ใช้โมเดลที่ใหญ่กว่า (พบว่าโมเดลการจัดตำแหน่งที่ใหญ่กว่านั้นไม่มีประโยชน์ ดูกระดาษ) เช่น

 whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

หากต้องการติดป้ายกำกับการถอดเสียงด้วยรหัสผู้พูด (กำหนดจำนวนผู้พูดหากทราบ เช่น --min_speakers 2 --max_speakers 2 ):

 whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True

หากต้องการทำงานบน CPU แทน GPU (และสำหรับการทำงานบน Mac OS X):

 whisperx examples/sample01.wav --compute_type int8

ภาษาอื่นๆ

โมเดลการจัดตำแหน่ง ASR ของฟอนิมเป็น แบบเฉพาะภาษา สำหรับภาษาที่ทดสอบ โมเดลเหล่านี้จะถูกเลือกโดยอัตโนมัติจากท่อส่งเสียงคบเพลิงหรือหน้ากอด เพียงส่งรหัส --language และใช้เสียงกระซิบ --model large

โมเดลเริ่มต้นในปัจจุบันมีให้สำหรับ {en, fr, de, es, it, ja, zh, nl, uk, pt} หากภาษาที่ตรวจพบไม่อยู่ในรายการนี้ คุณจะต้องค้นหาโมเดล ASR ที่ใช้ฟอนิมจากฮับโมเดล Huggingface และทดสอบกับข้อมูลของคุณ

เช่น เยอรมัน

 whisperx --model large-v2 --language de examples/sample_de_01.wav

ตัวอย่าง_de_01_vis.mov

ดูตัวอย่างเพิ่มเติมในภาษาอื่นๆ ที่นี่

การใช้งานหลาม ?

 import whisperx
import gc 

device = "cuda" 
audio_file = "audio.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx . load_model ( "large-v2" , device , compute_type = compute_type )

# save model to local path (optional)
# model_dir = "/path/"
# model = whisperx.load_model("large-v2", device, compute_type=compute_type, download_root=model_dir)

audio = whisperx . load_audio ( audio_file )
result = model . transcribe ( audio , batch_size = batch_size )
print ( result [ "segments" ]) # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a , metadata = whisperx . load_align_model ( language_code = result [ "language" ], device = device )
result = whisperx . align ( result [ "segments" ], model_a , metadata , audio , device , return_char_alignments = False )

print ( result [ "segments" ]) # after alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. Assign speaker labels
diarize_model = whisperx . DiarizationPipeline ( use_auth_token = YOUR_HF_TOKEN , device = device )

# add min/max number of speakers if known
diarize_segments = diarize_model ( audio )
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx . assign_word_speakers ( diarize_segments , result )
print ( diarize_segments )
print ( result [ "segments" ]) # segments are now assigned speaker IDs

การสาธิต

หากคุณไม่สามารถเข้าถึง GPU ของคุณเองได้ ให้ใช้ลิงก์ด้านบนเพื่อทดลองใช้ WhisperX

รายละเอียดทางเทคนิค

สำหรับรายละเอียดเฉพาะเกี่ยวกับการจัดชุดและการจัดตำแหน่ง ผลกระทบของ VAD รวมถึงโมเดลการจัดตำแหน่งที่เลือก โปรดดูกระดาษที่พิมพ์ล่วงหน้า

หากต้องการลดความต้องการหน่วยความจำ GPU ให้ลองทำสิ่งใดสิ่งหนึ่งต่อไปนี้ (2. และ 3. อาจส่งผลต่อคุณภาพ):

ลดขนาดแบทช์ เช่น --batch_size 4
ใช้โมเดล ASR ที่เล็กกว่า --model base
ใช้ประเภทการประมวลผลที่เบากว่า --compute_type int8

ความแตกต่างในการถอดความจากเสียงกระซิบของ openai:

การถอดเสียงโดยไม่มีการประทับเวลา หากต้องการเปิดใช้งานการส่งต่อแบบครั้งเดียว จะมีการอนุมานแบบกระซิบ --without_timestamps True ซึ่งจะทำให้มั่นใจได้ว่าจะมีการส่งต่อ 1 ครั้งต่อตัวอย่างในชุดงาน อย่างไรก็ตาม สิ่งนี้อาจทำให้เกิดความคลาดเคลื่อนกับเอาต์พุตเสียงกระซิบเริ่มต้น
การถอดความตามเซ็กเมนต์ตาม VAD ซึ่งแตกต่างจากการถอดความแบบบัฟเฟอร์ของ openai ในเอกสาร Wthe WhisperX เราแสดงให้เห็นว่าสิ่งนี้ช่วยลด WER และเปิดใช้งานการอนุมานแบบแบตช์ที่แม่นยำ
--condition_on_prev_text ถูกตั้งค่าเป็น False ตามค่าเริ่มต้น (ลดอาการประสาทหลอน)

ข้อจำกัด

คำที่ถอดเสียงซึ่งไม่มีอักขระในพจนานุกรมโมเดลการจัดตำแหน่ง เช่น "2014" หรือ "13.60 ปอนด์" ไม่สามารถจัดตำแหน่งได้ ดังนั้นจึงไม่ได้รับการกำหนดเวลา
คำพูดที่ทับซ้อนกันไม่ได้รับการจัดการอย่างดีเป็นพิเศษด้วยเสียงกระซิบหรือเสียงกระซิบx
การทำ Diariization ยังห่างไกลจากความสมบูรณ์แบบ
จำเป็นต้องมีโมเดล wav2vec2 เฉพาะภาษา

มีส่วนช่วย?

หากคุณพูดได้หลายภาษา วิธีสำคัญที่คุณสามารถมีส่วนร่วมในโปรเจ็กต์นี้คือการค้นหาแบบจำลองหน่วยเสียงบนหน้ากอด (หรือฝึกฝนของคุณเอง) และทดสอบคำพูดสำหรับภาษาเป้าหมาย หากผลลัพธ์ดูดี ให้ส่งคำขอดึงและตัวอย่างบางส่วนที่แสดงถึงความสำเร็จ

การค้นหาจุดบกพร่องและคำขอดึงข้อมูลยังได้รับการชื่นชมอย่างมากเพื่อให้โครงการนี้ดำเนินต่อไปได้ เนื่องจากโครงการนี้แตกต่างจากขอบเขตการวิจัยเดิมอยู่แล้ว

สิ่งที่ต้องทำ ?

ติดต่อ/สนับสนุน ?

ติดต่อ [email protected] เพื่อสอบถามข้อมูล

รับทราบ

งานนี้และปริญญาเอกของฉันได้รับการสนับสนุนจาก VGG (Visual Geometry Group) และมหาวิทยาลัยออกซ์ฟอร์ด

แน่นอนว่าสิ่งนี้สร้างขึ้นจากเสียงกระซิบของ openAI ยืมรหัสการจัดตำแหน่งที่สำคัญจากบทช่วยสอนของ PyTorch เกี่ยวกับการจัดตำแหน่งแบบบังคับ และใช้ pyannote VAD / Diarization ที่ยอดเยี่ยม https://github.com/pyannote/pyannote-audio

โมเดล VAD และ Diarization ที่มีคุณค่าจาก [pyannote audio] [https://github.com/pyannote/pyannote-audio]

แบ็กเอนด์ที่ยอดเยี่ยมจาก faster-whisper และ CTranslate2

ผู้ที่สนับสนุนงานนี้ทางการเงิน

สุดท้ายนี้ ขอขอบคุณผู้ร่วมสนับสนุน OS ของโปรเจ็กต์นี้ที่ทำให้โครงการดำเนินต่อไปและระบุจุดบกพร่อง

การอ้างอิง

หากคุณใช้สิ่งนี้ในการวิจัยของคุณ โปรดอ้างอิงบทความ:

 @article { bain2022whisperx ,
  title = { WhisperX: Time-Accurate Speech Transcription of Long-Form Audio } ,
  author = { Bain, Max and Huh, Jaesung and Han, Tengda and Zisserman, Andrew } ,
  journal = { INTERSPEECH 2023 } ,
  year = { 2023 }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 3.1.1
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-31
ขนาด 161.14KB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด