ดาวน์โหลด lhotse - ดาวน์โหลดซอร์สโค้ด lhotse

lhotse

ซอร์สโค้ดอื่น ๆ

v1.28.0 - Lurking Lizard

ดาวน์โหลด

lhotse

Lhotse เป็นไลบรารี Python ที่มีจุดประสงค์เพื่อให้การเตรียมข้อมูลคำพูดและเสียงมีความยืดหยุ่นและสามารถเข้าถึงได้สำหรับชุมชนที่กว้างขึ้น ข้าง K2 มันเป็นส่วนหนึ่งของห้องสมุดการประมวลผลคำพูด Kaldi รุ่นต่อไป

การนำเสนอและวัสดุการสอน

( Interspeech 2023 ) สมุดบันทึกการสอน
( Interspeech 2023 ) สไลด์บทช่วยสอน
( Interspeech 2021 ) บันทึกการบรรยาย (3H)

เกี่ยวกับ

เป้าหมายหลัก

ดึงดูดชุมชนที่กว้างขึ้นไปสู่งานการประมวลผลการพูดด้วย การออกแบบที่เน้นงูหลามเป็นศูนย์กลาง
รองรับผู้ใช้ Kaldi ที่มีประสบการณ์ด้วย อินเทอร์เฟซบรรทัดคำสั่งที่แสดงออก
จัดเตรียม สูตรการเตรียมข้อมูลมาตรฐาน สำหรับ corpora ที่ใช้กันทั่วไป
จัดเตรียม คลาสชุดข้อมูล Pytorch สำหรับงานที่เกี่ยวข้องกับการพูดและเสียง
การเตรียมข้อมูลที่ยืดหยุ่นสำหรับการฝึกอบรมแบบจำลองด้วยแนวคิดของ การตัดเสียง
ประสิทธิภาพ โดยเฉพาะอย่างยิ่งในแง่ของแบนด์วิดท์ I/O และความจุในการจัดเก็บ

บทเรียน

ขณะนี้เรามีบทเรียนต่อไปนี้ในไดเรกทอรี examples :

ขั้นตอนการทำงานของ LHOTSE ขั้นพื้นฐาน
การแปลงข้อมูลด้วยการตัด
การรวม WebDataset
วิธีรวมชุดข้อมูลหลายชุด
lhotse Shar: รูปแบบการจัดเก็บที่ดีที่สุดสำหรับ I/O ตามลำดับและ modularity

ตัวอย่างการใช้งาน

ตรวจสอบลิงค์ต่อไปนี้เพื่อดูว่า Lhotse ใช้งานอย่างไร:

สูตร Icefall: ที่ K2 และ Lhotse พบกัน
ตัวอย่าง ESPNET+LHOTSE น้อยที่สุด:

ไอเดียหลัก

เช่นเดียวกับ Kaldi, Lhotse ให้บริการสูตรการเตรียมข้อมูลมาตรฐาน แต่ขยายออกไปด้วยการรวม Pytorch ที่ไร้รอยต่อผ่านคลาสชุดข้อมูลเฉพาะงาน ข้อมูลและเมตาดาต้าจะแสดงในข้อความที่มนุษย์อ่านได้ปรากฏขึ้นและสัมผัสกับผู้ใช้ผ่านคลาส Python ที่สะดวก

Lhotse แนะนำแนวคิดของการตัดเสียงที่ออกแบบมาเพื่อบรรเทาการสร้างข้อมูลการฝึกอบรมด้วยการดำเนินงานเช่นการผสมการตัดทอนและการขยายที่ดำเนินการทันทีเพื่อลดปริมาณการจัดเก็บที่ต้องการ การเพิ่มข้อมูลและการแยกฟีเจอร์ได้รับการสนับสนุนทั้งในโหมดที่คำนวณล่วงหน้าพร้อมเมทริกซ์คุณสมบัติที่มีการบีบอัดสูงที่เก็บไว้ในดิสก์และโหมด on-the-fly ที่คำนวณการแปลงตามคำขอ นอกจากนี้ LHOTSE ยังแนะนำการผสมพื้นที่คุณสมบัติเพื่อให้ดีที่สุดในโลกทั้งสอง

การติดตั้ง

Lhotse รองรับ Python เวอร์ชัน 3.7 และใหม่กว่า

ปิ๊ก

LHOTSE มีอยู่ใน PYPI:

 pip install lhotse

หากต้องการติดตั้งเวอร์ชันล่าสุดที่ยังไม่เผยแพร่ทำ:

 pip install git+https://github.com/lhotse-speech/lhotse

การติดตั้งการพัฒนา

สำหรับการติดตั้งการพัฒนาคุณสามารถแยก/โคลน GitHub repo และติดตั้งด้วย PIP:

 git clone https://github.com/lhotse-speech/lhotse
cd lhotse
pip install -e '.[dev]'
pre-commit install  # installs pre-commit hooks with style checks

# Running unit tests
pytest test

# Running linter checks
pre-commit run

นี่คือการติดตั้งที่แก้ไขได้ ( -e ตัวเลือก) ซึ่งหมายความว่าการเปลี่ยนแปลงของคุณไปยังซอร์สโค้ดจะสะท้อนให้เห็นโดยอัตโนมัติเมื่อนำเข้า LHOTSE (ไม่จำเป็นต้องติดตั้งใหม่) ส่วน [dev] หมายถึงคุณกำลังติดตั้งการพึ่งพาพิเศษที่ใช้ในการเรียกใช้การทดสอบสร้างเอกสารหรือเปิดตัวโน้ตบุ๊ก Jupyter

ตัวแปรสภาพแวดล้อม

Lhotse ใช้ตัวแปรสภาพแวดล้อมหลายตัวเพื่อปรับแต่งพฤติกรรมของมัน พวกเขามีดังนี้:

LHOTSE_REQUIRE_TORCHAUDIO - เมื่อมีการตั้งค่าและไม่ใช่ 1|True|true|yes เราจะไม่ตรวจสอบ TORCHAUDIO ที่ติดตั้งและลบออกจากข้อกำหนด มันจะปิดการใช้งานฟังก์ชั่นจำนวนมากของ lhotse แต่ความสามารถพื้นฐานจะยังคงอยู่ (รวมถึงการอ่านเสียงด้วย soundfile )
LHOTSE_AUDIO_DURATION_MISMATCH_TOLERANCE - ใช้เมื่อเราโหลดเสียงจากไฟล์และรับตัวอย่างจำนวนที่แตกต่างจากที่ประกาศใน Recording.num_samples NUM_SAMPLES บางครั้งสิ่งนี้จำเป็นเนื่องจากตัวแปลงสัญญาณที่แตกต่างกัน (หรือแม้แต่ตัวแปลงสัญญาณเดียวกันเวอร์ชันที่แตกต่างกัน) อาจใช้ช่องว่างที่แตกต่างกันเมื่อถอดรหัสเสียงที่ถูกบีบอัด โดยทั่วไปแล้วจะมีค่าสูงถึง 0.1 หรือ 0.3 (วินาที) ยังคงสมเหตุสมผลและสิ่งใดก็ตามที่ระบุว่าเป็นปัญหาร้ายแรง
LHOTSE_AUDIO_BACKEND อาจถูกตั้งค่าเป็นค่าใด ๆ ที่ส่งคืนจาก CLI lhotse list-audio-backends เพื่อแทนที่พฤติกรรมเริ่มต้นของการทดลองใช้และข้อผิดพลาดและใช้แบ็กเอนด์เสียงเฉพาะเสมอ
LHOTSE_AUDIO_LOADING_EXCEPTION_VERBOSE - เมื่อตั้งค่าเป็น 1 เราจะปล่อยร่องรอยสแต็กข้อยกเว้นเต็มรูปแบบเมื่อแบ็กเอนด์เสียงที่มีอยู่ทุกครั้งไม่สามารถโหลดไฟล์ที่กำหนดได้ (อาจมีขนาดใหญ่มาก)
LHOTSE_DILL_ENABLED - เมื่อตั้งค่าเป็น 1|True|true|yes เราจะเปิดใช้งาน serialization ตาม dill ของ CutSet และ Sampler ข้ามกระบวนการ (มันปิดใช้งานโดยค่าเริ่มต้นแม้ว่าจะติดตั้ง dill )
LHOTSE_LEGACY_OPUS_LOADING - ( =1 ) เปลี่ยนเป็นกลไกการโหลดแบบดั้งเดิมที่เรียกใช้กระบวนการย่อย FFMPEG ใหม่สำหรับแต่ละไฟล์ OPUS
LHOTSE_PREPARING_RELEASE - ใช้ภายในโดยนักพัฒนาเมื่อปล่อย Lhotse เวอร์ชันใหม่
TORCHAUDIO_USE_BACKEND_DISPATCHER - เมื่อตั้งค่าเป็น 1 และเวอร์ชัน Torchaudio ต่ำกว่า 2.1 เราจะเปิดใช้งานแบ็กเอนด์ FFMPEG ทดลองของ Torchaudio
AIS_ENDPOINT ถูกอ่านโดยไคลเอนต์ AISTORE เพื่อกำหนด URL ปลายทาง AISTORE จำเป็นสำหรับ Aistore Dataloading
RANK , WORLD_SIZE , WORKER และ NUM_WORKERS ถูกนำมาใช้ภายในเพื่อแจ้งการประมวลผล subprocesses dataloading lhotse Shar
READTHEDOCS ใช้สำหรับการสร้างเอกสาร

การพึ่งพาตัวเลือก

แพ็คเกจ PIP อื่น ๆ คุณสามารถใช้ประโยชน์จากคุณสมบัติเสริมของ LHOTSE โดยการติดตั้งแพ็คเกจสนับสนุนที่เกี่ยวข้อง:

torchaudio เคยเป็นการพึ่งพาหลักใน Lhotse แต่ตอนนี้เป็นทางเลือก อ้างถึงเอกสาร Pytorch อย่างเป็นทางการสำหรับการติดตั้ง
pip install lhotse[kaldi] สำหรับชุดคุณสมบัติสูงสุดที่เกี่ยวข้องกับความเข้ากันได้ของ Kaldi มันรวมถึงห้องสมุดเช่น kaldi_native_io (ตัวแปรที่มีประสิทธิภาพมากขึ้นของ kaldi_io ) และ kaldifeat ที่พอร์ตฟังก์ชันการทำงานของ kaldi บางอย่างลงใน Python
pip install lhotse[orjson] สำหรับการอ่าน JSONL ที่เร็วขึ้นถึง 50%
pip install lhotse[webdataset] เราสนับสนุน "รวบรวม" ข้อมูลของคุณในรูปแบบ webDataset tarball เพื่อ IO ที่มีประสิทธิภาพมากขึ้น คุณยังสามารถโต้ตอบกับข้อมูลราวกับว่ามันเป็น cutset ขี้เกียจปกติ หากต้องการเรียนรู้เพิ่มเติมลองดูบทช่วยสอนต่อไปนี้:
pip install h5py หากคุณต้องการดึงคุณสมบัติการพูดและเก็บไว้เป็นอาร์เรย์ HDF5
pip install dill เมื่อติดตั้ง dill เราจะใช้มันกับดอง cutset ที่ใช้ฟังก์ชั่นแลมบ์ดาในการโทรเช่น .map หรือ .filter สิ่งนี้มีประโยชน์ใน Pytorch Dataloader ด้วย num_jobs>0 หากไม่มี dill ขึ้นอยู่กับสภาพแวดล้อมของคุณคุณจะเห็นข้อยกเว้นหรือสคริปต์ที่แขวนอยู่
pip install aistore เพื่ออ่าน manifests, tar fles และข้อมูลอื่น ๆ จาก Aistore โดยใช้ URL ที่รองรับ Aistore (ตั้งค่าตัวแปรสภาพแวดล้อม AIS_ENDPOINT เพื่อเปิดใช้งาน) ดูเอกสาร Aistore สำหรับรายละเอียดเพิ่มเติม
pip install smart_open เพื่ออ่านและเขียนข้อมูลและข้อมูลในสถานที่ใด ๆ ที่สนับสนุนโดย smart_open (เช่นคลาวด์, http)
pip install opensmile สำหรับการแยกคุณสมบัติโดยใช้ wrapper python ของ opensmile toolkit

SPH2Pipe สำหรับการอ่านไฟล์เสียง LDC Sphere เก่า (.sph) ที่ถูกบีบอัดด้วยตัวแปลงสัญญาณที่ไม่ได้รับการสนับสนุนโดย FFMPEG และ SOX โปรดเรียกใช้:

 # CLI
lhotse install-sph2pipe

# Python
from lhotse.tools import install_sph2pipe
install_sph2pipe()

มันจะดาวน์โหลดไปยัง ~/.lhotse/tools รวบรวมและลงทะเบียนอัตโนมัติใน PATH โปรแกรมควรตรวจพบและใช้งานโดย LHOTSE โดยอัตโนมัติ

ตัวอย่าง

เรามีตัวอย่างสูตรที่แสดงวิธีการเตรียมข้อมูลและโหลดใน Python เป็น Dataset Pytorch พวกเขาอยู่ในไดเรกทอรี examples

ตัวอย่างสั้น ๆ เพื่อแสดงว่า LHOTSE สามารถทำให้การเตรียมข้อมูลเสียงได้อย่างรวดเร็วและรวดเร็ว:

 from torch . utils . data import DataLoader
from lhotse import CutSet , Fbank
from lhotse . dataset import VadDataset , SimpleCutSampler
from lhotse . recipes import prepare_switchboard

# Prepare data manifests from a raw corpus distribution.
# The RecordingSet describes the metadata about audio recordings;
# the sampling rate, number of channels, duration, etc.
# The SupervisionSet describes metadata about supervision segments:
# the transcript, speaker, language, and so on.
swbd = prepare_switchboard ( '/export/corpora3/LDC/LDC97S62' )

# CutSet is the workhorse of Lhotse, allowing for flexible data manipulation.
# We create 5-second cuts by traversing SWBD recordings in windows.
# No audio data is actually loaded into memory or stored to disk at this point.
cuts = CutSet . from_manifests (
    recordings = swbd [ 'recordings' ],
    supervisions = swbd [ 'supervisions' ]
). cut_into_windows ( duration = 5 )

# We compute the log-Mel filter energies and store them on disk;
# Then, we pad the cuts to 5 seconds to ensure all cuts are of equal length,
# as the last window in each recording might have a shorter duration.
# The padding will be performed once the features are loaded into memory.
cuts = cuts . compute_and_store_features (
    extractor = Fbank (),
    storage_path = 'feats' ,
    num_jobs = 8
). pad ( duration = 5.0 )

# Construct a Pytorch Dataset class for Voice Activity Detection task:
dataset = VadDataset ()
sampler = SimpleCutSampler ( cuts , max_duration = 300 )
dataloader = DataLoader ( dataset , sampler = sampler , batch_size = None )
batch = next ( iter ( dataloader ))

VadDataset จะให้แบตช์ที่มีคู่ของคุณสมบัติและเทนเซอร์การกำกับดูแลเช่นต่อไปนี้ - คำพูดเริ่มประมาณในวินาทีแรก (100 เฟรม):

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v1.28.0 - Lurking Lizard
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-27
ขนาด 13.85MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
MySchedule.py

ซอร์สโค้ดอื่น ๆ

Updates to the fetching of week codes
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด