ดาวน์โหลด ScriptsForVoxBlink2 - ดาวน์โหลดซอร์สโค้ด ScriptsForVoxBlink2

ScriptsForVoxBlink2

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

ชุดข้อมูล VoxBlink2

ชุดข้อมูล VoxBlink2 เป็นชุดข้อมูลการจดจำผู้พูดขนาดใหญ่ที่มีลำโพงมากกว่า 100,000 ตัวที่ได้รับจากแพลตฟอร์ม YouTube พื้นที่เก็บข้อมูลนี้ให้แนวทางในการสร้างคลังข้อมูลและทรัพยากรที่เกี่ยวข้องเพื่อสร้างผลลัพธ์ในบทความของเรา สำหรับการแนะนำเพิ่มเติม โปรดดูการอ้างอิง หากคุณพบว่าพื้นที่เก็บข้อมูลนี้มีประโยชน์ต่อการวิจัยของคุณ อย่าลืมให้ดาวเราด้วย?

ทรัพยากร

เริ่มต้นด้วยการรับไฟล์ทรัพยากรและคลายการบีบอัดไฟล์ tar

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

โครงสร้างไฟล์

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

ดาวน์โหลด

ขั้นตอนต่อไปนี้แสดงวิธีการสร้าง VoxBlink2 ของคุณ

ข้อกำหนดเบื้องต้น

ติดตั้ง ffmpeg :

 อัปเดต sudo apt-get && sudo apt-get อัปเกรด
sudo apt-get ติดตั้ง ffmpeg

ติดตั้งไลบรารี Python:

 pip ติดตั้ง -r ข้อกำหนด.txt

ดาวน์โหลดวิดีโอ

เรามีทางเลือกสองทางให้คุณดาวน์โหลดส่วนวิดีโอหรือเสียงเท่านั้น นอกจากนี้เรายังใช้ประโยชน์จากมัลติเธรดเพื่ออำนวยความสะดวกในขั้นตอนการดาวน์โหลด

สำหรับภาพและเสียง

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode วิดีโอ

สำหรับเสียงเท่านั้น

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode เสียง

ครอบตัดเสียง/วิดีโอ

สำหรับภาพและเสียง

 หลาม cropper_video.py --save_dir_audio $ {SAVE_PATH_AUDIO} --save_dir_video $ {SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4

สำหรับเสียงเท่านั้น

 หลาม cropper_audio.py --save_dir $ {SAVE_PATH_AUDIO} --timestamp_path เมตา --audio_root = $ {BASE_DIR} --num_workers 4

การประเมิน FID

เราจัดเตรียมสคริปต์ง่ายๆ ของโมเดลการระบุใบหน้าของเรา ซึ่งนำมาใช้ในการดูแลจัดการ VoxBlink2 สำหรับข้อมูลเพิ่มเติม โปรดดูที่ fid

การประเมินเอสวี

เรามีสคริปต์ง่ายๆ สำหรับการประเมินโมเดลของ ASV เพียงเรียกใช้ run_eval.sh ในโฟลเดอร์ asv สำหรับข้อมูลเพิ่มเติม โปรดดูที่ asv.

การประเมินการระบุผู้พูดแบบเปิดชุด

เราจัดทำสคริปต์ง่ายๆ สำหรับการประเมินแบบจำลองของงานที่เราเสนอ: Open-Set Speaker-Identification (OSSI) เพียงรัน run_eval_ossi.sh ในโฟลเดอร์ ossi สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ossi

ใบอนุญาต

ชุดข้อมูลได้รับอนุญาตภายใต้ใบอนุญาต CC BY-NC-SA 4.0 ซึ่งหมายความว่าคุณสามารถแบ่งปันและปรับเปลี่ยนชุดข้อมูลเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ได้ตราบใดที่คุณระบุแหล่งที่มาที่เหมาะสมและแจกจ่ายการมีส่วนร่วมของคุณภายใต้ใบอนุญาตเดียวกัน เงื่อนไขโดยละเอียดสามารถพบได้ที่นี่

หมายเหตุสำคัญ: ชุดข้อมูลที่เผยแพร่ของเรามีเฉพาะข้อมูลคำอธิบายประกอบ รวมถึงลิงก์ YouTube การประทับเวลา และป้ายกำกับผู้พูด เราไม่เผยแพร่ข้อมูลเสียงหรือภาพ และเป็นความรับผิดชอบของผู้ใช้ในการตัดสินใจว่าจะดาวน์โหลดข้อมูลวิดีโอหรือไม่และอย่างไร และวัตถุประสงค์ที่ตั้งใจไว้กับข้อมูลที่ดาวน์โหลดนั้นถูกกฎหมายในประเทศของตนหรือไม่ สำหรับผู้ใช้ YouTube ที่มีความกังวลเกี่ยวกับการรวมวิดีโอของตนไว้ในชุดข้อมูลของเรา โปรดติดต่อเราทางอีเมล: [email protected] หรือ [email protected]

การอ้างอิง

โปรดอ้างอิงบทความด้านล่างหากคุณใช้ชุดข้อมูล:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด