ชุดข้อมูล VoxBlink2 เป็นชุดข้อมูลการจดจำผู้พูดขนาดใหญ่ที่มีลำโพงมากกว่า 100,000 ตัวที่ได้รับจากแพลตฟอร์ม YouTube พื้นที่เก็บข้อมูลนี้ให้แนวทางในการสร้างคลังข้อมูลและทรัพยากรที่เกี่ยวข้องเพื่อสร้างผลลัพธ์ในบทความของเรา สำหรับการแนะนำเพิ่มเติม โปรดดูการอ้างอิง หากคุณพบว่าพื้นที่เก็บข้อมูลนี้มีประโยชน์ต่อการวิจัยของคุณ อย่าลืมให้ดาวเราด้วย?
เริ่มต้นด้วยการรับไฟล์ทรัพยากรและคลายการบีบอัดไฟล์ tar
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
ขั้นตอนต่อไปนี้แสดงวิธีการสร้าง VoxBlink2 ของคุณ
ติดตั้ง ffmpeg :
อัปเดต sudo apt-get && sudo apt-get อัปเกรด sudo apt-get ติดตั้ง ffmpeg
ติดตั้งไลบรารี Python:
pip ติดตั้ง -r ข้อกำหนด.txt
ดาวน์โหลดวิดีโอ
เรามีทางเลือกสองทางให้คุณดาวน์โหลดส่วนวิดีโอหรือเสียงเท่านั้น นอกจากนี้เรายังใช้ประโยชน์จากมัลติเธรดเพื่ออำนวยความสะดวกในขั้นตอนการดาวน์โหลด
สำหรับภาพและเสียง
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode วิดีโอ
สำหรับเสียงเท่านั้น
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode เสียง
ครอบตัดเสียง/วิดีโอ
สำหรับภาพและเสียง
หลาม cropper_video.py --save_dir_audio $ {SAVE_PATH_AUDIO} --save_dir_video $ {SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4
สำหรับเสียงเท่านั้น
หลาม cropper_audio.py --save_dir $ {SAVE_PATH_AUDIO} --timestamp_path เมตา --audio_root = $ {BASE_DIR} --num_workers 4
เราจัดเตรียมสคริปต์ง่ายๆ ของโมเดลการระบุใบหน้าของเรา ซึ่งนำมาใช้ในการดูแลจัดการ VoxBlink2 สำหรับข้อมูลเพิ่มเติม โปรดดูที่ fid
เรามีสคริปต์ง่ายๆ สำหรับการประเมินโมเดลของ ASV เพียงเรียกใช้ run_eval.sh
ในโฟลเดอร์ asv
สำหรับข้อมูลเพิ่มเติม โปรดดูที่ asv.
เราจัดทำสคริปต์ง่ายๆ สำหรับการประเมินแบบจำลองของงานที่เราเสนอ: Open-Set Speaker-Identification (OSSI) เพียงรัน run_eval_ossi.sh
ในโฟลเดอร์ ossi
สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ossi
ชุดข้อมูลได้รับอนุญาตภายใต้ใบอนุญาต CC BY-NC-SA 4.0 ซึ่งหมายความว่าคุณสามารถแบ่งปันและปรับเปลี่ยนชุดข้อมูลเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ได้ตราบใดที่คุณระบุแหล่งที่มาที่เหมาะสมและแจกจ่ายการมีส่วนร่วมของคุณภายใต้ใบอนุญาตเดียวกัน เงื่อนไขโดยละเอียดสามารถพบได้ที่นี่
หมายเหตุสำคัญ: ชุดข้อมูลที่เผยแพร่ของเรามีเฉพาะข้อมูลคำอธิบายประกอบ รวมถึงลิงก์ YouTube การประทับเวลา และป้ายกำกับผู้พูด เราไม่เผยแพร่ข้อมูลเสียงหรือภาพ และเป็นความรับผิดชอบของผู้ใช้ในการตัดสินใจว่าจะดาวน์โหลดข้อมูลวิดีโอหรือไม่และอย่างไร และวัตถุประสงค์ที่ตั้งใจไว้กับข้อมูลที่ดาวน์โหลดนั้นถูกกฎหมายในประเทศของตนหรือไม่ สำหรับผู้ใช้ YouTube ที่มีความกังวลเกี่ยวกับการรวมวิดีโอของตนไว้ในชุดข้อมูลของเรา โปรดติดต่อเราทางอีเมล: [email protected] หรือ [email protected]
โปรดอ้างอิงบทความด้านล่างหากคุณใช้ชุดข้อมูล:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }