
สนามเด็กเล่นกระซิบ
สร้างแอพ Speech2Text แบบเรียลไทม์ใน 99 ภาษาโดยใช้ความไวเร็วขึ้น Diart และ Pyannote
ลองผ่านการสาธิตออนไลน์
playground.demo.mp4
การตั้งค่า
- มี
Conda
และ Yarn
บนอุปกรณ์ของคุณ - โคลนหรือส้อมที่เก็บนี้
- ติดตั้งแบ็กเอนด์และสภาพแวดล้อมส่วนหน้า
sh install_playground.sh
- ตรวจสอบ config.py เพื่อให้แน่ใจว่าอุปกรณ์การถอดรหัสและประเภทการคำนวณตรงกับการตั้งค่าของคุณ ตรวจสอบ config.js เพื่อให้แน่ใจว่าสอดคล้องกับการกำหนดค่าแบ็กเอนด์และที่อยู่แบ็กเอนด์นั้นถูกต้อง
- เรียกใช้แบ็กเอน
cd backend && python server.py
- ในเทอร์มินัลที่แตกต่างกันรัน
cd interface && yarn start
การเข้าถึงโมเดล Pyannote
พื้นที่เก็บข้อมูลนี้ใช้ห้องสมุดตามรุ่น pyannote.audio ซึ่งเก็บไว้ในฮับใบหน้ากอด คุณต้องยอมรับข้อกำหนดการใช้งานก่อนใช้งาน หมายเหตุ: คุณต้องมีบัญชีใบหน้ากอดเพื่อใช้ pyannote
- ยอมรับข้อกำหนดสำหรับรูปแบบ
pyannote/segmentation
- ยอมรับข้อกำหนดสำหรับโมเดล
pyannote/embedding
- ยอมรับข้อกำหนดสำหรับโมเดล
pyannote/speaker-diarization
- ติดตั้ง huggingface -cli และเข้าสู่ระบบด้วยโทเค็นการเข้าถึงผู้ใช้ของคุณ (สามารถพบได้ในการตั้งค่า -> โทเค็นการเข้าถึง)
พารามิเตอร์
- ขนาดรุ่น: เลือกขนาดของรุ่นตั้งแต่ขนาดเล็กไปจนถึงขนาดใหญ่ V2
- ภาษา: เลือกภาษาที่คุณจะพูด
- การหมดเวลาการถอดความ: ตั้งค่าจำนวนวินาทีแอปพลิเคชันจะรอก่อนที่จะถอดความข้อมูลเสียงปัจจุบัน
- ขนาดลำแสง: ปรับจำนวนการถอดรหัสที่สร้างและพิจารณาซึ่งมีผลต่อความแม่นยำและเวลาในการสร้างการถอดความ
- วิธีการถอดความ: เลือก "เรียลไทม์" สำหรับ diarization และการถอดรหัสแบบเรียลไทม์หรือ "ลำดับ" สำหรับการถอดความเป็นระยะที่มีบริบทมากขึ้น
การแก้ไขปัญหา
- บน MacOS หากการสร้างล้อสำหรับ Safetensors ล้มเหลวให้ติดตั้ง Rust
brew install rust
และลองอีกครั้ง
ข้อบกพร่องที่รู้จัก
- ในโหมดต่อเนื่องอาจมีการแลกเปลี่ยนลำโพงที่ไม่สามารถควบคุมได้
- ในโหมดเรียลไทม์ข้อมูลเสียงที่ไม่ตรงกับการหมดเวลาการถอดความจะไม่ถูกถอดความ
ที่เก็บนี้ยังไม่ได้รับการทดสอบสำหรับทุกภาษา โปรดสร้างปัญหาหากคุณพบปัญหาใด ๆ
ใบอนุญาต
พื้นที่เก็บข้อมูลนี้และรหัสและน้ำหนักรุ่นของ Whisper ได้รับการปล่อยตัวภายใต้ใบอนุญาต MIT