โปรเจ็กต์นี้เป็นแอปพลิเคชันที่ใช้ Streamlit ซึ่งอนุญาตให้ผู้ใช้ดาวน์โหลดเสียงจากวิดีโอ YouTube ถอดเสียงโดยใช้โมเดล Whisper ของ OpenAI และแสดงการถอดเสียงด้วยการแบ่งหน้า
ดูการสาธิตแอปพลิเคชัน: OpenAI Whisper Transcribe YouTube Videos
โคลนที่เก็บนี้:
git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos
ติดตั้งแพ็คเกจที่จำเป็น:
pip install -r requirements.txt
ติดตั้ง FFmpeg หากยังไม่มีอยู่ในระบบของคุณ วิธีการติดตั้งจะแตกต่างกันไปตามระบบปฏิบัติการ
เรียกใช้แอป Streamlit:
streamlit run .srcapp.py
ป้อน URL วิดีโอ YouTube ในช่องป้อนข้อมูลที่ให้ไว้
แอปจะดาวน์โหลดไฟล์เสียง ถอดเสียง และแสดงการถอดเสียงพร้อมการแบ่งหน้า
ดาวน์โหลดเสียง : ฟังก์ชัน download_audio
ใช้ yt-dlp เพื่อดาวน์โหลดเสียงจาก URL ของ YouTube ที่ให้มา มันจะบันทึกเสียงเป็นไฟล์ WAV
ถอดเสียง : ฟังก์ชัน transcribe_audio
ใช้โมเดล Whisper ของ OpenAI เพื่อถอดเสียงไฟล์เสียงที่ดาวน์โหลด
Display Transcript : ฟังก์ชัน display_transcript_with_pagination
จะแบ่งการถอดเสียงออกเป็นหน้าต่างๆ และแสดงโดยใช้ส่วนประกอบ UI ของ Streamlit
ประมวลผลเสียง : ฟังก์ชัน process_audio
ควบคุมกระบวนการทั้งหมด ตั้งแต่การดาวน์โหลดไปจนถึงการถอดเสียงและแสดงผลลัพธ์
model_name
ในฟังก์ชัน transcribe_audio
tokens_per_page
ใน display_transcript_with_pagination
เพื่อเปลี่ยนจำนวนข้อความที่แสดงต่อหน้า แอปพลิเคชันนี้ต้องการทรัพยากรการคำนวณจำนวนมาก โดยเฉพาะวิดีโอขนาดยาว การใช้ GPU ที่รองรับ CUDA สามารถเร่งกระบวนการถอดเสียงได้อย่างมาก
ใบอนุญาตเอ็มไอที