ถอดเสียง สรุป และสร้างคลิปอัจฉริยะจากเนื้อหาวิดีโอและเสียง
การถอดเสียง : ถอดเสียงโดยใช้ WhisperX
การสรุปอย่างชาญฉลาด : สร้างเนื้อหาสรุปโดยย่อของเนื้อหาวิดีโอที่ปรับให้เหมาะกับวัตถุประสงค์ที่แตกต่างกัน:
รายงานการประชุม
สรุปพอดคาสต์
หมายเหตุการบรรยาย
ไฮไลท์การสัมภาษณ์
สรุปเนื้อหาทั่วไป
การสร้างคลิปอัจฉริยะ : สร้างคลิปช่วงเวลาสำคัญและหัวข้อที่กล่าวถึงในวิดีโอโดยอัตโนมัติ
การสนับสนุนหลายรูปแบบ : ประมวลผลรูปแบบไฟล์วิดีโอและเสียงที่หลากหลาย
การรวมระบบคลาวด์ : ใช้ AWS S3 เพื่อการจัดการและประมวลผลไฟล์อย่างมีประสิทธิภาพ
ไพธอน 3.8+
AWS CLI กำหนดค่าด้วยสิทธิ์ที่เหมาะสม
ติดตั้ง FFmpeg บนระบบของคุณแล้ว
Node.js และ npm (สำหรับการรัน GUI ส่วนหน้า)
โคลนที่เก็บ:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
ตั้งค่าแบ็กเอนด์:
คัดลอก config/config-example.yaml
ไปยัง config/config.yaml
แก้ไข config/config.yaml
ด้วยคีย์ API และค่ากำหนดของคุณ
สร้างและเปิดใช้งานสภาพแวดล้อมเสมือน:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
ติดตั้งการพึ่งพาที่จำเป็น:
pip install -r requirements.txt
ตั้งค่าคอนฟิกของคุณ:
ตั้งค่าส่วนหน้า (เป็นทางเลือก สำหรับการใช้งาน GUI):
นำทางไปยังไดเร็กทอรีส่วนหน้า:
cd frontend
ติดตั้งการพึ่งพาที่จำเป็น:
npm install
รันสคริปต์ CLI:
python backend/cli.py
ปฏิบัติตามคำแนะนำเพื่อเลือกไฟล์วิดีโอและเลือกประเภทข้อมูลสรุปที่คุณต้องการสร้าง
ไฟล์สรุปที่สร้างขึ้นจะถูกบันทึกไว้ในไดเร็กทอรีที่ตั้งชื่อตามไฟล์วิดีโออินพุต
เริ่มเซิร์ฟเวอร์แบ็กเอนด์:
เรียกใช้เซิร์ฟเวอร์แบ็กเอนด์:
python backend/server.py
เริ่มเซิร์ฟเวอร์การพัฒนาส่วนหน้า:
ในหน้าต่างเทอร์มินัลใหม่ ให้นำทางไปยังไดเร็กทอรีส่วนหน้า:
cd frontend
รันเซิร์ฟเวอร์การพัฒนาส่วนหน้า:
npm run dev
เปิดเว็บเบราว์เซอร์ของคุณแล้วไปที่ http://localhost:5173
เพื่อเข้าถึง AI Video Summarizer GUI
ใช้เว็บอินเตอร์เฟสเพื่ออัปโหลดไฟล์วิดีโอ เลือกประเภทสรุปที่ต้องการ และเริ่มการประมวลผล
เมื่อการประมวลผลเสร็จสิ้น คุณสามารถดาวน์โหลดไฟล์สรุปที่สร้างขึ้นเป็นไฟล์ zip ได้
แก้ไข config/config.yaml
เพื่อตั้งค่า:
เส้นทาง AWS CLI และชื่อบัคเก็ต S3
จำลองคีย์ API และเวอร์ชันของโมเดล
คีย์ Anthropic API และตัวเลือกโมเดล
พารามิเตอร์ที่ปรับแต่งได้อื่นๆ
GUI บนเว็บ
CLI พื้นฐาน
ตัวเลือก LLM เพิ่มเติม
ตัวเลือกการส่งออกสำหรับรูปแบบเอกสารต่างๆ (PDF, DOCX ฯลฯ)
ยินดีบริจาค! โปรดส่งคำขอดึง
ใบอนุญาตเอ็มไอที
โปรเจ็กต์นี้ใช้ WhisperX ซึ่งเป็นเวอร์ชันขั้นสูงของโมเดล Whisper ของ OpenAI สำหรับการถอดเสียง WhisperX เสนอ:
การถอดความแบบเร่ง
การแยกเสียงของผู้พูดขั้นสูง
ปรับปรุงความแม่นยำในการแบ่งส่วนลำโพง
โมเดล WhisperX ทำงานผ่าน Replicate API ตาม https://github.com/sidewards/whisperx