openai_whisper_transcribe_yt_videos Unduh - openai_whisper_transcribe_yt

openai_whisper_transcribe_yt_videos

Kode Sumber AI

1.0.0

Unduh

Transkrip Video YouTube

Proyek ini adalah aplikasi berbasis Streamlit yang memungkinkan pengguna mengunduh audio dari video YouTube, mentranskripsikannya menggunakan model Whisper OpenAI, dan menampilkan transkripsi dengan penomoran halaman.

Fitur

Unduh audio dari video YouTube
Transkripsikan audio menggunakan model Whisper OpenAI
Tampilkan transkripsi dengan penomoran halaman
Sanitasi nama file untuk kompatibilitas
Dukungan untuk akselerasi CUDA (jika tersedia)

Demo

Lihat demo aplikasinya: OpenAI Whisper Transkripsikan Video YouTube

Persyaratan

Python 3.9+
PyTorch
yt-dlp
berbisik
tiktoken
terang benderang
FFmpeg (untuk konversi audio)

Instalasi

Kloning repositori ini:

 git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos

Instal paket yang diperlukan:
```
 pip install -r requirements.txt
```
Instal FFmpeg jika belum ada di sistem Anda. Metode instalasi berbeda-beda tergantung sistem operasi.

Penggunaan

Jalankan aplikasi Streamlit:
```
 streamlit run .srcapp.py
```
Masukkan URL video YouTube di kolom input yang tersedia.
Aplikasi akan mengunduh audio, mentranskripsikannya, dan menampilkan transkripsi dengan penomoran halaman.

Cara Kerjanya

Unduh Audio : Fungsi download_audio menggunakan yt-dlp untuk mengunduh audio dari URL YouTube yang disediakan. Ini menyimpan audio sebagai file WAV.
Transkripsikan Audio : Fungsi transcribe_audio menggunakan model Whisper OpenAI untuk mentranskripsikan file audio yang diunduh.
Transkrip Tampilan : Fungsi display_transcript_with_pagination membagi transkrip menjadi beberapa halaman dan menampilkannya menggunakan komponen UI Streamlit.
Proses Audio : Fungsi process_audio mengatur seluruh proses, mulai dari pengunduhan hingga transkripsi dan menampilkan hasilnya.

Kustomisasi

Anda dapat mengubah ukuran model Whisper dengan memodifikasi parameter model_name di fungsi transcribe_audio .
Sesuaikan parameter tokens_per_page di display_transcript_with_pagination untuk mengubah jumlah teks yang ditampilkan per halaman.

Catatan

Aplikasi ini membutuhkan sumber daya komputasi yang besar, terutama untuk video berdurasi panjang. Menggunakan GPU berkemampuan CUDA dapat mempercepat proses transkripsi secara signifikan.