이 프로젝트는 사용자가 YouTube 비디오에서 오디오를 다운로드하고 OpenAI의 Whisper 모델을 사용하여 텍스트로 변환하고 페이지 매김을 사용하여 텍스트로 표시할 수 있는 Streamlit 기반 애플리케이션입니다.
애플리케이션 데모를 확인하세요: OpenAI Whisper YouTube 동영상 전사
다음 저장소를 복제하세요.
git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos
필수 패키지를 설치합니다:
pip install -r requirements.txt
시스템에 아직 FFmpeg가 없으면 설치하세요. 설치 방법은 운영 체제에 따라 다릅니다.
Streamlit 앱을 실행합니다.
streamlit run .srcapp.py
제공된 입력 필드에 YouTube 동영상 URL을 입력하세요.
앱은 오디오를 다운로드하여 텍스트로 변환하고 페이지 매김과 함께 텍스트를 표시합니다.
오디오 다운로드 : download_audio
함수는 yt-dlp를 사용하여 제공된 YouTube URL에서 오디오를 다운로드합니다. 오디오를 WAV 파일로 저장합니다.
오디오 녹음 : transcribe_audio
기능은 OpenAI의 Whisper 모델을 사용하여 다운로드한 오디오 파일을 녹음합니다.
Display Transcript : display_transcript_with_pagination
함수는 스크립트를 페이지로 분할하고 Streamlit의 UI 구성 요소를 사용하여 표시합니다.
프로세스 오디오 : process_audio
함수는 다운로드부터 복사 및 결과 표시까지 전체 프로세스를 조정합니다.
transcribe_audio
함수의 model_name
매개변수를 수정하여 Whisper 모델 크기를 변경할 수 있습니다.display_transcript_with_pagination
의 tokens_per_page
매개변수를 조정하세요. 이 애플리케이션은 특히 긴 비디오의 경우 상당한 양의 계산 리소스가 필요합니다. CUDA 지원 GPU를 사용하면 전사 프로세스 속도가 크게 향상될 수 있습니다.
MIT 라이센스