Voice-Pro: 전사, 번역 및 텍스트 음성 변환을 위한 최고의 그라디오 웹 UI ?
? 한국어 ∙ 영어 ∙ 中文简体 ∙ 中文繁체 ∙ 日本語
Voice-Pro는 전사, 번역, 텍스트 음성 변환을 위한 최고의 그라디오 웹 UI입니다. 원클릭으로 쉽게 설치할 수 있습니다. Windows 시스템과 완전히 별개로 실행되는 Miniconda를 사용하여 가상 환경을 만듭니다(완전히 이식 가능). 실시간 전사 및 번역은 물론 배치 모드도 지원합니다.
- YouTube 다운로더 : YouTube 동영상을 다운로드하고 오디오(mp3, wav, flac)를 추출할 수 있습니다.
- Vocal Remover : UVR5에서 지원하는 MDX-Net과 Meta에서 개발한 Demucs 엔진을 사용하여 음성 분리를 수행합니다.
- STT : Whisper, Faster-Whisper 및 Whisper-Timestamped를 사용하여 음성-텍스트 변환을 지원합니다.
- 번역자 : 구글 번역기.
- TTS : 텍스트 음성 변환. 엣지-TTS, F5-TTS.
- 더...
? 실행 화면
주요 특징
-
Studio
탭- 유튜브 다운로더, 노이즈 제거, 자막, 번역, TTS 통합 환경 제공
- ffmpeg에서 지원하는 모든 비디오/오디오 형식을 사용할 수 있습니다.
- 선택 가능한 출력 오디오 형식(wav, flac, mp3)
- 100개 언어에 대한 음성 인식 및 자막 생성
- PC 성능에 적합한 자막 생성 옵션 선택 (귓속말 모델 및 컴퓨팅 유형)
- TTS를 통한 100개 이상의 언어 번역 및 음성 생성
- 다국어 영상에는 원본 영상의 BGM과 음향효과가 그대로 유지됩니다.
- TTS 음성 속도, 볼륨 및 피치 조정 지원
Whisper Caption
탭
- 자막 작성 전용 탭입니다. 90개 이상의 언어 지원
- 영상으로 생성된 자막 표시
- 세계적 수준의 하이라이트 기능 제공
- 노이즈 제거 기능 제공(1-Demucs, 2-MDXNet)
Translate
탭
- 번역 전용 탭입니다. 100개 이상의 언어 지원
- 자막 파일 지원(ass, ssa, srt, mpl2, tmp, vtt, microdvd, json)
- 직접 텍스트 입력도 가능
- 업로드된 파일의 언어를 자동으로 감지합니다.
TTS
탭
- Edge-TTS 및 F5-TTS가 지원됩니다.
- Edge-TTS는 100개 이상의 언어와 400개 이상의 음성을 지원합니다.
- 피치, 볼륨, 속도를 조정할 수 있습니다.
- F5-TTS는 Zero-Shot 음성 복제를 지원합니다.
- Celeb Voices를 사용하여 팟캐스트를 만들 수 있습니다.
Live Translation
탭
- 실시간 음성인식 및 번역 지원
- 마이크, 스피커 등 오디오 입력 소스를 선택합니다.
- 캡처한 오디오, 인식된 자막, 번역된 자막을 저장하는 기능 제공
Batch
탭
실행 환경
- 운영체제 : Windows 10/11 (64bits) ※ Linux, Mac OS는 지원하지 않습니다.
- GPU: CUDA 12.1을 지원하는 NVIDIA 그래픽 카드 권장.
- VRAM: 4GB 이상. 8GB 이상을 권장합니다.
- RAM: 4GB 이상
- HDD: 설치 시 최소 20GB의 여유 공간
- 인터넷 연결 필요(설치 및 번역 작업)
? 설치
Voice-Pro는 원클릭으로 쉽게 설치할 수 있습니다. 구성.bat 및 start.bat를 실행하면 됩니다.
1단계. 패키지 준비
- 가. 유료버전
- USB에 포함된 압축파일( voice-pro-x.zip )을 컴퓨터의 적당한 위치에 압축을 풀어주세요.
- 또는 이미 압축을 푼 폴더( voice-pro-x )를 컴퓨터의 적절한 위치에 복사하세요.
- B. 무료 버전
- 다음에서 최신 릴리스( 소스 코드(zip) )를 복제하거나 다운로드합니다.
step 2. 프로그램 설치 및 실행
-
configure.bat
실행- Windows에 git, ffmpeg 및 CUDA(NVIDIA GPU를 사용하는 경우)를 설치합니다.
- 처음에만 실행하면 됩니다.
- 인터넷 연결이 필요하며, 시스템에 따라 1시간 이상 소요될 수 있습니다.
- 설치 중에 Windows 명령 창을 닫지 마십시오.
-
start.bat
실행- Voice-Pro를 시작하세요. Web-UI가 자동으로 실행됩니다.
- 처음 실행 시 Voice-Pro가 먼저 설치됩니다.
- 인터넷 연결이 필요하며, 시스템에 따라 1시간 이상 소요될 수 있습니다.
- 설치 중에 Windows 명령 창을 닫지 마십시오.
- 설치 중 문제가 발생하면 installer_files 폴더를 삭제하고 start.bat를 다시 실행해 보세요.
3단계. 프로그램 제거
-
uninstall.bat
실행합니다.- installer_files 폴더를 제거합니다.
- Windows에 설치된 ffmepg, git 및 CUDA 패키지 제거(선택한 경우)
- Voice-Pro에는 휴대용 설치가 기본으로 제공됩니다. 프로그램을 제거하려면 설치 폴더를 삭제하는 것으로 충분합니다.
❓팁과 요령
브라우저가 자동으로 실행되지 않는 경우
- Windows-Commnad 창을 닫고 start.bat를 다시 실행하십시오.
- 브라우저를 직접 실행하여 Windows 명령창에 표시된 주소(예: http://127.0.0.1:7892 )를 주소창에 입력하세요.
CUDA Out-Of-Memory 오류가 발생하는 경우
- Windows 작업 관리자 - 성능 탭에서 GPU 메모리 상태를 확인하세요.
- 노이즈 제거 수준을 0 또는 1로 설정합니다. 노이즈 제거 수준 2에는 최소 8GB의 GPU 메모리가 필요합니다.
- 컴퓨팅 유형을 int 유형으로 설정합니다. float 유형은 품질이 더 좋지만 더 많은 GPU 메모리가 필요합니다.
자막 품질을 향상시키는 방법은 무엇입니까?
- 자막 품질은 Whisper 모델이 클수록 향상되는 경향이 있지만 반드시 그런 것은 아닙니다. 대형 > 중형 > 소형 > 기본 > 소형
- 컴퓨팅 유형 중에서는 float 유형이 성능이 좋습니다. int형은 모델 양자화를 통해 GPU 사용량을 줄이고 속도를 높이는 모델이다. 반면에 성능은 저하됩니다.
- 노이즈 제거 수준을 높이면 더 많은 배경음이 제거되고 남은 음성만 음성 인식에 사용됩니다. 항상 좋은 결과를 보장하는 것은 아닙니다.
? 주의
Windows Defender는 신뢰할 수 없는 응용 프로그램에 대해 경고를 표시하고 Voice-Pro의 추가 실행을 허용하지 않을 수 있습니다. SmartScreen 보안 수준이 "경고"로 설정된 경우 "추가 정보"를 클릭한 다음 "어쨌든 실행"을 클릭하세요. SmartScreen이 "차단" 수준으로 설정된 경우 설치를 실행하는 버튼이 없습니다. 이 경우 start.bat 파일의 속성을 열고 "차단 해제"를 선택한 후 변경 사항을 적용하고 start.bat를 다시 실행하세요.
Windows Defender가 배치 파일을 트로이 목마로 잘못 인식하는 경우를 흔히 '거짓 긍정'이라고 합니다. 이 문제를 해결하려면 다음 단계를 수행할 수 있습니다.
- 파일 예외 처리: Windows Defender에서는 보안 검사를 건너뛰도록 특정 파일이나 프로세스를 설정할 수 있습니다. 이렇게 하려면 아래 단계를 따르세요.
- '시작' 버튼을 클릭하고 '설정'으로 이동합니다.
- '업데이트 및 보안'을 클릭하세요.
- 'Windows 보안'을 선택하고 '바이러스 및 위협 방지'로 이동합니다.
- '바이러스 및 위협 방지 설정 관리'를 클릭하세요.
- '바이러스 및 위협 방지 설정'에서 '예외 추가'를 선택하세요.
- '파일 또는 폴더'를 선택하고 해당 배치 파일을 찾아 예외로 추가합니다.
- Windows Defender를 일시적으로 비활성화합니다. 이는 임시 해결 방법일 수 있습니다. 그러나 이 방법을 사용할 경우 컴퓨터가 다른 위협에 노출될 수 있으므로 주의해야 합니다.
- 바이러스 백신 소프트웨어에 문제 보고: 파일이 트로이 목마가 아니라고 확신하는 경우 이를 Microsoft에 가양성으로 보고할 수 있습니다. Microsoft는 이를 검토하고 필요한 조치를 취할 것입니다.
? 문의하기
- 이메일: [email protected]
- 홈페이지(한국어): https://abuskorea.imweb.me
- 아마존(미국): https://www.amazon.com/dp/B0DBR69JPL
- 아마존(일본): https://www.amazon.co.jp/dp/B0DBVRJ542
- 아마존(싱가포르): https://www.amazon.sg/dp/B0DCGKL8R4
- 아마존(UAE): https://www.amazon.ae/dp/B0DCGKM7FF
- 네이버 스마트스토어(S/W) : https://smartstore.naver.com/abus/products/10385660040
- 네이버 스마트스토어(솔루션) : https://smartstore.naver.com/abus/products/10298346364
? 유튜브
- 제품 정보: https://youtube.com/playlist?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq&si=873MgzUtu4POE9jO
- 홈 가라오케(팝): https://youtube.com/playlist?list=PLwx5dnMDVC9bVxfGo58U-R-w3fUHqwiD6&si=aWRDfF8TxFp2oAR0
- 홈 가라오케(K-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9Z8kB01tQKfzTysaCCxC3C8&si=1_-9p722rd_JXpzv
- 홈 가라오케(J-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9apyxrP9LE9PiT821G7lJXk&si=0a474CP7ZIjMoGN9
크레딧
- 디뮤크: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- 그라디오: https://github.com/gradio-app/gradio
- 엣지-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
©️ 저작권
ABUS로