? 동기화 된 오디오로 비디오 번역
Sonytranslate는 강력하고 사용자 친화적 인 웹 응용 프로그램으로 비디오를 다른 언어로 쉽게 번역 할 수 있습니다. 이 저장소는 SonyTranslate Web UI의 코드를 호스팅하여 Gradio 라이브러리와 함께 구축되어 원활하고 대화식 사용자 경험을 제공합니다.
설명 | 링크 |
---|---|
? Colab 노트북 | |
? 저장소 | |
온라인 데모 |
프로젝트에 대한 포괄적 인 이해를 위해서는 Dev-Mallettes 의이 비디오 자습서를 시청하는 것이 좋습니다. 아래의 축소판을 클릭하여 YouTube에서 볼 수 있습니다.
언어 코드 | 언어 |
---|---|
en | 영어 |
정말로 | 프랑스 국민 |
드 | 독일 사람 |
es | 스페인 사람 |
그것 | 이탈리아 사람 |
자 | 일본어 |
NL | 네덜란드 사람 |
영국 | 우크라이나 말 |
Pt | 포르투갈 인 |
AR | 아라비아 말 |
ZH | 중국어 - 단순화 |
ZH-TW | 중국어 - 전통 |
CS | 체코 사람 |
다 | 덴마크 말 |
fi | 핀란드 |
엘자 | 그리스 사람 |
그 | 헤브라이 사람 |
hu | 헝가리 인 |
코 | 한국인 |
파 | 페르시아 인 |
Pl | 광택 |
ru | 러시아인 |
Tr | 터키 |
ur | 우르두어 |
안녕 | 힌디 어 |
VI | 베트남 사람 |
ID | 인도네시아 인 |
Bn | 벵골 사람 |
테 | 텔루구 어 |
~ 씨 | 마라 티 |
고마워 | 타밀 사람 |
JW (또는 JV) | 자바어 |
CA | 카탈로니아 사람 |
NE | 네팔 |
th | 태국 |
SV | 스웨덴어 |
~이다 | 암하라 |
CY | 웨일스 말 |
HR | 크로아티아 |
~이다 | 아이슬란드 |
카 | 그루지야 사람 |
km | 크메르 |
SK | 슬로바키아 사람 |
평방 | 알바니아 |
SR | 세르비아 사람 |
AZ | 아제르바이잔 |
BG | 불가리아 사람 |
GL | 갈리시아어 |
구 | 구자라트 |
KK | 카자흐 |
kn | 칸나다어 |
LT | 리투아니아 사람 |
LV | 라트비아 사람 |
ML | 말라 얄 람어 |
로 | 루마니아 사람 |
시 | 신 할라 |
Su | Sundanese |
et | 에스토니아 사람 |
MK | 마케도니아 어 |
SW | 스와 할리 |
AF | 아프리카 어 |
BS | 보스니아 인 |
라 | 라틴어 |
나의 | 미얀마 버마 |
아니요 | 노르웨이 인 |
~처럼 | 아사 메스 |
EU | 바스크 사람 |
하아 | 하우사 |
ht | 아이티 크리올 |
hy | 아르메니아 사람 |
봐라 | 라오 |
Mg | 마다가스카르 사람 |
MN | 몽고 어 |
산 | 몰티즈 |
아빠 | 펀 자브 |
추신 | 파슈토 |
SL | 슬로베니아 |
Sn | 쇼나 |
그래서 | 소말리아 |
tg | 태조 |
TK | 투르크멘 말 |
TT | 타타르 |
UZ | 우즈벡 |
에야디야 | 요 루바 |
언어 코드 | 언어 |
---|---|
아아 | Aymara |
BM | 밤바라 |
CEB | 세부 노 |
뉴욕 | Chichewa |
DV | 디브 히 |
doi | 도그리 |
EE | 암양 |
GN | Guarani |
일로 | 일로코 |
RW | Kinyarwanda |
KRI | 크리오 |
쿠 | 쿠르드족 |
ky | 키르기즈 말 |
LG | 간다 |
마이 | Maithili |
또는 | 오리 야 |
옴 | 오로모 |
Qu | 케 체아 |
SM | 사모아 |
티 | 티 그린 |
TS | Tsonga |
AK | 아칸 |
ug | Uighur |
Colab 런타임을 사용하여 Sonitranslate를 실행하려면 :
Sonitranslate 설치 및 사용을 시작하기 전에해야 할 일이 몇 가지 있습니다.
accept the license to use the models
: https://huggingface.co/pyannote/speaker-diarization 및 https://huggingface.co/pyannote/segmentationconda install -c anaconda git -y
실행하여 Anaconda로 Git을 설치할 수 있습니다 (다음 섹션에서 1 단계 이후에). Anaconda를 통해 GIT를 설치하는 데 어려움이있는 경우 대신 다음 링크를 사용할 수 있습니다.이 단계를 완료하면 Sonitranslate를 설치할 준비가됩니다.
Sonitranslate를 설치하려면 다음 단계를 따르십시오.
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
FFMPEG를 설치하십시오. FFMPEG는 멀티미디어 데이터를 처리하기위한 라이브러리 및 프로그램을 제작하는 무료 소프트웨어 프로젝트입니다. 오디오 및 비디오 파일을 처리해야합니다. 터미널에서 conda install -y ffmpeg
실행하여 Anaconda로 FFMPEG를 설치할 수 있습니다 (권장). Anaconda를 통해 FFMPEG를 설치하는 데 어려움이있는 경우 대신 다음 링크를 사용할 수 있습니다. (https://ffmpeg.org/ffmpeg.html). 일단 설치되면 터미널에서 ffmpeg -h
실행하여 경로에 있는지 확인하십시오. 오류 메시지가 없으면 가면 좋습니다.
선택적 설치 :
FFMPEG를 설치 한 후이 옵션 패키지를 설치할 수 있습니다.
Piper TTS는 빠르고 현지 신경 텍스트에서 음성 텍스트로 들리며 Raspberry Pi 4에 최적화되어 있습니다. Piper는 다양한 프로젝트에 사용됩니다. 목소리는 vits로 훈련되어 OnnxRuntime으로 수출됩니다.
pip install -q piper-tts==1.2.0
Coqui Xtts는 다른 언어로 현실적인 목소리를 생성 할 수있는 텍스트 음성 (TTS) 모델입니다. 짧은 오디오 클립으로 목소리를 복제 할 수 있으며 다른 언어로 말씀하실 수도 있습니다! 그것은 당신이 말한 텍스트에 대해 개인적인 목소리를 모방하는 것과 같습니다.
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
Sonitranslate를 로컬로 실행하려면 sonitr
Conda 환경이 활성화되어 있는지 확인하십시오.
conda activate sonitr
Linux의 환경 변수로 포옹 페이스 토큰 설정 :
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
그런 다음 SoniTranslate
폴더로 이동하여 app_rvc.py
실행하십시오.
python app_rvc.py
local URL
http://127.0.0.1:7860
이 터미널에 표시되면 웹 브라우저 에서이 URL을 열면 Sonitranslate 인터페이스에 액세스하십시오.
대부분의 환경에서는 스크립트 app_rvc.py
시작한 터미널에서 ctrl+c를 눌러 실행을 중지 할 수 있습니다. 이것은 프로그램을 중단하고 Gradio 앱을 중지합니다. 콘다 환경을 비활성화하려면 다음 명령을 사용할 수 있습니다.
conda deactivate
이것은 현재 활동적인 콘다 환경 Sonitr을 비활성화 할 것이며, 기본 환경 또는 글로벌 파이썬 환경으로 돌아갑니다.
처음부터 다시 시작 해야하는 경우 SoniTranslate
폴더를 삭제하고 다음 명령 세트로 sonitr
Conda 환경을 제거 할 수 있습니다.
conda deactivate
conda env remove -n sonitr
sonitr
환경이 제거되면 새로운 설치로 다시 시작할 수 있습니다.
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
APP_RVC.PY 스크립트는 명령 줄 인수를 지원하여 동작을 사용자 정의합니다. 다음은 사용 방법에 대한 간단한 가이드입니다.
인수 명령 | 기본 | 값 | 설명 |
---|---|---|---|
--주제 | Taithrah/Minimal | 끈 | 인터페이스의 테마를 설정합니다. 테마는 테마 갤러리에서 찾을 수 있습니다. |
--언어 | 영어 | 끈 | 인터페이스 언어를 선택합니다. 사용 가능한 옵션 : 아프리칸스어, 아랍어, 아제르바이잔, 중국인_ZH_CN, 영어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 일본, 한국, 마라 티아, 페르시아어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 스웨덴, 터키, 우크라이나, 베트남. |
--verbosity_level | 정보 | 끈 | 로거의 진실성 레벨을 설정합니다 : 디버그, 정보, 경고, 오류 또는 중요합니다. |
---public_url | 부울 | 공개 링크를 활성화합니다. | |
-CPU_MODE | 부울 | CPU 모드가 GPU 가속도를 사용하지 않고 프로그램을 실행할 수 있도록합니다. | |
-logs_in_gui | 부울 | 로그 (쓸모없는)로 수행 된 작업을 보여줍니다. |
예제 사용 :
python app_rvc.py --theme aliabid94/new-theme --language french
이 명령은 테마를 사용자 정의 테마로 설정하고 프랑스어를 인터페이스 언어로 선택합니다. 선호도와 요구 사항에 따라 이러한 인수를 자유롭게 사용자 정의하십시오.
2024/18/05 : 새로운 업데이트 세부 정보
kotoba-tech/kotoba-whisper-v1.1
일본 전사를 위해 여기에서 제공됩니다app_rvc.py --cpu_mode
와 함께 CPU 모드가 추가되었습니다2024/03/02 : 출력에서 파일 이름을 보존하십시오. 이제 쉼표로 분리 된 경로, 디렉토리 또는 URL을 지정하여 여러 아카이브를 동시에 제출할 수 있습니다. 전체 YouTube 재생 목록 처리. 지원되는 사이트 URL에 대해 모든 사이트가 최적으로 작동하는 것은 아닙니다. 일기를 비활성화하기위한 옵션이 추가되었습니다. 소프트 자막을 구현했습니다. 형식 출력 (MP3, MP4, MKV, WAV 및 OGG) 및 파일 판독 및 발기와 관련된 해결 문제.
2024/02/22 : 음성 모방, 고정 무성 트랙, 분할 세그먼트를위한 freevc가 추가되었습니다. 새로운 언어 지원 (스웨덴어, 암하라 릭, 웨일스 어, 크로아티아, 아이슬란드, 그루지야, 크메르, 슬로바키아, 알바니아, 세르비아, 아제르바이잔, 불가리아어, 갈리 치아, 구자라트티, 카자흐, 칸나다어, 리투아니아, 라트비아, 말라 얄 람어, 루마니아, 신 할라). GUI (스페인어, 프랑스어, 독일, 이탈리아, 일본인, 중국 단순화, 우크라이나, 아랍어, 러시아어, 터키어, 인도네시아어, 포르투갈어, 힌디어, 베트남어, 스웨덴어, 한국, 마라 티나 및 아제르바이 자니의 새로운 번역. 자막 파일을 사용하면 SRT 파일을 처리하기 위해 정렬 및 미디어 파일이 필요하지 않습니다. 자막을 비디오로 굽습니다. 큐는 여러 작업을 동시에 수락 할 수 있습니다. 사운드 경보 알림. 마지막 체크 포인트에서 프로세스를 계속하십시오. 가속 속도 규정.
2024/01/16 : 확장 언어 지원 (태국, 네팔, 카탈로니아, 자바, 타밀어, 마라 티어, 텔루구 어, 벵골어, 인도네시아어), Whisper Large V3의 도입, 구성 가능한 GUI 옵션, 껍질 통합, Facebook-MMS, Coqui XTTS 및 파이퍼 tts. 추가 기능에는 오디오 분리 유틸리티, XTTS Wav Creation, SRT 파일을 번역, 문서 번역, 수동 스피커 편집 및 유연한 출력 옵션 (비디오, 오디오, 자막)으로 사용하는 것이 포함됩니다.
2023/10/29 : 번역 된 자막을 편집하고 다운로드하고 볼륨 및 속도 옵션을 조정하십시오.
2023/08/03 : 기본 옵션을 변경하고 다운로드의 디렉토리보기가 추가되었습니다.
2023/08/02 : 아랍어, 체코, 덴마크어, 핀란드, 그리스어, 히브리어, 헝가리어, 한국, 페르시아어, 폴란드어, 러시아어, 터키, 우르두어, 힌디어 및 베트남어에 대한 지원이 추가되었습니다.
2023/08/01 : RVC 모델 사용 옵션 추가.
2023/07/27 : 비디오 및 오디오를 처리하는 버그 처리를 수정하십시오.
2023/07/26 : 새로운 UI 및 믹스 옵션 추가.
커뮤니티의 기여에 오신 것을 환영합니다! 아이디어, 버그 보고서 또는 기능 요청이 있으면 문제를 열거 나 풀어 요청을 제출하십시오. 자세한 내용은 기여 지침을 참조하십시오.
이 프로젝트는 여러 오픈 소스 프로젝트를 활용합니다. 우리는 다음 리포지토리의 기고자들에게 인정하고 감사하고 싶습니다.
코드는 Apache 2에 따라 라이센스가 부여되지만 Pyannote Diarization에서 볼 수 있듯이 모델 또는 가중치에는 상업적 제한이있을 수 있습니다.