Voice-Pro: ¿La mejor interfaz de usuario web de gradio para transcripción, traducción y conversión de texto a voz?
? 한국어 ∙ Inglés ∙ 中文简体 ∙ 中文繁體 ∙ 日本語
Voice-Pro es la mejor interfaz de usuario web de gradio para transcripción, traducción y conversión de texto a voz. Se puede instalar fácilmente con un solo clic. Cree un entorno virtual utilizando Miniconda, ejecutándose de forma completamente independiente del sistema Windows (totalmente portátil). Admite transcripción y traducción en tiempo real, así como modo por lotes.
- Descargador de YouTube : puede descargar videos de YouTube y extraer el audio (mp3, wav, flac).
- Vocal Remover : utilice MDX-Net compatible con UVR5 y el motor Demucs desarrollado por Meta para la separación de voces.
- STT : Admite la conversión de voz a texto con Whisper, Faster-Whisper y susurro con marca de tiempo.
- Traductor : Traductor de Google.
- TTS : Texto a voz. Borde-TTS, F5-TTS.
- más...
? Pantalla de ejecución
Pestaña TTS
: Producción de podcasts usando F5-TTS
f5-tts-demo-elon-zuckerberg-1115-3.mp4
Pestaña Studio
: transcripción, traducción y conversión de texto a voz
demostración-pro-voz-v1.5.7-hevc-720p.mp4
Características clave
- Pestaña
Studio
- Proporciona un entorno integrado para el descargador de YouTube, eliminación de ruido, subtítulos, traducción y TTS.
- Se pueden utilizar todos los formatos de vídeo/audio compatibles con ffmpeg.
- Formato de audio de salida seleccionable (wav, flac, mp3)
- Reconocimiento de voz y creación de subtítulos para 100 idiomas.
- Seleccione opciones de creación de subtítulos adecuadas para el rendimiento de la PC (modelo Whisper y tipo de computación)
- Traducción a más de 100 idiomas y generación de voz mediante TTS
- La música de fondo y los efectos de sonido del vídeo original se mantienen en el vídeo multilingüe.
- Admite ajuste de velocidad, volumen y tono de voz TTS
Pestaña Whisper Caption
- Una pestaña dedicada a la creación de subtítulos. Admite más de 90 idiomas
- Mostrar subtítulos creados con el vídeo.
- Función resaltada a nivel mundial proporcionada
- Función de eliminación de ruido proporcionada (1-Demucs, 2-MDXNet)
Pestaña Translate
- Pestaña dedicada a la traducción. Admite más de 100 idiomas
- Admite archivos de subtítulos (ass, ssa, srt, mpl2, tmp, vtt, microdvd, json)
- También es posible la entrada de texto directa
- Detecta automáticamente el idioma de los archivos cargados
Pestaña TTS
- Se admiten Edge-TTS y F5-TTS.
- Edge-TTS admite más de 100 idiomas y más de 400 voces.
- Se pueden ajustar el tono, el volumen y la velocidad.
- F5-TTS admite la clonación de voz Zero-Shot.
- Puedes crear podcasts usando Celeb Voices.
Pestaña Live Translation
- Soporte de traducción y reconocimiento de voz en tiempo real
- Seleccione la fuente de entrada de audio como micrófono, altavoz, etc.
- Proporciona la posibilidad de guardar audio capturado, subtítulos reconocidos y subtítulos traducidos.
Pestaña Batch
- Procesamiento por lotes para grandes cantidades de archivos
- Subtítulos, traducción, TTS
Entorno de ejecución
- SO: Windows 10/11 (64 bits) ※ Linux y Mac OS no son compatibles.
- GPU: se recomienda una tarjeta gráfica NVIDIA compatible con CUDA 12.1.
- VRAM: 4 GB o más. Se recomiendan 8 GB o más.
- RAM: 4GB o más
- HDD: Al menos 20 GB de espacio libre durante la instalación
- Se requiere conexión a Internet (trabajos de instalación y traducción)
? Instalación
Voice-Pro se puede instalar fácilmente con un solo clic. Simplemente ejecute configure.bat y start.bat
paso 1. Preparación del paquete
- A. Versión paga
- Descomprima el archivo comprimido ( voice-pro-x.zip ) incluido en el USB en una ubicación adecuada de su computadora.
- O copie la carpeta ya descomprimida ( voice-pro-x ) a una ubicación adecuada en su computadora.
- B. Versión gratuita
- Clona o descarga la última versión ( código fuente (zip) ) de
paso 2. Instalar y ejecutar el programa
- Ejecutar
configure.bat
- Instale git, ffmpeg y CUDA (si usa NVIDIA GPU) en Windows.
- Sólo necesitas ejecutarlo la primera vez.
- Se requiere una conexión a Internet y puede tardar más de una hora según el sistema.
- Nunca cierre la ventana de comando de Windows durante la instalación.
- Ejecute
start.bat
- Inicie Voice-Pro. La interfaz de usuario web se ejecutará automáticamente.
- Cuando se ejecuta por primera vez, Voice-Pro se instala primero.
- Se requiere una conexión a Internet y puede tardar más de una hora según el sistema.
- Nunca cierre la ventana de comando de Windows durante la instalación.
- Si ocurre un problema durante la instalación, elimine la carpeta installer_files y ejecute start.bat nuevamente.
paso 3. Desinstalar el programa
- Ejecute
uninstall.bat
:- Elimine la carpeta installer_files .
- Elimine los paquetes ffmepg, git y CUDA instalados en Windows (si están seleccionados)
- Voice-Pro tiene instalación portátil de serie. Para desinstalar el programa, basta con eliminar la carpeta de instalación.
❓Consejos y trucos
Si el navegador no se ejecuta automáticamente
- Cierre la ventana Windows-Commnad y ejecute start.bat nuevamente.
- Ejecute el navegador directamente e ingrese la dirección que se muestra en la ventana de comando de Windows (por ejemplo, http://127.0.0.1:7892 ) en la barra de direcciones.
Si se produce un error de falta de memoria de CUDA
- Verifique el estado de la memoria de la GPU en el Administrador de tareas de Windows - pestaña Rendimiento.
- Establezca el nivel de eliminación de ruido en 0 o 1. El nivel de eliminación de ruido 2 requiere al menos 8 GB de memoria GPU.
- Establezca el tipo de cálculo en tipo int. El tipo flotante tiene mejor calidad, pero requiere más memoria GPU.
¿Cómo mejorar la calidad de los subtítulos?
- La calidad de los subtítulos tiende a mejorar con los modelos Whisper más grandes, pero no es necesariamente así. grande > mediano > pequeño > base > diminuto
- Entre los tipos de computación, el tipo flotante tiene un buen rendimiento. El tipo int es un modelo que reduce el uso de GPU y aumenta la velocidad mediante la cuantificación del modelo. Por otro lado, el rendimiento disminuye.
- Si aumenta el nivel de eliminación de ruido, se eliminarán más sonidos de fondo y solo se utilizará la voz restante para el reconocimiento de voz. No siempre garantiza buenos resultados.
? precaución
Windows Defender puede dar una advertencia sobre una aplicación que no es de confianza y no permitir la ejecución adicional de Voice-Pro. Si el nivel de seguridad de SmartScreen está configurado en "Advertir", simplemente haga clic en "Más información" y luego haga clic en "Ejecutar de todos modos". Si SmartScreen está configurado en el nivel "Bloquear", no habrá ningún botón para ejecutar la instalación. En este caso, abra las propiedades del archivo start.bat y marque "Desbloquear", aplique el cambio y ejecute start.bat nuevamente.
Cuando Windows Defender reconoce por error un archivo por lotes como un troyano, esto suele denominarse "falso positivo". Para resolver este problema, puede seguir los siguientes pasos:
- Manejo de excepciones de archivos: en Windows Defender, puede configurar ciertos archivos o procesos para omitir el análisis de seguridad. Para hacer esto, siga los pasos a continuación:
- Haga clic en el botón "Inicio" y vaya a "Configuración".
- Haga clic en "Actualización y seguridad".
- Seleccione "Seguridad de Windows" y vaya a "Protección contra virus y amenazas".
- Haga clic en "Administrar configuración de protección contra virus y amenazas".
- Seleccione "Agregar excepción" en "Configuración de protección contra virus y amenazas".
- Seleccione "Archivo o Carpeta", busque el archivo por lotes en cuestión y agréguelo como excepción.
- Deshabilite temporalmente Windows Defender: esta puede ser una solución temporal. Sin embargo, debe tener cuidado al utilizar este método, ya que puede exponer su computadora a otras amenazas.
- Informe el problema al software antivirus: si está seguro de que el archivo no es un caballo de Troya, puede informarlo a Microsoft como un falso positivo. Microsoft revisará esto y tomará las medidas necesarias.
? Contáctenos
- correo electrónico: [email protected]
- página de inicio (coreano): https://abuskorea.imweb.me
- Amazon (EE. UU.): https://www.amazon.com/dp/B0DBR69JPL
- Amazonas (Japón): https://www.amazon.co.jp/dp/B0DBVRJ542
- Amazonas (Singapur): https://www.amazon.sg/dp/B0DCGKL8R4
- Amazon (EAU): https://www.amazon.ae/dp/B0DCGKM7FF
- 네이버 스마트스토어 (S/W): https://smartstore.naver.com/abus/products/10385660040
- 네이버 스마트스토어 (Solución): https://smartstore.naver.com/abus/products/10298346364
? YouTube
- Información del producto: https://youtube.com/playlist?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq&si=873MgzUtu4POE9jO
- Karaoke en casa (Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9bVxfGo58U-R-w3fUHqwiD6&si=aWRDfF8TxFp2oAR0
- Karaoke en casa (K-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9Z8kB01tQKfzTysaCCxC3C8&si=1_-9p722rd_JXpzv
- Karaoke en casa (J-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9apyxrP9LE9PiT821G7lJXk&si=0a474CP7ZIjMoGN9
Créditos
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- grado: https://github.com/gradio-app/gradio
- borde-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
©️ Derechos de autor
por ABUS