? Estoy trabajando en una reescritura completa del proyecto. El progreso en esto se puede ver en la rama v4. En consecuencia, esta sucursal no recibirá nuevos lanzamientos ni actualizaciones.
whishper es una suite de subtitulado y transcripción de audio 100% local de código abierto con una interfaz de usuario web con todas las funciones.
Características
Transcribe cualquier medio a texto: audio, vídeo, etc.
Transcribe desde URL (cualquier fuente compatible con yt-dlp).
Sube un archivo para transcribir.
? Descargue transcripciones en muchos formatos : TXT, JSON, VTT, SRT o copie el texto sin formato en su portapapeles.
Traduce tus transcripciones a cualquier idioma admitido por Libretranslate.
✍️ ¡ Potente editor de subtítulos para que no tengas que salir de la interfaz de usuario!
Resaltado de transcripción según la posición de los medios.
Advertencias de CPS (caracteres por segundo).
División de segmentos.
Inserción de segmentos.
Selección de idioma de subtítulos.
? 100% local : la transcripción, traducción y edición de subtítulos se realizan 100% en su máquina (¡incluso puede funcionar sin conexión!).
Rápido : utiliza FasterWhisper como backend de Whisper: ¡obtenga tiempos de transcripción mucho más rápidos en la CPU!
? Configuración rápida y sencilla : utilice el script de inicio rápido o siga algunos pasos.
Compatibilidad con GPU : ¡use su GPU NVIDIA para obtener tiempos de transcripción aún más rápidos!
? Soporte de CPU : ¿sin GPU? ¡Ningún problema! whishper también puede ejecutarse en la CPU.
Hoja de ruta
Carpeta local como entrada multimedia (#15).
Búsqueda de texto completo en todas las transcripciones.
Autenticación de usuario.
Grabación de audio desde el navegador.
Agregue increíblemente rápido susurro como backend opcional (n.° 53).
Soporte para aceleración de GPU.
Compatibilidad con GPU que no sea NVIDIA. ¿Es posible con un susurro más rápido?
¿Podemos hacer algo con la comunicación perfecta?
Estructura del proyecto
whishper es una colección de piezas que funcionan juntas. Las tres piezas principales son:
Transcription-API: esta es la API que permite ejecutar Faster-Whisper. Puede encontrarlo en la carpeta transcription-api .
whishper -Backend: este es el backend que coordina las llamadas, la base de datos y las tareas del frontend. Puede encontrarlo en la carpeta backend .
whishper -Frontend: esta es la interfaz (UI web) de la aplicación. Puede encontrarlo en la carpeta frontend .
Traducción (de terceros): este es el contenedor libretranslate que se utiliza para traducir subtítulos.
MongoDB (de terceros): esta es la base de datos que almacena toda la información sobre sus transcripciones.
Nginx (de terceros): este es el proxy que permite ejecutar todo desde un único dominio.
Contribuyendo
¡Las contribuciones son bienvenidas! No dudes en abrir un PR con tus cambios o echar un vistazo a los problemas para ver si hay algo en lo que puedas ayudar.
Configuración de desarrollo
Consulte la documentación de desarrollo aquí.
Capturas de pantalla
Estas capturas de pantalla están disponibles en el sitio web oficial, haga clic en cualquiera de los siguientes enlaces para verlas: