Transcribe, resume y crea clips inteligentes a partir de contenido de vídeo y audio.
Transcripción : transcribe audio usando WhisperX
Resumen inteligente : genere resúmenes concisos de contenido de vídeo, adaptados a diferentes propósitos:
Acta de la reunión
Resúmenes de podcasts
Notas de la conferencia
Aspectos destacados de la entrevista
Resúmenes de contenido general
Creación inteligente de clips : cree automáticamente clips de momentos clave y temas tratados en el vídeo.
Soporte multiformato : Procese varios formatos de archivos de video y audio.
Integración en la nube : utiliza AWS S3 para un manejo y procesamiento eficiente de archivos.
Pitón 3.8+
AWS CLI configurada con los permisos adecuados
FFmpeg instalado en su sistema
Node.js y npm (para ejecutar la interfaz gráfica de usuario)
Clonar el repositorio:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
Configurar el servidor:
Copie config/config-example.yaml
a config/config.yaml
Edite config/config.yaml
con sus claves y preferencias API
Cree y active un entorno virtual:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
Instale las dependencias requeridas:
pip install -r requirements.txt
Configure su configuración:
Configure la interfaz (opcional, para uso de GUI):
Navegue hasta el directorio de la interfaz:
cd frontend
Instale las dependencias requeridas:
npm install
Ejecute el script CLI:
python backend/cli.py
Siga las indicaciones para seleccionar un archivo de video y elija el tipo de resumen que desea generar.
Los archivos de resumen generados se guardarán en un directorio con el nombre del archivo de vídeo de entrada.
Inicie el servidor backend:
Ejecute el servidor backend:
python backend/server.py
Inicie el servidor de desarrollo frontend:
En una nueva ventana de terminal, navegue hasta el directorio de interfaz:
cd frontend
Ejecute el servidor de desarrollo frontend:
npm run dev
Abra su navegador web y navegue hasta http://localhost:5173
para acceder a la GUI de AI Video Summarizer.
Utilice la interfaz web para cargar un archivo de video, seleccione el tipo de resumen deseado y comience el procesamiento.
Una vez que se completa el procesamiento, puede descargar los archivos de resumen generados como un archivo zip.
Edite config/config.yaml
para configurar:
Ruta de AWS CLI y nombre del depósito S3
Replicar la clave API y la versión del modelo
Clave API antrópica y elección de modelo
Otros parámetros personalizables
GUI basada en web
CLI básica
Más opciones de LLM
Opciones de exportación para varios formatos de documentos (PDF, DOCX, etc.)
¡Las contribuciones son bienvenidas! No dude en enviar una solicitud de extracción.
Licencia MIT
Este proyecto utiliza WhisperX, una versión avanzada del modelo Whisper de OpenAI, para la transcripción. WhisperX ofrece:
Transcripción acelerada
Diario avanzado de oradores
Precisión mejorada en la segmentación de hablantes.
El modelo WhisperX se ejecuta a través de Replicate API, basado en https://github.com/sidewards/whisperx.