Transcreva, resuma e crie clipes inteligentes de conteúdo de vídeo e áudio.
Transcrição : transcreva áudio usando WhisperX
Resumo inteligente : gere resumos concisos de conteúdo de vídeo, adaptados a diferentes finalidades:
Ata da Reunião
Resumos de podcasts
Notas de aula
Destaques da entrevista
Resumos de conteúdo geral
Criação inteligente de clipes : crie automaticamente clipes dos principais momentos e tópicos discutidos no vídeo.
Suporte multiformato : processe vários formatos de arquivo de vídeo e áudio.
Integração em nuvem : utiliza AWS S3 para manipulação e processamento eficiente de arquivos.
Python 3.8+
AWS CLI configurada com permissões apropriadas
FFmpeg instalado em seu sistema
Node.js e npm (para executar a GUI frontend)
Clone o repositório:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
Configure o back-end:
Copie config/config-example.yaml
para config/config.yaml
Edite config/config.yaml
com suas chaves e preferências de API
Crie e ative um ambiente virtual:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
Instale as dependências necessárias:
pip install -r requirements.txt
Defina sua configuração:
Configure o frontend (opcional, para uso da GUI):
Navegue até o diretório frontend:
cd frontend
Instale as dependências necessárias:
npm install
Execute o script CLI:
python backend/cli.py
Siga as instruções para selecionar um arquivo de vídeo e escolha o tipo de resumo que deseja gerar.
Os arquivos de resumo gerados serão salvos em um diretório com o nome do arquivo de vídeo de entrada.
Inicie o servidor back-end:
Execute o servidor back-end:
python backend/server.py
Inicie o servidor de desenvolvimento front-end:
Em uma nova janela de terminal, navegue até o diretório frontend:
cd frontend
Execute o servidor de desenvolvimento front-end:
npm run dev
Abra seu navegador da web e navegue até http://localhost:5173
para acessar a GUI do AI Video Summarizer.
Use a interface da web para fazer upload de um arquivo de vídeo, selecione o tipo de resumo desejado e inicie o processamento.
Assim que o processamento for concluído, você poderá baixar os arquivos de resumo gerados como um arquivo zip.
Edite config/config.yaml
para definir:
Caminho AWS CLI e nome do bucket S3
Replicar chave de API e versão do modelo
Chave de API antrópica e escolha de modelo
Outros parâmetros personalizáveis
GUI baseada na Web
CLI Básica
Mais opções de LLM
Opções de exportação para vários formatos de documentos (PDF, DOCX, etc.)
Contribuições são bem-vindas! Sinta-se à vontade para enviar uma solicitação pull.
Licença MIT
Este projeto usa WhisperX, uma versão avançada do modelo Whisper da OpenAI, para transcrição. WhisperX oferece:
Transcrição acelerada
Diarização avançada de alto-falante
Maior precisão na segmentação de alto-falantes
O modelo WhisperX é executado por meio da API Replicate, baseada em https://github.com/sidedwards/whisperx.