Транскрибируйте, обобщайте и создавайте умные клипы из видео- и аудиоконтента.
Транскрипция : транскрибируйте аудио с помощью WhisperX.
Интеллектуальное суммирование : создавайте краткие обзоры видеоконтента, адаптированные для различных целей:
Протокол встречи
Краткое содержание подкастов
Конспекты лекций
Основные моменты интервью
Общие сводки содержания
Интеллектуальное создание клипов : автоматически создавайте клипы с ключевыми моментами и темами, обсуждаемыми в видео.
Поддержка нескольких форматов : обработка различных форматов видео и аудио файлов.
Интеграция с облаком : использует AWS S3 для эффективной обработки файлов.
Питон 3.8+
Интерфейс командной строки AWS настроен с соответствующими разрешениями.
FFmpeg установлен в вашей системе
Node.js и npm (для запуска графического интерфейса пользователя)
Клонируем репозиторий:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
Настройте бэкэнд:
Скопируйте config/config-example.yaml
в config/config.yaml
Отредактируйте config/config.yaml
указав свои ключи API и настройки.
Создайте и активируйте виртуальную среду:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
Установите необходимые зависимости:
pip install -r requirements.txt
Настройте свою конфигурацию:
Настройте интерфейс (необязательно, для использования графического интерфейса):
Перейдите в каталог внешнего интерфейса:
cd frontend
Установите необходимые зависимости:
npm install
Запустите скрипт CLI:
python backend/cli.py
Следуйте инструкциям, чтобы выбрать видеофайл и тип сводки, которую вы хотите создать.
Сгенерированные файлы сводки будут сохранены в каталоге, названном в честь входного видеофайла.
Запустите внутренний сервер:
Запустите внутренний сервер:
python backend/server.py
Запустите сервер фронтенд-разработки:
В новом окне терминала перейдите в каталог внешнего интерфейса:
cd frontend
Запустите сервер фронтенд-разработки:
npm run dev
Откройте веб-браузер и перейдите по адресу http://localhost:5173
чтобы получить доступ к графическому интерфейсу AI Video Summarizer.
С помощью веб-интерфейса загрузите видеофайл, выберите нужный тип сводки и запустите обработку.
После завершения обработки вы можете загрузить сгенерированные файлы сводки в виде zip-архива.
Отредактируйте config/config.yaml
чтобы установить:
Путь AWS CLI и имя корзины S3
Репликация ключа API и версии модели
Ключ Anthropic API и выбор модели
Другие настраиваемые параметры
Веб-интерфейс с графическим интерфейсом
Базовый интерфейс командной строки
Больше вариантов LLM
Опции экспорта для различных форматов документов (PDF, DOCX и т. д.)
Вклады приветствуются! Пожалуйста, не стесняйтесь отправить запрос на включение.
Лицензия MIT
В этом проекте для транскрипции используется WhisperX, расширенная версия модели OpenAI Whisper. WhisperX предлагает:
Ускоренная транскрипция
Расширенный дневник спикеров
Повышена точность сегментации говорящих.
Модель WhisperX запускается через API репликации на основе https://github.com/sidewards/whisperx.