
Шепот игровая площадка
Мгновенно построить приложения речи2-текта в режиме реального времени на 99 языках с использованием более быстрого, диарт и Pyannote
Попробуйте это через онлайн -демонстрацию
Playground.demo.mp4
Настраивать
- На вашем устройстве есть
Conda
и Yarn
- Клон или разветвляется этот репозиторий
- Установите бэкэнд и
sh install_playground.sh
- Просмотрите config.py, чтобы убедиться, что устройство транскрипции и вычислить тип соответствует вашей настройке. Просмотрите config.js, чтобы убедиться, что он соответствует конфигурации бэкэнда и что адрес бэкэнд является правильным.
- Запустите Backend
cd backend && python server.py
- В другом терминале запустите
cd interface && yarn start
Доступ к моделям Pyannote
Этот репозиторий использует библиотеки на основе моделей Pyannote.audio, которые хранятся в концентраторе обнимающего лица. Вы должны принять их условия использования перед использованием их. ПРИМЕЧАНИЕ: вам нужно иметь учетную запись об объятиях для использования Pyannote
- Принять термины для модели
pyannote/segmentation
- Принять термины для модели
pyannote/embedding
- Принять термины для модели
pyannote/speaker-diarization
- Установите guggingface -cli и входите в систему с токеном вашего пользователя доступа (можно найти в настройках -> Access token)
Параметры
- Размер модели: выберите размер модели, от крошечного до большого V2.
- Язык: выберите язык, на котором вы будете говорить.
- Тайм -аут транскрипции: установите количество секунд, которые приложение будет ждать, прежде чем транскрибировать текущие аудиоданные.
- Размер луча: отрегулируйте количество генерируемых и рассмотренных транскрипций, что влияет на точность и время генерации транскрипции.
- Метод транскрипции: выберите «в режиме реального времени» для дневника и транскрипций в реальном времени, или «последовательно» для периодических транскрипций с большим контекстом.
Поиск неисправностей
- На macOS, если строительство колеса для Safetensors выходит из строя, установите ржавчину
brew install rust
и повторите попытку.
Известные ошибки
- В последовательном режиме может быть неконтролируемое обмена динамиков.
- В режиме реального времени аудиоданные, не соответствующие тайм-ауту транскрипции, не будут транскрибированы.
Этот репозиторий не был проверен на все языки; Пожалуйста, создайте проблему, если вы столкнетесь с какими -либо проблемами.
Лицензия
Этот репозиторий и весы кода и модели шепота выпускаются по лицензии MIT.