Это голосовой помощник с искусственным интеллектом, основанный на больших языковых моделях. Пользователь может взаимодействовать с Голосовым помощником на естественном языке, в настоящее время английском.
Реализация объединяет различные модели глубокого обучения:
Речевой модуль сопряжен с локальным микрофоном для создания прямой транскрипции посредством процесса VAD. Транскрипция отправляется в выбранный LLM для обработки на основе слов пробуждения.
Как только LLM генерирует ответ, речевой модуль также сохраняет аудиофайл и генерирует речевой вывод, используя модель TTS.
Пользовательский интерфейс создан с использованием Streamlit и обеспечивает привычный интерфейс чата.
Установить зависимости проекта
pip install -r requirements
Если вы используете модели GPT, создайте файл .env
с переменными среды для OPENAI_API_KEY
и OPENAI_API_BASE
.