Обеспечивает общение с искусственным интеллектом в реальном времени, полностью локальное на вашем ПК, с настраиваемой индивидуальностью и голосом искусственного интеллекта.
Подсказка: всем, кто интересуется современными голосовыми решениями, обратите внимание на Linguflex . Он позволяет вам управлять своим окружением с помощью речи и является одним из самых функциональных и сложных помощников с открытым исходным кодом, доступных в настоящее время.
Примечание. Если вы столкнулись с ошибкой «Общая ошибка синтеза: isin() получила недопустимую комбинацию аргументов», это связано с тем, что новая библиотека преобразователей приводит к несовместимости с Coqui TTS (см. здесь). Пожалуйста, перейдите на более старую версию Transformers:
pip install transformers==4.38.2
или обновите RealtimeTTS до последней версииpip install realtimetts==0.4.1
.
Интегрирует мощную языковую модель Zephyr 7B с библиотеками преобразования речи в текст и текста в речь в реальном времени для создания быстрого и привлекательного локального чат-бота на основе голоса.
Подсказка: если у вас возникнут проблемы с установкой llama.cpp, пожалуйста, загляните в мой проект LocalEmotionalAIVoiceChat. Он включает в себя преобразование текста в речь в реальном времени с учетом эмоций и несколько вариантов поставщиков LLM. Вы также можете использовать его с различными моделями ИИ.
Это программное обеспечение находится в экспериментальном альфа-состоянии и не обеспечивает стабильной работы. Текущая модель XTTS, используемая для синтеза, все еще имеет сбои, а также Zephyr - хотя он действительно хорош для модели 7B - конечно, не может конкурировать с качеством ответа GPT 4, Claude или Perplexity.
Пожалуйста, воспринимайте это как первую попытку предоставить раннюю версию локального чат-бота в реальном времени.
Для запуска этого процесса в режиме реального времени вам понадобится графический процессор с объемом видеопамяти около 8 ГБ.
Инструментарий NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 для CUDA 11.x :
Установить ROCm v.5.7.1
ФФмпег :
Установите FFmpeg в соответствии с вашей операционной системой:
Убунту/Дебиан :
sudo apt update && sudo apt install ffmpeg
Арч Линукс :
sudo pacman -S ffmpeg
macOS (доморощенный) :
brew install ffmpeg
Окна (Шоколадные) :
choco install ffmpeg
Окна (совок) :
scoop install ffmpeg
Клонируйте репозиторий или загрузите пакет исходного кода.
Установите llama.cpp
(для пользователей AMD) Перед следующим шагом установите значение переменной env LLAMA_HIPBLAS
на on
Официальный способ:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Установите библиотеки реального времени
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Загрузите zephyr-7b-beta.Q5_K_M.gguf отсюда.
model_path
.Если возникают конфликты зависимостей, установите определенные версии конфликтующих библиотек:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Откройтеchat_params.json, чтобы изменить сценарий разговора.
Если первое предложение расшифровывается до того, как вы перейдете ко второму, поднимите post_speech_silence_duration в AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Вклад в улучшение или улучшение проекта горячо приветствуется. Не стесняйтесь открывать запрос на включение с предлагаемыми вами изменениями или исправлениями.
Проект находится под лицензией Coqui Public Model License 1.0.0.
Эта лицензия разрешает только некоммерческое использование модели машинного обучения и ее результатов.
Коля Бейгель
Не стесняйтесь обращаться по любым вопросам или поддержке, связанной с этим проектом.