Oferece conversação em tempo real com IA, totalmente local no seu PC, com personalidade e voz de IA personalizáveis.
Dica: Qualquer pessoa interessada em soluções de voz de última geração, dê uma olhada também no Linguflex . Ele permite que você controle seu ambiente falando e é um dos assistentes de código aberto mais capazes e sofisticados disponíveis atualmente.
Nota: Se você encontrar o erro 'Erro de síntese geral: isin () recebeu uma combinação inválida de argumentos', isso se deve à nova biblioteca de transformadores que introduz uma incompatibilidade com Coqui TTS (veja aqui). Faça downgrade para uma versão mais antiga dos transformers:
pip install transformers==4.38.2
ou atualize o RealtimeTTS para a versão mais recentepip install realtimetts==0.4.1
.
Integra o poderoso modelo de linguagem Zephyr 7B com bibliotecas de fala para texto e texto para fala em tempo real para criar um chatbot local baseado em voz rápido e envolvente.
Dica: se você tiver problemas ao instalar o llama.cpp, dê uma olhada no meu projeto LocalEmotionalAIVoiceChat. Inclui saída de texto para fala em tempo real com reconhecimento de emoção e tem várias opções de provedor de LLM. Você também pode usá-lo com diferentes modelos de IA.
Este software está em estado alfa experimental e não fornece estabilidade pronta para produção. O modelo XTTS atual usado para síntese ainda apresenta falhas e também o Zephyr - embora seja realmente bom para um modelo 7B - é claro que não pode competir com a qualidade de resposta do GPT 4, Claude ou Perplexity.
Considere isso como uma primeira tentativa de fornecer uma versão inicial de um chatbot local em tempo real.
Você precisará de uma GPU com cerca de 8 GB de VRAM para rodar isso em tempo real.
Kit de ferramentas NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 para CUDA 11.x :
Instale ROCm v.5.7.1
FFmpeg :
Instale o FFmpeg de acordo com seu sistema operacional:
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
Arch Linux :
sudo pacman -S ffmpeg
macOS (homebrew) :
brew install ffmpeg
Janelas (chocolate) :
choco install ffmpeg
Janelas (colher) :
scoop install ffmpeg
Clone o repositório ou baixe o pacote de código-fonte.
Instale lhama.cpp
(para usuários AMD) Antes da próxima etapa, defina o valor da variável env LLAMA_HIPBLAS
como on
Maneira oficial:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Instale bibliotecas em tempo real
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Baixe zephyr-7b-beta.Q5_K_M.gguf aqui.
model_path
.Se ocorrerem conflitos de dependência, instale versões específicas de bibliotecas conflitantes:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Abra chat_params.json para alterar o cenário de conversação.
Se a primeira frase for transcrita antes de chegar à segunda, aumente post_speech_silence_duration em AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Contribuições para aprimorar ou melhorar o projeto são calorosamente bem-vindas. Sinta-se à vontade para abrir uma solicitação pull com suas alterações ou correções propostas.
O projeto está sob Licença de Modelo Público Coqui 1.0.0.
Esta licença permite apenas o uso não comercial de um modelo de aprendizado de máquina e seus resultados.
Kolja Beigel
Sinta-se à vontade para entrar em contato com qualquer dúvida ou suporte relacionado a este projeto.