( ouço | pensa | fala alto)
Assistente 100% gratuito, local e offline, com reconhecimento de fala e funcionalidades de talk-back.
ALTS é executado em segundo plano e espera que você pressione cmd+esc
(ou win+esc
).
Enquanto segura a tecla de atalho, sua voz será gravada (salva na raiz do projeto) .
No lançamento, a gravação é interrompida e uma transcrição é enviada ao LLM (a gravação é excluída) .
As respostas do LLM são sintetizadas e reproduzidas para você (também mostradas como notificações na área de trabalho) .
Você pode modificar a combinação de teclas de atalho e outras configurações em seu config.yaml
.
TODOS os processos são locais e NENHUMA das suas gravações ou consultas sai do seu ambiente; as gravações são apagadas assim que são utilizadas; é TUDO PRIVADO por padrão
(testado em) versão >=3.11 no macOS e versão >=3.8 no Windows
Por padrão, o projeto está configurado para funcionar com Ollama, executando o modelo stablelm2
(um modelo muito pequeno e rápido). Essa configuração torna todo o sistema totalmente gratuito para execução local e excelente para máquinas com poucos recursos.
No entanto, usamos LiteLLM para sermos independentes do fornecedor, para que você tenha total liberdade para escolher suas próprias combinações. Dê uma olhada nos modelos/provedores suportados para obter mais detalhes sobre a configuração do LLM.
Consulte
.env.template
econfig-template.yaml
para personalizar sua configuração
Usamos openAI's whisper
para transcrever suas consultas de voz. É um modelo de reconhecimento de fala de uso geral.
Você precisará ter ffmepg
instalado em seu ambiente, você pode baixá-lo no site oficial.
Certifique-se de verificar os documentos de configuração para qualquer outro requisito.
se você encontrar erros, um dos motivos pode ser o modelo não ser baixado automaticamente. Se for esse o caso, você pode executar uma transcrição de exemplo
whisper
em seu terminal (veja exemplos) ou baixá-la manualmente e colocar o arquivo do modelo na pasta correta
Usamos coqui-TTS
para ALTS responder a você. É uma biblioteca para geração avançada de conversão de texto em fala.
Você precisará instalar eSpeak-ng
em seu ambiente:
Certifique-se de verificar os documentos de configuração para qualquer outro requisito.
se você ainda não baixou o modelo configurado, ele deverá ser baixado automaticamente durante a inicialização; no entanto, se você encontrar algum problema, o modelo padrão pode ser pré-baixado executando o seguinte:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364O modelo padrão possui vários “alto-falantes” para escolher; executar o seguinte comando servirá como um site de demonstração onde você poderá testar as diferentes vozes disponíveis:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
linux – sudo apt-get install espeak -y
windows – baixe o executável de seu repositório
no Windows, você também precisará de desenvolvimento de desktop com
.NET desktop build tools
Desktop development with C++
e .NET. Baixe as ferramentas de compilação do Microsoft C++ e instale essas dependências.
clonar o repositório
git clone https://github.com/alxpez/alts.git
vá para a pasta principal
cd alts/
instale as dependências do projeto
pip install -r requirements.txt
consulte a seção de pré-requisitos para ter certeza de que sua máquina está pronta para iniciar o ALTS
duplique e renomeie os arquivos de configuração necessários
cp config-template.yaml config.yaml
cp .env.template .env
modifique a configuração padrão de acordo com suas necessidades
iniciar ALTS
sudo python alts.py
o pacote
keyboard
precisa ser executado como administrador (no macOS e Linux), não é o caso no Windows