( l听 | t认为 | s峰值)
100% 免费的本地离线助手,具有语音识别和对讲功能。
ALTS 在后台运行并等待您按cmd+esc
(或win+esc
)。
按住热键时,您的声音将被录制(保存在项目根目录中) 。
发布后,录音停止,并将成绩单发送给法学硕士(录音被删除) 。
然后,LLM 回复会被合成并播放给您(也显示为桌面通知) 。
您可以在config.yaml
中修改热键组合和其他设置。
所有进程都是本地的,您的任何记录或查询都不会离开您的环境;录音一经使用即被删除;默认情况下都是私有的
(已测试)macOS 上的版本 >=3.11 和 Windows 上的版本 >=3.8
默认情况下,该项目配置为与 Ollama 一起使用,运行stablelm2
模型(一个非常小且快速的模型)。这种设置使整个系统完全可以在本地运行,非常适合资源匮乏的机器。
然而,我们使用 LiteLLM 是为了与提供商无关,因此您可以完全自由地选择自己的组合。查看支持的模型/提供商,了解有关 LLM 配置的更多详细信息。
请参阅
.env.template
和config-template.yaml
以自定义您的设置
我们使用openAI's whisper
来转录您的语音查询。它是一种通用语音识别模型。
您需要在您的环境中安装ffmepg
,您可以从官方网站下载它。
请务必查看他们的设置文档,了解任何其他要求。
如果您遇到错误,原因之一可能是模型未自动下载。如果是这种情况,您可以在终端中运行
whisper
示例转录(请参阅示例)或手动下载它并将模型文件放入正确的文件夹中
我们使用 ALTS 的coqui-TTS
与您回复。它是一个用于高级文本到语音生成的库。
您需要在您的环境中安装eSpeak-ng
:
请务必查看他们的设置文档,了解任何其他要求。
如果您还没有下载配置的模型,它应该在启动期间自动下载,但是如果您遇到任何问题,可以通过运行以下命令来预先下载默认模型:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364默认型号有多个“扬声器”可供选择;运行以下命令将提供一个演示站点,您可以在其中测试可用的不同声音:
tts-server --model_name tts_models/en/vctk/vits
macOS –brew brew install espeak
Linux – sudo apt-get install espeak -y
windows – 从他们的存储库下载可执行文件
在Windows上,您还需要
Desktop development with C++
和.NET desktop build tools
进行桌面开发。下载 Microsoft C++ 构建工具并安装这些依赖项。
克隆存储库
git clone https://github.com/alxpez/alts.git
转到主文件夹
cd alts/
安装项目依赖项
pip install -r requirements.txt
请参阅先决条件部分,以确保您的计算机已准备好启动 ALTS
复制并重命名所需的配置文件
cp config-template.yaml config.yaml
cp .env.template .env
根据您的需要修改默认配置
启动 ALTS
sudo python alts.py
keyboard
包需要以管理员身份运行(在 macOS 和 Linux 中),但在 Windows 上则不然