LocalAIVoiceChat下载 - LocalAIVoiceChat源码下载

LocalAIVoiceChat

Ai源码

Initial Release

下载

本地AI语音聊天

提供与 AI 的实时对话，完全在您的 PC 上本地进行，具有可定制的 AI 个性和语音。

提示：任何对最先进的语音解决方案感兴趣的人也请看看 Linguflex 。它可以让你通过说话来控制你的环境，是目前最强大、最复杂的开源助手之一。

注意：如果您遇到“一般综合错误：isin() 收到无效的参数组合”错误，这是由于新的 Transformer 库引入了与 Coqui TTS 的不兼容性（请参阅此处）。请降级到较旧的 Transformer 版本： pip install transformers==4.38.2或将 RealtimeTTS 升级到最新版本pip install realtimetts==0.4.1 。

关于项目

将强大的 Zephyr 7B 语言模型与实时语音转文本和文本转语音库集成，创建快速且引人入胜的基于语音的本地聊天机器人。

Local.AI.Talkbot.GithubClip.mov

提示：如果您在安装 llama.cpp 时遇到问题，请查看我的 LocalEmotionalAIVoiceChat 项目。它包括情感感知的实时文本到语音输出，并具有多个 LLM 提供商选项。您还可以将它与不同的人工智能模型一起使用。

技术堆栈

llama_cpp与 Zephyr 7B
- 基于 llama 的语言模型的库接口
带 fast_whisper 的RealtimeSTT
- 实时语音转文本转录库
使用 Coqui XTTS进行实时 TTS
- 实时文本转语音合成库

笔记

该软件处于实验性 alpha 状态，不提供生产就绪的稳定性。当前用于合成的 XTTS 模型仍然存在故障，而且 Zephyr（虽然对于 7B 模型来说确实很好）当然无法与 GPT 4、Claude 或 Perplexity 的答案质量竞争。

请将此作为提供本地实时聊天机器人的早期版本的首次尝试。

更新

更新至 Coqui XTTS 2.0 模型
修复 RealtimeTTS（Coqui 模型下载无法正常工作）

先决条件

您将需要具有大约 8 GB VRAM 的 GPU 才能实时运行此程序。

对于 nVidia 用户

NVIDIA CUDA 工具包 11.8 ：
- 访问 NVIDIA CUDA 工具包存档。
- 选择版本 11.x 并按照说明进行下载和安装。
适用于 CUDA 11.x 的 NVIDIA cuDNN 8.7.0 ：
- 导航至 NVIDIA cuDNN 存档。
- 找到并下载“cuDNN v8.7.0（2022 年 11 月 28 日），适用于 CUDA 11.x”。
- 请遵循提供的安装指南。

对于 AMD 用户

安装 ROCm v.5.7.1
- 下载 ROCm SDK 版本 5.7.1
- 请遵循提供的安装指南。
FFmpeg ：
根据您的操作系统安装 FFmpeg：
- Ubuntu/Debian ：
```
sudo apt update && sudo apt install ffmpeg
```
- 拱门Linux ：
```
sudo pacman -S ffmpeg
```
- macOS（自制） ：
```
brew install ffmpeg
```
- Windows（巧克力） ：
```
choco install ffmpeg
```
- 窗户（勺） ：
```
scoop install ffmpeg
```

安装步骤

克隆存储库或下载源代码包。
安装llama.cpp
- （对于 AMD 用户）在下一步之前将环境变量LLAMA_HIPBLAS值设置为on
- 官方方式：
```
 pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
```
- 如果官方安装不适合你，请安装text- Generation-webui，它为很多平台和环境提供了一些优秀的轮子

安装实时库

安装主要库：

 pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7

从此处下载 zephyr-7b-beta.Q5_K_M.gguf。
- 打开creation_params.json并将下载模型的文件路径输入到model_path中。
- 调整 n_gpu_layers（0-35，如果您有更多 VRAM，则提高）和 n_threads（CPU 线程数，我建议不要使用所有可用核心，但留一些用于 TTS）

如果发生依赖冲突，请安装冲突库的特定版本：

 pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0

运行应用程序

 python ai_voicetalk_local.py

定制

改变AI个性

打开 chat_params.json 更改谈话场景。

改变人工智能语音

打开 ai_voicetalk_local.py。
找到这一行：coqui_engine = CoquiEngine(cloning_reference_wav="female.wav", language="en")
将“female.wav”更改为包含要克隆的语音的波形文件（44100 或 22050 Hz 单声道 16 位）的文件名

语音结束检测

如果第一个句子在第二个句子之前被转录，请在 AudioToTextRecorder 上提高 post_speech_silence_duration： AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)