カスタマイズ可能な AI の個性と音声を使用して、PC 上で完全にローカルな AI によるリアルタイムの会話を提供します。
ヒント:最先端の音声ソリューションに興味がある人は、 Linguflex もご覧ください。話すことで環境を制御できるようにするもので、現在利用可能なオープンソース アシスタントの中で最も高機能で洗練されたものの 1 つです。
注: 「一般合成エラー: isin() が無効な引数の組み合わせを受け取りました」エラーが発生した場合、これは新しいトランスフォーマー ライブラリによって Coqui TTS との非互換性が導入されたことが原因です (ここを参照)。古いトランスフォーマー バージョンにダウングレードしてください:
pip install transformers==4.38.2
、または RealtimeTTS を最新バージョンpip install realtimetts==0.4.1
にアップグレードしてください。
強力な Zephyr 7B 言語モデルをリアルタイムの音声合成およびテキスト読み上げライブラリと統合して、高速で魅力的な音声ベースのローカル チャットボットを作成します。
ヒント: llama.cpp のインストールで問題が発生した場合は、私の LocalEmotionalAIVoiceChat プロジェクトも参照してください。感情を認識したリアルタイムのテキスト読み上げ出力が含まれており、複数の LLM プロバイダー オプションがあります。さまざまな AI モデルで使用することもできます。
このソフトウェアは実験的なアルファ版の状態にあり、実稼働環境での安定性を提供しません。合成に使用されている現在の XTTS モデルには依然として不具合があり、Zephyr も、7B モデルとしては非常に優れていますが、もちろん GPT 4、Claude、Perplexity の応答品質と競合することはできません。
これは、ローカル リアルタイム チャットボットの初期バージョンを提供する最初の試みとして受け止めてください。
これをリアルタイムで実行するには、約 8 GB VRAM を備えた GPU が必要です。
NVIDIA CUDA ツールキット 11.8 :
CUDA 11.x 用の NVIDIA cuDNN 8.7.0 :
ROCm v.5.7.1 をインストールする
FFmpeg :
オペレーティング システムに応じて FFmpeg をインストールします。
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
アーチ Linux :
sudo pacman -S ffmpeg
macOS (自作) :
brew install ffmpeg
Windows (チョコレート) :
choco install ffmpeg
ウィンドウズ (スクープ) :
scoop install ffmpeg
リポジトリのクローンを作成するか、ソース コード パッケージをダウンロードします。
ラマ.cppをインストールする
(AMD ユーザーの場合) 次の手順の前に、環境変数LLAMA_HIPBLAS
値をon
に設定します。
公式の方法:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
リアルタイム ライブラリをインストールする
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
ここから zephyr-7b-beta.Q5_K_M.gguf をダウンロードします。
model_path
に入力します。依存関係の競合が発生した場合は、競合するライブラリの特定のバージョンをインストールします。
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
chat_params.json を開いてトークシナリオを変更します。
2 番目の文に到達する前に最初の文が書き起こされた場合は、AudioToTextRecorder で post_speech_silence_duration を上げます: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
プロジェクトを強化または改善するための貢献は大歓迎です。提案された変更や修正を含むプル リクエストを遠慮なく開いてください。
このプロジェクトは Coqui Public Model License 1.0.0 に基づいています。
このライセンスでは、機械学習モデルとその出力の非営利的な使用のみが許可されます。
コルヤ・ベーゲル
このプロジェクトに関するご質問やサポートについてはお気軽にお問い合わせください。