นำเสนอการสนทนาแบบเรียลไทม์ด้วย AI บนพีซีของคุณโดยสมบูรณ์ พร้อมบุคลิกภาพและเสียง AI ที่ปรับแต่งได้
คำแนะนำ: ใครก็ตามที่สนใจโซลูชันด้านเสียงที่ล้ำสมัย โปรด ดู Linguflex ด้วยเช่นกัน มันช่วยให้คุณควบคุมสภาพแวดล้อมของคุณด้วยการพูดและเป็นหนึ่งในผู้ช่วยโอเพ่นซอร์สที่มีความสามารถและซับซ้อนที่สุดที่มีอยู่ในปัจจุบัน
หมายเหตุ: หากคุณพบข้อผิดพลาด 'ข้อผิดพลาดในการสังเคราะห์ทั่วไป: isin() ได้รับข้อโต้แย้งที่ไม่ถูกต้อง' นี่เป็นเพราะไลบรารี Transformers ใหม่แนะนำความไม่เข้ากันกับ Coqui TTS (ดูที่นี่) โปรดดาวน์เกรดเป็นเวอร์ชัน Transformers รุ่นเก่า:
pip install transformers==4.38.2
หรืออัปเกรด RealtimeTTS เป็นเวอร์ชันล่าสุดpip install realtimetts==0.4.1
ผสานรวมโมเดลภาษา Zephyr 7B อันทรงพลังเข้ากับไลบรารีคำพูดเป็นข้อความและข้อความเป็นคำพูดแบบเรียลไทม์ เพื่อสร้างแชทบอทท้องถิ่นที่ใช้เสียงได้อย่างรวดเร็วและน่าดึงดูด
คำแนะนำ: หากคุณประสบปัญหาในการติดตั้ง llama.cpp โปรดดูโปรเจ็กต์ LocalEmotionalAIVoiceChat ของฉันด้วย ประกอบด้วยเอาต์พุตข้อความเป็นคำพูดแบบเรียลไทม์ที่รับรู้อารมณ์ และมีตัวเลือกผู้ให้บริการ LLM มากมาย คุณยังสามารถใช้กับโมเดล AI ต่างๆ ได้
ซอฟต์แวร์นี้อยู่ในสถานะอัลฟ่าทดลองและไม่ได้ให้ความเสถียรที่พร้อมสำหรับการผลิต โมเดล XTTS ปัจจุบันที่ใช้สำหรับการสังเคราะห์ยังคงมีข้อบกพร่องและ Zephyr แม้ว่าจะดีจริงๆ สำหรับรุ่น 7B แต่ก็ไม่สามารถแข่งขันกับคุณภาพคำตอบของ GPT 4, Claude หรือ Perplexity ได้
โปรดถือว่านี่เป็นความพยายามครั้งแรกในการให้บริการแชทบอทแบบเรียลไทม์ในพื้นที่รุ่นแรกๆ
คุณจะต้องมี GPU ที่มี VRAM ประมาณ 8 GB เพื่อรันสิ่งนี้แบบเรียลไทม์
ชุดเครื่องมือ NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 สำหรับ CUDA 11.x :
ติดตั้ง ROCm v.5.7.1
FFmpeg :
ติดตั้ง FFmpeg ตามระบบปฏิบัติการของคุณ:
อูบุนตู/เดเบียน :
sudo apt update && sudo apt install ffmpeg
อาร์ค ลินุกซ์ :
sudo pacman -S ffmpeg
macOS (โฮมบรูว์) :
brew install ffmpeg
หน้าต่าง (ช็อกโกแลต) :
choco install ffmpeg
Windows (สกู๊ป) :
scoop install ffmpeg
โคลนพื้นที่เก็บข้อมูลหรือดาวน์โหลดแพ็คเกจซอร์สโค้ด
ติดตั้ง llama.cpp
(สำหรับผู้ใช้ AMD) ก่อนขั้นตอนถัดไปให้ตั้งค่าตัวแปร env LLAMA_HIPBLAS
เป็น on
วิธีที่เป็นทางการ:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
ติดตั้งไลบรารีเรียลไทม์
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
ดาวน์โหลด zephyr-7b-beta.Q5_K_M.gguf จากที่นี่
model_path
หากเกิดข้อขัดแย้งในการขึ้นต่อกัน ให้ติดตั้งไลบรารีที่ขัดแย้งกันในเวอร์ชันเฉพาะ:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
เปิด chat_params.json เพื่อเปลี่ยนสถานการณ์การพูดคุย
หากถอดความประโยคแรกก่อนที่คุณจะไปถึงประโยคที่สอง ให้เพิ่ม post_speech_silence_duration บน AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
การมีส่วนร่วมในการปรับปรุงหรือปรับปรุงโครงการได้รับการต้อนรับอย่างอบอุ่น อย่าลังเลที่จะเปิดคำขอดึงพร้อมกับการเปลี่ยนแปลงหรือการแก้ไขที่คุณเสนอ
โครงการนี้อยู่ภายใต้ Coqui Public Model License 1.0.0
ใบอนุญาตนี้อนุญาตให้ใช้เฉพาะโมเดลการเรียนรู้ของเครื่องและผลลัพธ์ของโมเดลที่ไม่ใช่เชิงพาณิชย์เท่านั้น
โคลจา เบเจล
อย่าลังเลที่จะติดต่อหากมีข้อสงสัยหรือการสนับสนุนที่เกี่ยวข้องกับโครงการนี้