( l istens | t hinks | s ยอด )
ผู้ช่วยท้องถิ่นและออฟไลน์ฟรี 100% พร้อมฟังก์ชันการรู้จำเสียงและพูดคุยกลับ
ALTS ทำงานในพื้นหลังและรอให้คุณกด cmd+esc
(หรือ win+esc
)
ในขณะที่กดปุ่มลัดค้างไว้ เสียงของคุณจะถูกบันทึกไว้ (บันทึกในรูทโปรเจ็กต์)
เมื่อเผยแพร่ การบันทึกจะหยุดและสำเนาเสียงจะถูกส่งไปยัง LLM (การบันทึกจะถูกลบ)
จากนั้นการตอบสนองของ LLM จะถูกสังเคราะห์และเล่นกลับให้คุณ (แสดงเป็นการแจ้งเตือนบนเดสก์ท็อปด้วย)
คุณสามารถแก้ไขการรวมคีย์ลัดและการตั้งค่าอื่นๆ ได้ใน config.yaml
กระบวนการทั้งหมดอยู่ในเครื่องและ ไม่มี การบันทึกหรือการสืบค้นใด ๆ ของคุณออกจากสภาพแวดล้อมของคุณ การบันทึกจะถูกลบทันทีที่มีการใช้งาน มันเป็น ส่วนตัวทั้งหมด ตาม ค่าเริ่มต้น
(ทดสอบแล้ว) เวอร์ชัน >=3.11 บน macOS และเวอร์ชัน >=3.8 บน windows
ตามค่าเริ่มต้น โปรเจ็กต์ได้รับการกำหนดค่าให้ทำงานร่วมกับ Ollama โดยใช้โมเดล stablelm2
(โมเดลที่เล็กและรวดเร็วมาก) การตั้งค่านี้ทำให้ทั้งระบบทำงานได้ฟรีโดยสมบูรณ์และเหมาะสำหรับเครื่องที่มีทรัพยากรต่ำ
อย่างไรก็ตาม เราใช้ LiteLLM เพื่อให้เป็นผู้ให้บริการที่ไม่เชื่อเรื่องพระเจ้า ดังนั้นคุณจึงมีอิสระเต็มที่ในการเลือกชุดค่าผสมของคุณเอง ดูรุ่น/ผู้ให้บริการที่รองรับสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการกำหนดค่า LLM
ดู
.env.template
และconfig-template.yaml
เพื่อปรับแต่งการตั้งค่าของคุณ
เราใช้ openAI's whisper
เพื่อถอดเสียงคำสั่งเสียงของคุณ เป็นโมเดลการรู้จำเสียงพูดสำหรับวัตถุประสงค์ทั่วไป
คุณจะต้องติดตั้ง ffmepg
ในสภาพแวดล้อมของคุณ คุณสามารถดาวน์โหลดได้จากเว็บไซต์อย่างเป็นทางการ
อย่าลืมตรวจสอบเอกสารการตั้งค่าสำหรับข้อกำหนดอื่นๆ
หากคุณพบข้อผิดพลาด สาเหตุหนึ่งอาจเป็นเพราะโมเดลไม่ดาวน์โหลดโดยอัตโนมัติ หากเป็นกรณีนี้ คุณสามารถเรียกใช้การถอดเสียงตัวอย่าง
whisper
ในเทอร์มินัลของคุณ (ดูตัวอย่าง) หรือดาวน์โหลดด้วยตนเองและวางไฟล์โมเดลลงในโฟลเดอร์ที่ถูกต้อง
เราใช้ coqui-TTS
สำหรับ ALTS เพื่อพูดคุยกลับกับคุณ เป็นห้องสมุดสำหรับการสร้างการอ่านออกเสียงข้อความขั้นสูง
คุณจะต้องติดตั้ง eSpeak-ng
ในสภาพแวดล้อมของคุณ:
อย่าลืมตรวจสอบเอกสารการตั้งค่าสำหรับข้อกำหนดอื่นๆ
หากคุณไม่มีโมเดลที่กำหนดค่าไว้ดาวน์โหลดไว้แล้ว ควรดาวน์โหลดโดยอัตโนมัติระหว่างการเริ่มต้น อย่างไรก็ตาม หากคุณพบปัญหาใดๆ สามารถดาวน์โหลดโมเดลเริ่มต้นล่วงหน้าได้โดยการเรียกใช้สิ่งต่อไปนี้:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364รุ่นเริ่มต้นจะมี "ลำโพง" หลายตัวให้เลือก การรันคำสั่งต่อไปนี้จะให้บริการไซต์สาธิตที่คุณสามารถทดสอบเสียงต่างๆ ที่มีได้:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
linux – sudo apt-get install espeak -y
windows – ดาวน์โหลดไฟล์ปฏิบัติการจาก repo
บน windows คุณจะต้องมี
Desktop development with C++
.NET desktop build tools
ดาวน์โหลด Microsoft C++ Build Tools และติดตั้งการขึ้นต่อกันเหล่านี้
โคลน repo
git clone https://github.com/alxpez/alts.git
ไปที่โฟลเดอร์หลัก
cd alts/
ติดตั้งการพึ่งพาโครงการ
pip install -r requirements.txt
ดูส่วนข้อกำหนดเบื้องต้น เพื่อให้แน่ใจว่าเครื่องของคุณพร้อมที่จะสตาร์ท ALTS
ทำซ้ำและเปลี่ยนชื่อไฟล์ปรับแต่งที่จำเป็น
cp config-template.yaml config.yaml
cp .env.template .env
แก้ไขการกำหนดค่าเริ่มต้นตามความต้องการของคุณ
เริ่มต้น ALTS
sudo python alts.py
แพ็คเกจ
keyboard
จำเป็นต้องเรียกใช้ในฐานะผู้ดูแลระบบ (ใน macOS และ Linux) ไม่ใช่กรณีบน Windows