( Aku mendengarkan | berpikir | puncak )
100% gratis, asisten lokal dan offline dengan fungsi pengenalan suara dan bicara balik.
ALTS berjalan di latar belakang dan menunggu Anda menekan cmd+esc
(atau win+esc
).
Sambil menahan tombol pintas, suara Anda akan direkam (disimpan di root proyek) .
Saat dirilis, rekaman dihentikan dan transkrip dikirim ke LLM (rekaman dihapus) .
Respons LLM kemudian disintesis dan diputar ulang untuk Anda (juga ditampilkan sebagai notifikasi desktop) .
Anda dapat mengubah kombinasi tombol pintas dan pengaturan lainnya di config.yaml
Anda.
SEMUA proses bersifat lokal dan TIDAK ADA rekaman atau pertanyaan Anda yang keluar dari lingkungan Anda; rekaman akan dihapus segera setelah digunakan; itu SEMUA PRIBADI secara default
(diuji pada) versi >=3.11 di macOS dan versi >=3.8 di windows
Secara default, proyek dikonfigurasi untuk bekerja dengan Ollama, menjalankan model stablelm2
(model yang sangat kecil dan cepat). Pengaturan ini membuat seluruh sistem benar-benar bebas untuk dijalankan secara lokal dan bagus untuk mesin dengan sumber daya rendah.
Namun, kami menggunakan LiteLLM untuk menjadi penyedia agnostik, sehingga Anda memiliki kebebasan penuh untuk memilih kombinasi Anda sendiri. Lihat Model/Penyedia yang didukung untuk detail lebih lanjut tentang konfigurasi LLM.
Lihat
.env.template
danconfig-template.yaml
untuk menyesuaikan pengaturan Anda
Kami menggunakan openAI's whisper
untuk mentranskripsikan pertanyaan suara Anda. Ini adalah model pengenalan suara untuk tujuan umum.
Anda harus menginstal ffmepg
di lingkungan Anda, Anda dapat mengunduhnya dari situs resminya.
Pastikan untuk memeriksa dokumen pengaturannya, untuk persyaratan lainnya.
jika Anda mengalami kesalahan, salah satu alasannya mungkin karena model tidak diunduh secara otomatis. Jika demikian, Anda dapat menjalankan transkripsi contoh
whisper
di terminal Anda (lihat contoh) atau mengunduhnya secara manual dan menempatkan file model di folder yang benar
Kami menggunakan coqui-TTS
untuk ALTS untuk membalas Anda. Ini adalah perpustakaan untuk pembuatan Text-to-Speech tingkat lanjut.
Anda perlu menginstal eSpeak-ng
di lingkungan Anda:
Pastikan untuk memeriksa dokumen pengaturannya, untuk persyaratan lainnya.
jika Anda belum mengunduh model yang dikonfigurasi, model tersebut akan diunduh secara otomatis saat startup, namun jika Anda mengalami masalah, model default dapat diunduh terlebih dahulu dengan menjalankan perintah berikut:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364Model default memiliki beberapa "speaker" untuk dipilih; menjalankan perintah berikut akan menampilkan situs demo tempat Anda dapat menguji berbagai suara yang tersedia:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
linux – sudo apt-get install espeak -y
windows – unduh file yang dapat dieksekusi dari repo mereka
di windows Anda juga memerlukan pengembangan Desktop dengan
.NET desktop build tools
Desktop development with C++
dan .NET. Unduh Microsoft C++ Build Tools dan instal dependensi ini.
mengkloning repo
git clone https://github.com/alxpez/alts.git
pergi ke folder utama
cd alts/
instal dependensi proyek
pip install -r requirements.txt
lihat bagian prasyarat, untuk memastikan mesin Anda siap memulai ALTS
duplikat dan ganti nama file konfigurasi yang diperlukan
cp config-template.yaml config.yaml
cp .env.template .env
ubah konfigurasi default sesuai kebutuhan Anda
memulai ALTS
sudo python alts.py
paket
keyboard
harus dijalankan sebagai admin (di macOS dan Linux), tidak demikian halnya di Windows