Asisten Suara ChatGPT
- ChatGPT Voice Assistant menggunakan Raspberry Pi (atau desktop) untuk mengaktifkan percakapan lisan dengan model bahasa besar OpenAI. Implementasi ini mendengarkan ucapan, memproses percakapan melalui layanan OpenAI, dan merespons kembali. Seperti Apple Siri, Amazon Alex, Google Nest Home, Mi XiaoAi dll.
- Proyek ini ditulis dengan python yang mendukung Linux/Raspbian, macOS, dan Windows.
Fitur
- Mendukung dialog suara waktu nyata. Setelah ChatGPT mengembalikan sebuah kalimat, Anda dapat mendengar suaranya alih-alih menunggu semua balasan ChatGPT sebelum memulai sintesis suara.
- Mendukung dialog berkelanjutan, menyimpan riwayat semua percakapan ChatGPT saat ini. Jika percakapan ChatGPT lebih besar dari 4096 token (gpt-3.5-turbo), riwayat percakapan awal akan dibuang.
- Mendukung kata bangun lokal, gunakan seperti Siri.
Pembicara Asisten Suara
- Perangkat keras
- $ untuk Raspberry PI 3/3B/4/4B
- $ untuk Telepon Mikro USB
- $ untuk Pembicara Tambahan
- $ untuk kartu SD (>= 8GB ) (untuk mengatur OS Raspberry Pi)
- Perangkat lunak
- Layanan Pidato Kognitif Azure
- Tingkat gratis : 5 jam audio per bulan dan 1 permintaan bersamaan.
- Kredit $200 gratis : Dengan akun Azure baru yang dapat digunakan selama 30 hari pertama.
- OpenAI
- $0,002 / 1K token / ~750 kata : ChatGPT (gpt-3.5-turbo)
- Kredit $18 gratis : Dengan akun OpenAI baru yang dapat digunakan selama 90 hari pertama Anda.
Pengaturan
- Anda memerlukan instans Azure Cognitive Services dan akun OpenAI. Anda dapat menjalankan perangkat lunak di hampir semua platform, tapi mari kita mulai dengan Raspberry Pi.
Raspberry Pi
- Jika Anda baru mengenal Raspberry Pis, lihat panduan memulai ini.
1. OS
- Masukkan kartu SD ke PC Anda.
- Buka https://www.raspberrypi.com/software/ lalu unduh dan jalankan Raspberry Pi Imager.
- Klik
Choose OS
dan pilih Raspberry Pi OS (64-bit) atau Ubuntu 22.04.2 LTS (64-bit) . - Klik
Choose Storage
, pilih kartu SD. - Klik
Write
dan tunggu hingga pencitraan selesai. - Masukkan kartu SD ke Raspberry Pi Anda dan sambungkan keyboard, mouse, dan monitor.
- Selesaikan pengaturan awal, pastikan untuk mengkonfigurasi Wi-Fi.
2. Speaker/Mikrofon USB
- Colokkan speaker/mikrofon USB jika Anda belum melakukannya.
- Pada desktop Raspberry PI OS, klik kanan ikon volume di kanan atas layar dan pastikan perangkat USB dipilih.
- Klik kanan ikon mikrofon di kanan atas layar dan pastikan perangkat USB dipilih.
Biru langit
Pembicara percakapan menggunakan Azure Cognitive Service untuk ucapan-ke-teks dan teks-ke-ucapan. Berikut adalah langkah-langkah untuk membuat akun Azure dan instans Azure Cognitive Services.
1. Akun Azure
- Di browser web, navigasikan ke https://aka.ms/friendbot/azure dan klik
Try Azure for Free
. - Klik
Start Free
untuk mulai membuat akun Azure gratis. - Masuk dengan akun Microsoft atau GitHub Anda.
- Setelah masuk, Anda akan diminta memasukkan beberapa informasi.
CATATAN: Meskipun ini adalah akun gratis, Azure tetap memerlukan informasi kartu kredit. Anda tidak akan dikenakan biaya kecuali Anda mengubah pengaturannya nanti.
- Setelah penyiapan akun Anda selesai, navigasikan ke https://aka.ms/friendbot/azureportal.
2. Layanan Kognitif Azure
- Masuk ke akun Anda di https://aka.ms/friendbot/azureportal.
- Di bilah pencarian di bagian atas, masukkan
Cognitive Services
. Di bawah Marketplace
pilih Cognitive Services
. (Mungkin diperlukan waktu beberapa detik untuk terisi.) - Verifikasikan langganan yang benar telah dipilih. Di bawah
Resource Group
pilih Create New
. Masukkan nama grup sumber daya (misalnya conv-speak-rg
). - Pilih wilayah dan nama untuk instans Azure Cognitive Services Anda (misalnya
my-conv-speak-cog-001
). CATATAN: AS Timur, Eropa Barat, atau Asia Tenggara direkomendasikan karena wilayah tersebut cenderung mendukung fitur paling banyak.
- Klik
Review + Create
. Setelah validasi lolos, klik Create
. - Ketika penyebaran telah selesai, Anda dapat mengklik
Go to resource
untuk melihat sumber daya Azure Cognitive Services Anda. - Di bilah navigasi sebelah kiri, di bawah
Resourse Management
, pilih Keys and Endpoint
. - Salin salah satu dari dua kunci Cognitive Services. Simpan kunci ini di lokasi yang aman untuk nanti.
Pengguna Windows 11: Jika aplikasi terhenti saat memanggil API text-to-speech, pastikan Anda telah menerapkan semua pembaruan keamanan terkini (tautan).
OpenAI
Pembicara percakapan menggunakan model OpenAI untuk mengadakan percakapan ramah. Berikut adalah langkah-langkah untuk membuat akun baru dan mengakses model AI. Mendukung API resmi OpenAI atau API Azure OpenAI, pilih saja salah satu.
1. Akun OpenAI
- Di browser web, navigasikan ke https://aka.ms/maker/openai. Klik
Sign up
. CATATAN: dapat menggunakan akun Google, akun Microsoft, atau email untuk membuat akun baru.
- Selesaikan proses pendaftaran (misalnya, membuat kata sandi, memverifikasi email Anda, dll.).
CATATAN: Jika Anda baru mengenal OpenAI, harap tinjau pedoman penggunaan (https://beta.openai.com/docs/usage-guidelines).
- Di pojok kanan atas, klik akun Anda. Klik
View API keys
. - Klik
+ Create new secret key
. Salin kunci yang dihasilkan dan simpan di lokasi aman untuk nanti.
Jika Anda penasaran untuk bermain langsung dengan model bahasa besar, lihat https://platform.openai.com/playground?mode=chat di bagian atas halaman setelah masuk ke https://aka.ms/maker /openai.
2. Akun Azure OpenAI
Pilih antara akun resmi OpenAI atau akun Azure OpenAI
- Buat Akun Azure
- Jika Anda tidak memiliki akun Azure, kunjungi situs web resmi Azure untuk mendaftar akun. Azure menawarkan opsi akun gratis, dan pengguna baru bisa mendapatkan sejumlah kredit gratis untuk pengujian dan pembelajaran.
- Terapkan untuk Akses
- Pada halaman layanan Azure OpenAI, klik tombol "Terapkan untuk Akses". Ini akan membawa Anda ke halaman aplikasi di mana Anda perlu mengisi beberapa informasi yang diperlukan, termasuk nama perusahaan Anda, kasus penggunaan, dll.
- Konfigurasi dan Gunakan
- Setelah memiliki akses, Anda dapat membuat sumber daya layanan OpenAI baru di portal Microsoft Azure. Setelah pembuatan, Anda bisa mendapatkan kunci API dan mulai menggunakan layanan Azure OpenAI dengan mengikuti dokumentasi resmi.
Kode
1. Konfigurasi Kode
- Paket Python Speech SDK tersedia untuk Windows (x64 dan x86), Mac x64 (macOS X versi 10.14 atau lebih baru), Mac arm64 (macOS versi 11.0 atau lebih baru), dan Linux
- Di Raspberry Pi atau PC Anda, buka terminal baris perintah.
- Di Ubuntu atau Debian, jalankan perintah berikut untuk instalasi paket yang diperlukan:
sudo apt-get update
sudo apt-get install libssl-dev libasound2
- Di Ubuntu 22.04 LTS juga diharuskan mengunduh dan menginstal paket libssl1.1 terbaru misalnya dari http://security.ubuntu.com/ubuntu/pool/main/o/openssl/.
- Kloning reponya.
git clone https://github.com/jackwuwei/gptspeaker.git
- Setel kunci API Anda: Ganti config.json
{AzureCognitiveServices.Key}
dan {AzureCognitiveServices.Region}
dengan kunci API OpenAI Anda dan {OpenAI.Key}
dengan kunci API OpenAI Anda. {
"AzureCognitiveServices" : {
"Key" : " AzureCognitiveServicesKey " ,
"Region" : " AzureCognitiveServicesRegion " ,
},
"OpenAI" : {
"Key" : " OpenAIKey " ,
},
// Just choose one of the two OpenAI above
"AzureOpenAI" :
{
"Key" : " " , // Key 1 or Key 2
"api_version" : " 2024-02-01 " ,
"Endpoint" : " " , // Endpoint
"Model" : " " // Azure AI Studio deployment name
}
}
- Persyaratan pemasangan
pip3 -r install requirements.txt
- Jalankan kodenya
2. (Opsional) Buat frase bangun khusus
Basis kode sudah memiliki frasa bangun default ( "Hey GPT"
), yang saya sarankan Anda gunakan terlebih dahulu. Jika Anda ingin membuat kata bangun khusus (gratis!) sendiri, ikuti langkah-langkah di bawah ini.
- Buat model kata kunci khusus menggunakan petunjuk di sini: https://aka.ms/hackster/microsoft/wakeword.
- Unduh modelnya, ekstrak file
.table
dan salin ke direktori root sumber. - Perbarui file
config.json
untuk menyertakan file frase bangun Anda di build. "AzureCognitiveServices" : {
"WakePhraseModel" : " xxx.table " ,
"WakeWord" : " xxx " ,
}
- Bangun kembali dan jalankan proyek untuk menggunakan kata bangun khusus Anda.