ChatGPT ผู้ช่วยเสียง
- ChatGPT Voice Assistant ใช้ Raspberry Pi (หรือเดสก์ท็อป) เพื่อเปิดใช้งานการสนทนาด้วยโมเดลภาษาขนาดใหญ่ของ OpenAI การใช้งานนี้จะฟังคำพูด ประมวลผลการสนทนาผ่านบริการ OpenAI และตอบกลับ เช่น Apple Siri, Amazon Alex, Google Nest Home, Mi XiaoAi เป็นต้น
- โปรเจ็กต์นี้เขียนด้วยภาษา Python ซึ่งรองรับ Linux/Raspbian, macOS และ Windows
คุณสมบัติ
- รองรับการสนทนาด้วยเสียงแบบเรียลไทม์ หลังจากที่ ChatGPT ส่งคืนประโยค คุณจะได้ยินเสียงแทนการรอการตอบกลับของ ChatGPT ทั้งหมดก่อนที่จะเริ่มการสังเคราะห์เสียง
- รองรับการสนทนาอย่างต่อเนื่อง บันทึกประวัติการสนทนาปัจจุบันของ ChatGPT ทั้งหมด เมื่อการสนทนา ChatGPT มีขนาดใหญ่กว่าโทเค็น 4,096 รายการ (gpt-3.5-turbo) ประวัติการสนทนาในช่วงแรกจะถูกละทิ้ง
- รองรับคำปลุกท้องถิ่น ใช้เหมือนกับ Siri
ลำโพงผู้ช่วยเสียง
- ฮาร์ดแวร์
- $ สำหรับราสเบอร์รี่ PI 3/3B/4/4B
- $ สำหรับ USB Micro Phone
- $ สำหรับลำโพง Aux
- $ สำหรับการ์ด SD (>= 8GB ) (เพื่อตั้งค่า Raspberry Pi OS)
- ซอฟต์แวร์
- บริการคำพูดเกี่ยวกับความรู้ความเข้าใจ Azure
- ระดับฟรี : 5 ชั่วโมงเสียงต่อเดือนและ 1 คำขอพร้อมกัน
- เครดิตฟรี $200 : ด้วยบัญชี Azure ใหม่ที่สามารถใช้ได้ในช่วง 30 วันแรก
- OpenAI
- $0.002 / โทเค็น 1K / ~750 คำ : ChatGPT (gpt-3.5-turbo)
- เครดิตฟรี $18 : ด้วยบัญชี OpenAI ใหม่ที่สามารถใช้ได้ในช่วง 90 วันแรกของคุณ
ตั้งค่า
- คุณจะต้องมีอินสแตนซ์ของ Azure Cognitive Services และบัญชี OpenAI คุณสามารถรันซอฟต์แวร์ได้บนเกือบทุกแพลตฟอร์ม แต่มาเริ่มกันที่ Raspberry Pi กันก่อน
ราสเบอร์รี่ปี่
- หากคุณยังใหม่กับ Raspberry Pis โปรดดูคู่มือเริ่มต้นใช้งานนี้
1. ระบบปฏิบัติการ
- ใส่การ์ด SD ลงในพีซีของคุณ
- ไปที่ https://www.raspberrypi.com/software/ จากนั้นดาวน์โหลดและเรียกใช้ Raspberry Pi Imager
- คลิก
Choose OS
และเลือก Raspberry Pi OS (64 บิต) หรือ Ubuntu 22.04.2 LTS (64 บิต) - คลิก
Choose Storage
เลือกการ์ด SD - คลิก
Write
และรอให้การถ่ายภาพเสร็จสิ้น - ใส่การ์ด SD ลงใน Raspberry Pi แล้วเชื่อมต่อคีย์บอร์ด เมาส์ และจอภาพ
- ตั้งค่าเริ่มต้นให้เสร็จสมบูรณ์ ตรวจสอบให้แน่ใจว่าได้กำหนดค่า Wi-Fi แล้ว
2. ลำโพง/ไมโครโฟน USB
- เสียบลำโพง/ไมโครโฟน USB หากคุณยังไม่ได้ดำเนินการ
- บนเดสก์ท็อป Raspberry PI OS ให้คลิกขวาที่ไอคอนระดับเสียงที่มุมขวาบนของหน้าจอ และตรวจสอบให้แน่ใจว่าได้เลือกอุปกรณ์ USB แล้ว
- คลิกขวาที่ไอคอนไมโครโฟนที่มุมขวาบนของหน้าจอ และตรวจดูให้แน่ใจว่าได้เลือกอุปกรณ์ USB แล้ว
สีฟ้า
ผู้พูดสนทนาใช้บริการ Azure Cognitive Service สำหรับการแปลงคำพูดเป็นข้อความและการแปลงข้อความเป็นคำพูด ด้านล่างนี้เป็นขั้นตอนในการสร้างบัญชี Azure และอินสแตนซ์ของ Azure Cognitive Services
1. บัญชี Azure
- ในเว็บเบราว์เซอร์ ให้ไปที่ https://aka.ms/friendbot/azure แล้วคลิก
Try Azure for Free
- คลิกที่
Start Free
เพื่อเริ่มสร้างบัญชี Azure ฟรี - ลงชื่อเข้าใช้ด้วยบัญชี Microsoft หรือ GitHub ของคุณ
- หลังจากลงชื่อเข้าใช้แล้ว คุณจะได้รับแจ้งให้ป้อนข้อมูลบางอย่าง
หมายเหตุ: แม้ว่านี่จะเป็นบัญชีฟรี แต่ Azure ยังคงต้องการข้อมูลบัตรเครดิต คุณจะไม่ถูกเรียกเก็บเงินเว้นแต่คุณจะเปลี่ยนการตั้งค่าในภายหลัง
- หลังจากการตั้งค่าบัญชีของคุณเสร็จสมบูรณ์ ให้ไปที่ https://aka.ms/friendbot/azureportal
2. บริการความรู้ความเข้าใจ Azure
- ลงชื่อเข้าใช้บัญชีของคุณที่ https://aka.ms/friendbot/azureportal
- ในแถบค้นหาด้านบน ให้ป้อน
Cognitive Services
ภายใต้ Marketplace
ให้เลือก Cognitive Services
(อาจใช้เวลาสักครู่ในการเติมข้อมูล) - ตรวจสอบว่าได้เลือกการสมัครสมาชิกที่ถูกต้อง ภายใต้
Resource Group
เลือก Create New
ป้อนชื่อกลุ่มทรัพยากร (เช่น conv-speak-rg
) - เลือกภูมิภาคและชื่อสำหรับอินสแตนซ์ของ Azure Cognitive Services ของคุณ (เช่น
my-conv-speak-cog-001
) หมายเหตุ: แนะนำให้ใช้ EastUS, WestEurope หรือ SoutheastAsia เนื่องจากภูมิภาคเหล่านั้นมีแนวโน้มที่จะรองรับฟีเจอร์จำนวนมากที่สุด
- คลิกที่
Review + Create
หลังจากผ่านการตรวจสอบแล้ว คลิก Create
- เมื่อการปรับใช้งานเสร็จสิ้น คุณสามารถคลิก
Go to resource
เพื่อดูทรัพยากร Azure Cognitive Services ของคุณ - บนแถบนำทางด้านซ้าย ภายใต้
Resourse Management
ให้เลือก Keys and Endpoint
- คัดลอกคีย์ Cognitive Services อันใดอันหนึ่งจากทั้งสองคีย์ บันทึกคีย์นี้ไว้ในตำแหน่งที่ปลอดภัยเพื่อใช้ในภายหลัง
ผู้ใช้ Windows 11: หากแอปพลิเคชันหยุดทำงานเมื่อเรียกใช้ API การแปลงข้อความเป็นคำพูด ตรวจสอบให้แน่ใจว่าคุณได้ใช้การอัปเดตความปลอดภัยปัจจุบันทั้งหมด (ลิงก์)
OpenAI
ผู้พูดสนทนาใช้แบบจำลองของ OpenAI เพื่อจัดการสนทนาที่เป็นมิตร ด้านล่างนี้เป็นขั้นตอนในการสร้างบัญชีใหม่และเข้าถึงโมเดล AI รองรับ API อย่างเป็นทางการของ OpenAI หรือ Azure OpenAI API เพียงเลือกอย่างใดอย่างหนึ่ง
1. บัญชี OpenAI
- ในเว็บเบราว์เซอร์ ให้ไปที่ https://aka.ms/maker/openai คลิก
Sign up
หมายเหตุ: สามารถใช้บัญชี Google, บัญชี Microsoft หรืออีเมลเพื่อสร้างบัญชีใหม่ได้
- ดำเนินการลงทะเบียนให้เสร็จสิ้น (เช่น สร้างรหัสผ่าน ยืนยันอีเมลของคุณ ฯลฯ)
หมายเหตุ: หากคุณยังใหม่กับ OpenAI โปรดตรวจสอบหลักเกณฑ์การใช้งาน (https://beta.openai.com/docs/usage-guidelines)
- ที่มุมขวาบนให้คลิกบัญชีของคุณ คลิกที่
View API keys
- คลิก
+ Create new secret key
คัดลอกคีย์ที่สร้างขึ้นและบันทึกไว้ในตำแหน่งที่ปลอดภัยเพื่อใช้ในภายหลัง
หากคุณอยากเล่นกับโมเดลภาษาขนาดใหญ่โดยตรง โปรดดู https://platform.openai.com/playground?mode=chat ที่ด้านบนของหน้าหลังจากเข้าสู่ระบบ https://aka.ms/maker /openai.
2. บัญชี Azure OpenAI
เลือกระหว่างบัญชีอย่างเป็นทางการของ OpenAI หรือบัญชี Azure OpenAI
- สร้างบัญชี Azure
- หากคุณไม่มีบัญชี Azure ให้ไปที่เว็บไซต์อย่างเป็นทางการของ Azure เพื่อสมัครบัญชี Azure เสนอตัวเลือกบัญชีฟรี และผู้ใช้ใหม่สามารถรับเครดิตฟรีจำนวนหนึ่งสำหรับการทดสอบและการเรียนรู้
- สมัครเพื่อการเข้าถึง
- ในหน้าบริการ Azure OpenAI ให้คลิกปุ่ม "สมัครเพื่อการเข้าถึง" นี่จะนำคุณไปยังหน้าการสมัครซึ่งคุณต้องกรอกข้อมูลที่จำเป็น รวมถึงชื่อบริษัท กรณีการใช้งาน ฯลฯ
- กำหนดค่าและใช้งาน
- เมื่อคุณมีสิทธิ์เข้าถึง คุณสามารถสร้างทรัพยากรบริการ OpenAI ใหม่ในพอร์ทัล Azure ได้ หลังจากการสร้าง คุณสามารถรับคีย์ API และเริ่มใช้บริการ Azure OpenAI ตามเอกสารอย่างเป็นทางการ
รหัส
1. การกำหนดค่ารหัส
- แพ็คเกจ Python Speech SDK พร้อมใช้งานสำหรับ Windows (x64 และ x86), Mac x64 (macOS X เวอร์ชัน 10.14 หรือใหม่กว่า), Mac arm64 (macOS เวอร์ชัน 11.0 หรือใหม่กว่า) และ Linux
- บน Raspberry Pi หรือพีซีของคุณ ให้เปิดเทอร์มินัลบรรทัดคำสั่ง
- บน Ubuntu หรือ Debian ให้รันคำสั่งต่อไปนี้เพื่อติดตั้งแพ็คเกจที่จำเป็น:
sudo apt-get update
sudo apt-get install libssl-dev libasound2
- บน Ubuntu 22.04 LTS จำเป็นต้องดาวน์โหลดและติดตั้งแพ็คเกจ libssl1.1 ล่าสุด เช่น จาก http://security.ubuntu.com/ubuntu/pool/main/o/openssl/
- โคลน repo
git clone https://github.com/jackwuwei/gptspeaker.git
- ตั้งค่าคีย์ API ของคุณ: แทนที่ config.json
{AzureCognitiveServices.Key}
และ {AzureCognitiveServices.Region}
ด้วยคีย์ OpenAI API และ {OpenAI.Key}
ด้วยคีย์ OpenAI API ของคุณ {
"AzureCognitiveServices" : {
"Key" : " AzureCognitiveServicesKey " ,
"Region" : " AzureCognitiveServicesRegion " ,
},
"OpenAI" : {
"Key" : " OpenAIKey " ,
},
// Just choose one of the two OpenAI above
"AzureOpenAI" :
{
"Key" : " " , // Key 1 or Key 2
"api_version" : " 2024-02-01 " ,
"Endpoint" : " " , // Endpoint
"Model" : " " // Azure AI Studio deployment name
}
}
- ข้อกำหนดในการติดตั้ง
pip3 -r install requirements.txt
- เรียกใช้รหัส
2. (ไม่บังคับ) สร้างวลีปลุกที่กำหนดเอง
ฐานโค้ดมีวลีปลุกเริ่มต้น ( "Hey GPT"
) อยู่แล้ว ซึ่งฉันขอแนะนำให้คุณใช้ก่อน หากคุณต้องการสร้างคำปลุกแบบกำหนดเองของคุณเอง (ฟรี!) ให้ทำตามขั้นตอนด้านล่าง
- สร้างโมเดลคำหลักที่กำหนดเองโดยใช้คำแนะนำที่นี่: https://aka.ms/hackster/microsoft/wakeword
- ดาวน์โหลดโมเดล แตกไฟล์
.table
และคัดลอกไปยังไดเร็กทอรีรากต้นทาง - อัปเดตไฟล์
config.json
เพื่อรวมไฟล์ Wake Phrase ไว้ในบิลด์ "AzureCognitiveServices" : {
"WakePhraseModel" : " xxx.table " ,
"WakeWord" : " xxx " ,
}
- สร้างและรันโปรเจ็กต์ใหม่เพื่อใช้คำปลุกที่คุณกำหนดเอง