Голосовой помощник ChatGPT
- Голосовой помощник ChatGPT использует Raspberry Pi (или настольный компьютер) для обеспечения разговорного общения с большими языковыми моделями OpenAI. Эта реализация слушает речь, обрабатывает разговор через службу OpenAI и отвечает. Например, Apple Siri, Amazon Alex, Google Nest Home, Mi XiaoAi и т. д.
- Этот проект написан на Python, который поддерживает Linux/Raspbian, macOS и Windows.
Функции
- Поддерживает голосовой диалог в реальном времени. После того как ChatGPT вернет предложение, вы можете услышать голос вместо того, чтобы ждать всех ответов ChatGPT, прежде чем запускать синтез голоса.
- Поддерживайте непрерывный диалог, сохраняйте историю всех текущих разговоров ChatGPT. Если размер разговора ChatGPT превышает 4096 токенов (gpt-3.5-turbo), ранняя история разговоров будет удалена.
- Поддержите местное слово пробуждения, используйте его так же, как Siri.
Голосовой помощник-спикер
- Аппаратное обеспечение
- $ для Raspberry PI 3/3B/4/4B
- $ за USB-микрофон
- $ за дополнительный динамик
- $ за SD-карту (>= 8 ГБ) (для установки ОС Raspberry Pi)
- Программное обеспечение
- Службы когнитивной речи Azure
- Уровень бесплатного пользования : 5 часов аудио в месяц и 1 одновременный запрос.
- Бесплатный кредит в размере 200 долларов США : с новой учетной записью Azure, которую можно использовать в течение первых 30 дней.
- ОпенАИ
- 0,002 доллара США / 1 тыс. токенов / ~750 слов : ChatGPT (gpt-3.5-turbo)
- Бесплатный кредит в размере 18 долларов США : с новой учетной записью OpenAI, которую можно использовать в течение первых 90 дней.
Настраивать
- Вам понадобится экземпляр Azure Cognitive Services и учетная запись OpenAI. Вы можете запустить программное обеспечение практически на любой платформе, но давайте начнем с Raspberry Pi.
Малиновый Пи
- Если вы новичок в Raspberry Pis, ознакомьтесь с этим руководством по началу работы.
1. ОС
- Вставьте SD-карту в компьютер.
- Перейдите на https://www.raspberrypi.com/software/, затем загрузите и запустите Raspberry Pi Imager.
- Нажмите
Choose OS
и выберите ОС Raspberry Pi (64-разрядная версия) или Ubuntu 22.04.2 LTS (64-разрядная версия). - Нажмите
Choose Storage
и выберите SD-карту. - Нажмите
Write
и дождитесь завершения создания образа. - Вставьте SD-карту в Raspberry Pi и подключите клавиатуру, мышь и монитор.
- Завершите первоначальную настройку, обязательно настроив Wi-Fi.
2. USB-динамик/микрофон
- Подключите USB-динамик/микрофон, если вы еще этого не сделали.
- На рабочем столе ОС Raspberry PI щелкните правой кнопкой мыши значок громкости в правом верхнем углу экрана и убедитесь, что выбрано USB-устройство.
- Щелкните правой кнопкой мыши значок микрофона в правом верхнем углу экрана и убедитесь, что выбрано USB-устройство.
Лазурный
Разговорный динамик использует Azure Cognitive Service для преобразования речи в текст и текста в речь. Ниже приведены шаги по созданию учетной записи Azure и экземпляра Azure Cognitive Services.
1. Учетная запись Azure
- В веб-браузере перейдите по адресу https://aka.ms/friendbot/azure и нажмите
Try Azure for Free
. - Нажмите
Start Free
чтобы начать создание бесплатной учетной записи Azure. - Войдите в свою учетную запись Microsoft или GitHub.
- После входа в систему вам будет предложено ввести некоторую информацию.
ПРИМЕЧАНИЕ. Несмотря на то, что это бесплатная учетная запись, Azure по-прежнему требует данные кредитной карты. С вас не будет взиматься плата, если вы не измените настройки позже.
- После завершения настройки учетной записи перейдите по адресу https://aka.ms/friendbot/azureportal.
2. Когнитивные службы Azure.
- Войдите в свою учетную запись на странице https://aka.ms/friendbot/azureportal.
- В строке поиска вверху введите
Cognitive Services
. В Marketplace
выберите Cognitive Services
. (Заполнение может занять несколько секунд.) - Убедитесь, что выбрана правильная подписка. В разделе
Resource Group
выберите Create New
. Введите имя группы ресурсов (например, conv-speak-rg
). - Выберите регион и имя для вашего экземпляра Azure Cognitive Services (например,
my-conv-speak-cog-001
). ПРИМЕЧАНИЕ. Рекомендуется использовать EastUS, WestEurope или SoutheastAsia, поскольку эти регионы, как правило, поддерживают наибольшее количество функций.
- Нажмите
Review + Create
. После прохождения проверки нажмите Create
. - После завершения развертывания вы можете нажать
Go to resource
чтобы просмотреть ресурс Azure Cognitive Services. - На левой панели навигации в разделе
Resourse Management
выберите Keys and Endpoint
. - Скопируйте любой из двух ключей Cognitive Services. Сохраните этот ключ в безопасном месте на будущее.
Пользователи Windows 11: если приложение зависает при вызове API преобразования текста в речь, убедитесь, что вы установили все текущие обновления безопасности (ссылка).
ОпенАИ
Разговорный динамик использует модели OpenAI для ведения дружеской беседы. Ниже приведены шаги по созданию новой учетной записи и доступу к моделям AI. Поддерживает официальный API OpenAI или API Azure OpenAI, просто выберите один.
1. Аккаунт OpenAI
- В веб-браузере перейдите по адресу https://aka.ms/maker/openai. Нажмите
Sign up
. ПРИМЕЧАНИЕ. Для создания новой учетной записи можно использовать учетную запись Google, учетную запись Microsoft или электронную почту.
- Завершите процесс регистрации (например, создайте пароль, подтвердите свой адрес электронной почты и т. д.).
ПРИМЕЧАНИЕ. Если вы новичок в OpenAI, ознакомьтесь с рекомендациями по использованию (https://beta.openai.com/docs/usage-guidelines).
- В правом верхнем углу нажмите на свою учетную запись. Нажмите
View API keys
. - Нажмите
+ Create new secret key
. Скопируйте сгенерированный ключ и сохраните его в безопасном месте для дальнейшего использования.
Если вам интересно напрямую поиграть с большими языковыми моделями, посетите https://platform.openai.com/playground?mode=chat в верхней части страницы после входа в https://aka.ms/maker. /опенай.
2. Учетная запись Azure OpenAI.
Выберите между официальной учетной записью OpenAI или учетной записью Azure OpenAI.
- Создать учетную запись Azure
- Если у вас нет учетной записи Azure, перейдите на официальный сайт Azure, чтобы зарегистрировать учетную запись. Azure предлагает бесплатную учетную запись, и новые пользователи могут получить определенное количество бесплатных кредитов для тестирования и обучения.
- Подать заявку на доступ
- На странице службы Azure OpenAI нажмите кнопку «Подать заявку на доступ». Вы перейдете на страницу приложения, где вам нужно будет заполнить некоторую необходимую информацию, включая название вашей компании, вариант использования и т. д.
- Настройка и использование
- Получив доступ, вы можете создать новый ресурс службы OpenAI на портале Azure. После создания вы можете получить ключ API и начать использовать службу Azure OpenAI, следуя официальной документации.
Кодекс
1. Конфигурация кода
- Пакет Python Speech SDK доступен для Windows (x64 и x86), Mac x64 (macOS X версии 10.14 или новее), Mac Arm64 (macOS версии 11.0 или новее) и Linux.
- На Raspberry Pi или вашем компьютере откройте терминал командной строки.
- В Ubuntu или Debian выполните следующие команды для установки необходимых пакетов:
sudo apt-get update
sudo apt-get install libssl-dev libasound2
- В Ubuntu 22.04 LTS также необходимо загрузить и установить последнюю версию пакета libssl1.1 , например, с http://security.ubuntu.com/ubuntu/pool/main/o/openssl/.
- Клонируйте репо.
git clone https://github.com/jackwuwei/gptspeaker.git
- Настройте ключи API. Замените config.json
{AzureCognitiveServices.Key}
и {AzureCognitiveServices.Region}
своим ключом API OpenAI, а {OpenAI.Key}
— своим ключом API OpenAI. {
"AzureCognitiveServices" : {
"Key" : " AzureCognitiveServicesKey " ,
"Region" : " AzureCognitiveServicesRegion " ,
},
"OpenAI" : {
"Key" : " OpenAIKey " ,
},
// Just choose one of the two OpenAI above
"AzureOpenAI" :
{
"Key" : " " , // Key 1 or Key 2
"api_version" : " 2024-02-01 " ,
"Endpoint" : " " , // Endpoint
"Model" : " " // Azure AI Studio deployment name
}
}
- Требования к установке
pip3 -r install requirements.txt
- Запустите код
2. (Необязательно) Создайте собственную фразу пробуждения.
В базе кода уже есть фраза пробуждения по умолчанию ( "Hey GPT"
), которую я предлагаю вам использовать в первую очередь. Если вы хотите создать свое собственное (бесплатное!) Слово пробуждения, выполните следующие действия.
- Создайте собственную модель ключевых слов, следуя инструкциям здесь: https://aka.ms/hackster/microsoft/wakeword.
- Загрузите модель, извлеките файл
.table
и скопируйте его в исходный корневой каталог. - Обновите файл
config.json
, чтобы включить в сборку файл фразы пробуждения. "AzureCognitiveServices" : {
"WakePhraseModel" : " xxx.table " ,
"WakeWord" : " xxx " ,
}
- Пересоберите и запустите проект, чтобы использовать собственное слово пробуждения.