( l слушает | думает | s пики )
100% бесплатный локальный и офлайн-помощник с функциями распознавания речи и обратной связи.
ALTS работает в фоновом режиме и ждет, пока вы нажмете cmd+esc
(или win+esc
).
При удержании горячей клавиши ваш голос будет записываться (сохраняется в корне проекта) .
При выпуске запись останавливается и расшифровка отправляется в LLM (запись удаляется) .
Затем ответы LLM синтезируются и воспроизводятся (также отображаются в виде уведомлений на рабочем столе) .
Вы можете изменить комбинацию горячих клавиш и другие настройки в своем config.yaml
.
ВСЕ процессы являются локальными, и НИ ОДНА из ваших записей или запросов не выходит за пределы вашей среды; записи удаляются сразу после использования; по умолчанию ВСЕ ЧАСТНОЕ
(проверено) версия >=3.11 в macOS и версия >=3.8 в Windows
По умолчанию проект настроен для работы с Ollama, использующим модель stablelm2
(очень маленькая и быстрая модель). Эта настройка делает всю систему полностью бесплатной для локального запуска и отлично подходит для компьютеров с низкими ресурсами.
Однако мы используем LiteLLM, чтобы быть независимым от поставщика услуг, поэтому у вас есть полная свобода выбора собственных комбинаций. Ознакомьтесь с поддерживаемыми моделями/поставщиками для получения более подробной информации о конфигурации LLM.
См.
.env.template
иconfig-template.yaml
для настройки вашей настройки.
Мы используем openAI's whisper
для расшифровки ваших голосовых запросов. Это универсальная модель распознавания речи.
Вам потребуется установить ffmepg
в вашей среде, вы можете скачать его с официального сайта.
Обязательно ознакомьтесь с их документацией по установке на наличие других требований.
Если вы столкнетесь с ошибками, одной из причин может быть то, что модель не загружается автоматически. В этом случае вы можете запустить пример транскрипции
whisper
в своем терминале (см. примеры) или вручную загрузить его и поместить файл модели в правильную папку.
Мы используем coqui-TTS
для ALTS, чтобы связаться с вами. Это библиотека для расширенного преобразования текста в речь.
Вам нужно будет установить eSpeak-ng
в вашей среде:
Обязательно ознакомьтесь с их документацией по установке на наличие других требований.
Если у вас еще нет загруженной настроенной модели, она должна загрузиться автоматически во время запуска, однако, если у вас возникнут какие-либо проблемы, модель по умолчанию можно предварительно загрузить, выполнив следующую команду:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364Модель по умолчанию имеет несколько «динамиков» на выбор; выполнение следующей команды создаст демонстрационный сайт, на котором вы сможете протестировать различные доступные голоса:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
Linux – sudo apt-get install espeak -y
Windows – загрузите исполняемый файл из их репозитория
в Windows вам также понадобится разработка настольных компьютеров с помощью
.NET desktop build tools
Desktop development with C++
и .NET. Загрузите инструменты сборки Microsoft C++ и установите эти зависимости.
клонировать репозиторий
git clone https://github.com/alxpez/alts.git
зайти в основную папку
cd alts/
установить зависимости проекта
pip install -r requirements.txt
см. раздел «Предварительные требования», чтобы убедиться, что ваша машина готова к запуску ALTS.
дублируйте и переименовывайте необходимые файлы конфигурации
cp config-template.yaml config.yaml
cp .env.template .env
измените конфигурацию по умолчанию в соответствии с вашими потребностями
запустить АЛЬТС
sudo python alts.py
пакет
keyboard
необходимо запускать от имени администратора (в macOS и Linux), в Windows это не так