Описание: Это потрясающий Google Gemini Vision Pro?, мощный инструмент, который сканирует изображения, генерирует описания с помощью Gemini AI Pro Vision API и обеспечивает речевую обратную связь. Он также захватывает изображения с помощью веб-камеры.
? Введение ?
Google Gemini Vision Pro — универсальное приложение, сочетающее в себе обработку изображений, распознавание речи и преобразование текста в речь. С помощью этого приложения вы можете захватывать изображения с помощью веб-камеры, преобразовывать произнесенные слова в текст, создавать описания изображений и даже проговаривать эти описания вам в ответ.
Руководство по установке
Шаг 1. Клонируйте репозиторий.
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Шаг 2. Установите зависимости
pip install -r requirements.txt
Шаг 3. Запустите приложение.
Шаг 4. Получите ключ Google Palm API и настройте приложение.
- Получите ключ API Google Palm.
- Посетите следующий URL: Google AI Studio.
- Нажмите кнопку «Создать ключ API» .
- Сгенерированный ключ является вашим ключом API. Обязательно скопируйте его и вставьте в настройки приложения .
- Ключ API имеет решающее значение для функционирования. Пожалуйста, сохраните его в безопасности и не передавайте его никому .
Настройки ИИ Близнецов:
Разделы ИИ
Основные разделы этого проекта, посвященные искусственному интеллекту, включают в себя:
- ? Обнаружение веб-камеры с использованием WebRTC, OpenCV и PIL
- Преобразование речи в текст с помощью Google Cloud Speech-to-Text API
- ?️ Преобразование текста в речь с помощью Google Cloud Text-to-Speech API.
- ? Обработка изображений с использованием API Gemini AI Pro Vision
Функции
- ? Обнаружение веб-камеры с захватом изображений в реальном времени
- Преобразование речи в текст произнесенных слов
- ?️ Преобразование текста в речь для создания устных описаний
- ? Обработка изображений с использованием искусственного интеллекта для предоставления подробных описаний
- Ведение журнала с использованием модуля журналирования Python
- Обработка ошибок с помощью обработки исключений Python
WebUI — демонстрация приложений
Демо на YouTube:
Веб-камера с прямой трансляцией:
Демонстрация Gemini Ai Vision с объектом в качестве Кэпа:
Демонстрация Gemini Ai Vision с Hand:
Демонстрация Gemini Ai Vision с жестами:
Используемые пакеты
Этот проект опирается на различные пакеты Python, в том числе:
- Streamlit — платформа веб-приложений, используемая для создания приложения.
- Streamlit Webrtc — используется для захвата изображений с веб-камеры.
- OpenCV — используется для захвата изображений с веб-камеры.
- PIL (Pillow) — используется для обработки и преобразования изображений.
- gTTS (Google Text-to-Speech) — преобразует текст в речь.
- SpeechRecognition — преобразует речь в текст.
- google.cloud.speech — часть облачных сервисов Google для преобразования речи в текст.
Ссылки и ссылки
Перейдите по этим ссылкам, чтобы просмотреть контент, связанный с Google Gemini Vision Pro :
- Google ИИ-студия
- Google Близнецы Видение Про
- Google Близнецы Deepmind
Управление версиями
- Версия : 1.0: Начальная версия
Содействие
Мы приветствуем вклады! Чтобы начать, следуйте нашим Правилам внесения взносов .
Лицензия
Этот проект лицензируется по лицензии MIT — подробности см. в файле ЛИЦЕНЗИИ .
Автор
- НебесаHM
- Дата: 17-12-2023