描述:这是令人惊叹的 Google Gemini Vision Pro™,一款功能强大的工具,可以扫描图像、使用 Gemini AI Pro Vision API 生成描述并提供语音反馈。它还使用网络摄像头捕获图像。
?介绍?
Google Gemini Vision Pro 是一款多功能应用程序,结合了图像处理、语音识别和文本转语音功能。借助此应用程序,您可以使用网络摄像头捕获图像、将口语转换为文本、生成图像描述,甚至可以将描述回复给您。
安装指南
第 1 步:克隆存储库
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
第2步:安装依赖项
pip install -r requirements.txt
第 3 步:运行应用程序
第 4 步:获取 Google Palm API 密钥并设置应用程序
- 获取 Google Palm API 密钥。
- 访问以下网址:Google AI Studio
- 单击创建 API 密钥按钮。
- 生成的密钥是您的 API 密钥。请确保将其复制并粘贴到应用程序设置中。
- API密钥对于功能至关重要,请确保其安全,不要与任何人共享。
双子座人工智能设置:
人工智能部分
该项目的核心人工智能部分包括:
- ?使用 WebRTC、OpenCV 和 PIL 进行网络摄像头检测
- 使用 Google Cloud Speech-to-Text API 进行语音到文本转换
- ?️ 使用 Google Cloud Text-to-Speech API 进行文本到语音转换
- ?使用 Gemini AI Pro Vision API 进行图像处理
特征
- ?具有实时图像捕获的网络摄像头检测
- 口语的语音到文本转换
- ?️ 用于生成语音描述的文本转语音
- ?使用AI进行图像处理提供详细描述
- 使用Python的logging模块进行日志记录
- 使用Python的异常处理来处理错误
WebUI - 应用程序展示
YouTube 演示:
带实时直播的网络摄像头:
以物体为 Cap 的 Gemini Ai Vision 演示:
Gemini Ai Vision 用手演示:
Gemini Ai Vision 手势演示:
使用的包
该项目依赖于各种Python包,包括:
- Streamlit - 用于构建应用程序的 Web 应用程序框架
- Streamlit Webrtc - 用于从网络摄像头捕获图像
- OpenCV - 用于网络摄像头图像捕获
- PIL(Pillow)——用于图像处理和转换
- gTTS(Google 文本转语音)- 将文本转换为语音
- 语音识别 - 将语音转换为文本
- google.cloud.speech - 用于语音到文本转换的 Google Cloud 服务的一部分
链接和参考
请点击以下链接获取Google Gemini Vision Pro相关内容:
- 谷歌人工智能工作室
- 谷歌双子座视觉专业版
- 谷歌双子座 Deepmind
版本控制
贡献
我们欢迎贡献!请遵循我们的贡献指南来开始。
执照
该项目根据MIT 许可证获得许可 - 有关详细信息,请参阅许可证文件。
作者