描述:這是令人驚嘆的 Google Gemini Vision Pro™,一款功能強大的工具,可掃描影像、使用 Gemini AI Pro Vision API 產生描述並提供語音回饋。它還使用網路攝影機捕捉影像。
?介紹?
Google Gemini Vision Pro 是一款多功能應用程序,結合了影像處理、語音辨識和文字轉語音功能。借助此應用程序,您可以使用網路攝影機擷取圖像、將口語轉換為文字、生成圖像描述,甚至可以將描述回覆給您。
安裝指南
第 1 步:克隆儲存庫
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
步驟2:安裝依賴項
pip install -r requirements.txt
第 3 步:運行應用程式
步驟 4: 取得 Google Palm API 金鑰並設定應用程式
- 取得 Google Palm API 金鑰。
- 造訪以下網址:Google AI Studio
- 按一下建立 API 金鑰按鈕。
- 產生的金鑰是您的 API 金鑰。請確保將其複製並貼上到應用程式設定中。
- API金鑰對於功能至關重要,請確保其安全,不要與任何人共用。
雙子座人工智慧設定:
人工智慧部分
該專案的核心人工智慧部分包括:
- ?使用 WebRTC、OpenCV 和 PIL 進行網路攝影機偵測
- 使用 Google Cloud Speech-to-Text API 進行語音到文字轉換
- ?️ 使用 Google Cloud Text-to-Speech API 進行文字轉語音轉換
- ?使用 Gemini AI Pro Vision API 進行影像處理
特徵
- ?具有即時影像擷取的網路攝影機偵測
- 口語的語音到文字轉換
- ?️ 用於產生語音描述的文字轉語音
- ?使用AI進行影像處理提供詳細描述
- 使用Python的logging模組進行日誌記錄
- 使用Python的異常處理來處理錯誤
WebUI - 應用程式展示
YouTube 示範:
即時直播的網路攝影機:
以物體為 Cap 的 Gemini Ai Vision 示範:
Gemini Ai Vision 用手示範:
Gemini Ai Vision 手勢示範:
使用的包
此專案依賴各種Python包,包括:
- Streamlit - 用於建立應用程式的 Web 應用程式框架
- Streamlit Webrtc - 用於從網路攝影機擷取影像
- OpenCV - 用於網路攝影機影像擷取
- PIL(Pillow)-用於影像處理和轉換
- gTTS(Google 文字轉語音)- 將文字轉換為語音
- 語音辨識 - 將語音轉換為文字
- google.cloud.speech - 用於語音到文字轉換的 Google Cloud 服務的一部分
連結和參考
請點選以下連結取得Google Gemini Vision Pro相關內容:
- 谷歌人工智慧工作室
- 谷歌雙子座視覺專業版
- Google雙子座 Deepmind
版本控制
貢獻
我們歡迎貢獻!請遵循我們的貢獻指南來開始。
執照
該項目根據MIT 許可證獲得許可 - 有關詳細信息,請參閱許可證文件。
作者