説明:これは素晴らしい Google Gemini Vision Pro で、画像をスキャンし、Gemini AI Pro Vision API を使用して説明を生成し、音声フィードバックを提供する強力なツールです。また、Web カメラを使用して画像をキャプチャします。
?導入?
Google Gemini Vision Pro は、画像処理 ?️、音声認識 ?、テキスト読み上げ機能 ?を組み合わせた多用途アプリケーションです。このアプリケーションを使用すると、Web カメラを使用して画像をキャプチャしたり、話された言葉をテキストに変換したり、画像の説明を生成したり、説明を読み上げたりすることができます。
インストールガイド
ステップ 1: リポジトリのクローンを作成する
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
ステップ 2: 依存関係をインストールする
pip install -r requirements.txt
ステップ 3: アプリケーションを実行する
ステップ 4: Google Palm API キーを取得し、アプリケーションをセットアップする
- Google Palm API キーを取得します。
- 次の URL にアクセスします: Google AI Studio
- 「API キーの作成」ボタンをクリックします。
- 生成されたキーが API キーです。必ずコピーしてアプリケーション設定に貼り付けてください。
- API キーは機能するために重要です。必ず安全に保管し、誰とも共有しないでください。
Gemini AI 設定:
AIセクション
このプロジェクトの中核となる AI セクションには次のものが含まれます。
- ? WebRTC、OpenCV、PIL を使用したWeb カメラの検出
- Google Cloud Speech-to-Text API を使用した音声からテキストへの変換
- ⁉️ Google Cloud Text-to-Speech API を使用したテキスト音声変換
- ? Gemini AI Pro Vision APIを使用した画像処理
特徴
- ?リアルタイム画像キャプチャによる Web カメラ検出
- 話し言葉の音声からテキストへの変換
- ?️ 音声による説明を生成するためのテキスト読み上げ
- ? AIによる画像処理で詳細な説明を実現
- Python のロギング モジュールを使用したロギング
- Pythonの例外処理によるエラー処理
WebUI - アプリケーションのショーケース
YouTube デモ:
ウェブカメラとライブフィード:
オブジェクトをキャップとして使用した Gemini Ai Vision のデモ:
Gemini Ai Vision のデモ (Hand 付き):
Gesture を使用した Gemini Ai Vision のデモ:
使用されるパッケージ
このプロジェクトは、次のようなさまざまな Python パッケージに依存しています。
- Streamlit - アプリケーションの構築に使用される Web アプリ フレームワーク
- Streamlit Webrtc - ウェブカメラから画像をキャプチャするために使用されます
- OpenCV - ウェブカメラの画像キャプチャに使用されます
- PIL (ピロー) - 画像処理と変換に使用されます。
- gTTS (Google Text-to-Speech) - テキストを音声に変換します。
- SpeechRecognition - 音声をテキストに変換します
- google.cloud.speech - 音声からテキストへの変換のための Google Cloud サービスの一部
リンクと参考文献
Google Gemini Vision Pro関連のコンテンツについては、次のリンクをクリックしてください。
- Google AIスタジオ
- Google ジェミニ ビジョン プロ
- Google ジェミニ ディープマインド
バージョン管理
貢献する
寄付を歓迎します!始めるには、投稿ガイドラインに従ってください。
ライセンス
このプロジェクトはMIT ライセンスに基づいてライセンスされています。詳細については、 LICENSEファイルを参照してください。
著者
- ヘブンHM
- 日付: 2023 年 12 月 17 日