GPTアイズ
GPT-4に目を与えました。 「眼观六路、耳听八方」
私がやったことは次のとおりです。
- ビジョンモデルにデータを追加しました
- AIカメラにアクセスを許可した
- シーンについて質問した
- オブジェクトを識別しました
- ウェブで情報を検索しました
- その情報を使って正確に答えました
3 つの質問に 100% 正解するのを見てください!
- ツイッター https://twitter.com/mckaywrigley/status/1651291367224807424?s=20
- YouTube https://www.youtube.com/watch?v=w-wxguIs-0I
このパッケージはスポンサーウェアですか?
https://github.com/sponsors/Charmve?frequency=one-time&sponsor=Charmve
このリポジトリは、スポンサーが 15 名に達するまで、GitHub スポンサーのスポンサーのみが利用できました。
スポンサーウェアの詳細については、github.com/sponsorware/docs をご覧ください。
使用されている技術
- フロントエンド: 反応
- 画像分析 API: TensorFlow モデル - MobileNet
- テキスト生成 API: GPT API
インストール
- リポジトリのクローンを作成します:
git clone https://github.com/Charmve/gpt-eyes.git
- プロジェクト ディレクトリに移動します:
cd gpt-eyes
- 依存関係をインストールします:
npm install
構成
- アカウントを作成し、TensorFlow モデル - MobileNet および GPT API の API キーを取得します。
- API キーを使用して構成ファイルを更新します。
- TensorFlow モデル - MobileNet:
/path/to/config.js
- GPT API:
/path/to/config.js
使用法
- 開発サーバーを起動します:
npm start
- ブラウザを開いて、
http://localhost:3000
にアクセスします。
仕組み
- デバイスのカメラが画像を分析します。
- このアプリケーションは、TensorFlow モデル - MobileNet API を使用して画像を分析し、オブジェクト情報を抽出します。
- アプリケーションは、分析されたオブジェクト情報を GPT API に送信します。
- GPT API は、分析されたオブジェクトを説明するテキストを生成します。
- アプリケーションは、分析された画像と生成されたテキストを表示します。