GPT-Augen
Ich habe GPT-4 Augen gegeben. „眼观六路,耳听八方“
Folgendes habe ich getan:
- einige Daten zu einem Vision-Modell hinzugefügt
- gab der KI-Kamera Zugriff
- stellte ihm Fragen zur Szene
- es identifizierte Objekte
- Es durchsuchte das Internet nach Informationen
- Ich habe diese Informationen verwendet, um genau zu antworten
Beobachten Sie, wie die drei Fragen zu 100 % richtig gestellt werden!
- Twitter https://twitter.com/mckaywrigley/status/1651291367224807424?s=20
- YouTube https://www.youtube.com/watch?v=w-wxguIs-0I
Dieses Paket ist Sponsorware ???
https://github.com/sponsors/Charmve?frequenz=one-time&sponsor=Charmve
Dieses Repo war nur für meine Sponsoren auf GitHub Sponsors verfügbar, bis ich 15 Sponsoren erreichte.
Erfahren Sie mehr über Sponsorware unter github.com/sponsorware/docs?
Verwendete Technologien
- Frontend: Reagieren
- Bildanalyse-API: TensorFlow-Modelle – MobileNet
- Textgenerierungs-API: GPT-API
Installation
- Klonen Sie das Repository:
git clone https://github.com/Charmve/gpt-eyes.git
- Navigieren Sie zum Projektverzeichnis:
cd gpt-eyes
- Abhängigkeiten installieren:
npm install
Konfiguration
- Erstellen Sie ein Konto und erhalten Sie API-Schlüssel für TensorFlow-Modelle – MobileNet und GPT-API.
- Aktualisieren Sie die Konfigurationsdatei mit Ihren API-Schlüsseln:
- TensorFlow-Modelle – MobileNet:
/path/to/config.js
- GPT-API:
/path/to/config.js
Verwendung
- Starten Sie den Entwicklungsserver:
npm start
- Öffnen Sie Ihren Browser und besuchen Sie:
http://localhost:3000
Wie es funktioniert
- Die Gerätekamera analysiert ein Bild.
- Die Anwendung verwendet TensorFlow Models – MobileNet API, um das Bild zu analysieren und Objektinformationen zu extrahieren.
- Die Anwendung sendet die analysierten Objektinformationen an die GPT-API.
- Die GPT-API generiert Text, der das analysierte Objekt beschreibt.
- Die Anwendung zeigt das analysierte Bild und den generierten Text an.