Ojos GPT
Le di ojos GPT-4. "眼观六路,耳听八方"
Esto es lo que hice:
- Agregó algunos datos a un modelo de visión.
- le dio acceso a la cámara AI
- le hizo preguntas sobre la escena
- identificó objetos
- buscó información en la web
- usé esa información para responder con precisión
¡Míralo obtener 3 preguntas 100% correctas!
- Gorjeo https://twitter.com/mckaywrigley/status/1651291367224807424?s=20
- YouTube https://www.youtube.com/watch?v=w-wxguIs-0I
¿Este paquete es patrocinado?
https://github.com/sponsors/Charmve?frequency=one-time&sponsor=Charmve
Este repositorio solo estuvo disponible para mis patrocinadores en GitHub Sponsors hasta que llegué a 15 patrocinadores.
Obtenga más información sobre el patrocinio en github.com/sponsorware/docs.
Tecnologías utilizadas
- Interfaz: Reaccionar
- API de análisis de imágenes: modelos TensorFlow - MobileNet
- API de generación de texto: API GPT
Instalación
- Clona el repositorio:
git clone https://github.com/Charmve/gpt-eyes.git
- Navegue al directorio del proyecto:
cd gpt-eyes
- Instalar dependencias:
npm install
Configuración
- Cree una cuenta y obtenga claves API para los modelos TensorFlow: MobileNet y GPT API.
- Actualice el archivo de configuración con sus claves API:
- Modelos de TensorFlow - MobileNet:
/path/to/config.js
- API de GPT:
/path/to/config.js
Uso
- Inicie el servidor de desarrollo:
npm start
- Abra su navegador y visite:
http://localhost:3000
Cómo funciona
- La cámara del dispositivo analiza una imagen.
- La aplicación utiliza TensorFlow Models - MobileNet API para analizar la imagen y extraer información del objeto.
- La aplicación envía la información del objeto analizado a la API de GPT.
- La API de GPT genera texto que describe el objeto analizado.
- La aplicación muestra la imagen analizada y el texto generado.