Olhos GPT
Eu dei olhos ao GPT-4. "眼观六路,耳听八方"
Aqui está o que eu fiz:
- adicionou alguns dados a um modelo de visão
- deu acesso à câmera AI
- fez perguntas sobre a cena
- identificou objetos
- pesquisou informações na web
- usou essa informação para responder com precisão
Assista, acerte 3 questões 100% corretas!
- Twitter https://twitter.com/mckaywrigley/status/1651291367224807424?s=20
- YouTube https://www.youtube.com/watch?v=w-wxguIs-0I
Este pacote é patrocinador ???
https://github.com/sponsors/Charmve?frequency=one-time&sponsor=Charmve
Este repositório estava disponível apenas para meus patrocinadores no GitHub Sponsors até chegar a 15 patrocinadores.
Saiba mais sobre o Sponsorware em github.com/sponsorware/docs ?.
Tecnologias Utilizadas
- Front-end: Reagir
- API de análise de imagem: modelos TensorFlow - MobileNet
- API de geração de texto: API GPT
Instalação
- Clone o repositório:
git clone https://github.com/Charmve/gpt-eyes.git
- Navegue até o diretório do projeto:
cd gpt-eyes
- Instale dependências:
npm install
Configuração
- Crie uma conta e obtenha chaves de API para modelos do TensorFlow - API MobileNet e GPT.
- Atualize o arquivo de configuração com suas chaves de API:
- Modelos TensorFlow - MobileNet:
/path/to/config.js
- API GPT:
/path/to/config.js
Uso
- Inicie o servidor de desenvolvimento:
npm start
- Abra seu navegador e visite:
http://localhost:3000
Como funciona
- A câmera do dispositivo analisa uma imagem.
- O aplicativo usa modelos TensorFlow - API MobileNet para analisar a imagem e extrair informações do objeto.
- A aplicação envia as informações do objeto analisado para a API GPT.
- A API GPT gera um texto que descreve o objeto analisado.
- O aplicativo exibe a imagem analisada e o texto gerado.