SingularGPT é um projeto de código aberto que automatiza seu dispositivo usando ChatGPT e GPT-4.
Com SingularGPT você pode instruir facilmente seu dispositivo com consultas simples baseadas em texto.
Por exemplo:
Digamos que você precise clicar no botão que tem o texto 'Arquivo', basta dizer:
Consulta: Ei, por favor clique no item com o texto Arquivo.
Ele executará a ação processando sua consulta, direcionando-as para suas instruções compreensíveis e executando-as.
Você pode simplesmente executá-lo no Google Colab com uma GPU.
Siga estas etapas cuidadosamente
pip install -r requirements.txt
Certifique-se de executar este comando no mesmo diretório onde o arquivo requirements.txt
está localizado.
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
se você estiver no Linux, defina como: _PLATFORM
as linux [Por padrão é windows
]
main.py
passando sua consulta. python main . py
SingularGPT
se você estiver travado ou levantar um problemascript.py
. Crie um arquivo .env
com OPENAI_API
e coloque sua API openai_api lá ou passe como variável de ambiente.
Coloque scripts de automação em script.py
e execute-o.
Escreva sua consulta de prompt no arquivo Prompts/prompts.txt
ou passe como uma string no arquivo main.py
# Run the main script.
python main . py
Para visualizar isso veja este bot no Poe
A maneira antiga usando seletores X_PATH ou CSS/JS ou apenas coordenadas.
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
Não, ele usa as novas técnicas de detecção de elementos da GUI.
Não!
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
Localize e execute ações no elemento que está à esquerda ou à direita ou mesmo no elemento mais próximo dele.
ZexUI é uma biblioteca independente que usa técnicas de processamento de imagem para automação de GUI.
Aqui estão alguns métodos e seu uso.
Claro! Aqui estão as descrições de cada método:
text()
: Este método é usado para localizar um elemento de texto na página da web com base no conteúdo de texto fornecido na consulta.
textRegex()
: Este método é usado para localizar um elemento de texto na página da web com base em uma expressão regular fornecida na consulta.
textContains()
: Este método é usado para localizar um elemento de texto na página da web que contém uma palavra específica fornecida na consulta.
image()
: Este método é usado para localizar um elemento de imagem na página da web com base no caminho da imagem fornecido na consulta.
findLeftOf()
: Este método é usado para localizar um elemento que está à esquerda do texto/imagem fornecido na consulta.
findRightOf()
: Este método é usado para localizar um elemento que está à direita do texto/imagem fornecido na consulta.
findTopOf()
: Este método é usado para localizar um elemento que está acima do texto/imagem fornecido na consulta.
findBottomOf()
: Este método é usado para localizar um elemento que está abaixo do texto/imagem fornecido na consulta.
findNearestTo()
: Este método é usado para localizar o elemento mais próximo do texto/imagem fornecido na consulta.
click()
: Este método é usado para clicar no elemento que está localizado usando o texto/imagem ou qualquer outro método.
mouseMove()
: Este método é usado para mover o mouse até o elemento que está localizado usando o texto/imagem ou qualquer outro método.
scroll_up()
: Este método é usado para rolar a página da web.
scroll_down()
: Este método é usado para rolar a página da web para baixo.
scroll_left()
: Este método é usado para rolar para a esquerda na página da web.
scroll_right()
: Este método é usado para rolar para a direita na página da web.
... Mais estão nos documentos.
É isso que este projeto pretende e tenta alcançar.
? Então, é assim que as coisas funcionam nos bastidores:
Converte consultas em linguagem natural em scripts de automação que podem ser usados para realizar a tarefa
SingularGPT Processa sua tela, obtém os dados necessários que estão sendo solicitados.
Gera comandos para realizar a tarefa.
Reconheça o que está na sua tela
Até mesmo o que está no seu servidor headless usando x11
Pode processá-los internamente.
Crie scripts de automações por conta própria
Automatiza seu dispositivo
Este projeto é possível com a ajuda de vários campos da ciência da computação, como visão baseada em IA, bibliotecas personalizadas, automação de dispositivos e processamento de lógica interna usando os mais recentes ChatGPT e GPT-4.
Resumidamente:
Visão computacional de IA + Automação (ZexUI) + GPT
Considerando deixar uma estrela.
Ajuda na redação da documentação do projeto.