SingularGPT — это проект с открытым исходным кодом, который автоматизирует ваше устройство с помощью ChatGPT и GPT-4.
С SingularGPT вы можете легко инструктировать свое устройство с помощью простых текстовых запросов.
Например:
Допустим, вам нужно нажать кнопку с текстом «Файл», просто скажите это:
Запрос: Эй, пожалуйста, нажмите на элемент с текстовым файлом.
Он выполнит действие, обработав ваш запрос, превратив его в понятные инструкции и выполнив их.
Вы можете просто запустить его в Google Colab с графическим процессором.
Внимательно следуйте этим шагам
pip install -r requirements.txt
Убедитесь, что вы запускаете эту команду в том же каталоге, где находится файл requirements.txt
.
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
если вы используете Linux, установите как: _PLATFORM
как linux [по умолчанию — windows
]
main.py
передав свой запрос. python main . py
SingularGPT
если вы застряли или подняли проблемуscript.py
. Создайте файл .env
с OPENAI_API
и поместите туда API openai_api или передайте его в качестве переменной среды.
Поместите скрипты автоматизации в script.py
и запустите его.
Напишите запрос подсказки в файле Prompts/prompts.txt
или передайте его в виде строки в файле main.py
# Run the main script.
python main . py
Чтобы визуализировать это, посмотрите этого бота на Poe.
Старый способ с использованием селекторов X_PATH или CSS/JS или просто координат.
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
Нет, он использует новые методы обнаружения элементов графического интерфейса.
Нет!
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
Найдите и выполните действия с элементом, который находится слева или справа или даже с самым ближайшим к нему элементом.
ZexUI — это отдельная библиотека, использующая методы обработки изображений для автоматизации графического интерфейса.
Вот некоторые методы и их использование.
Конечно! Вот описания каждого метода:
text()
: этот метод используется для поиска текстового элемента на веб-странице на основе текстового содержимого, предоставленного в запросе.
textRegex()
: этот метод используется для поиска текстового элемента на веб-странице на основе регулярного выражения, указанного в запросе.
textContains()
: этот метод используется для поиска текстового элемента на веб-странице, содержащего определенное слово, указанное в запросе.
image()
: этот метод используется для поиска элемента изображения на веб-странице на основе пути к изображению, указанного в запросе.
findLeftOf()
: этот метод используется для поиска элемента, который находится слева от текста/изображения, указанного в запросе.
findRightOf()
: этот метод используется для поиска элемента, который находится справа от текста/изображения, указанного в запросе.
findTopOf()
: этот метод используется для поиска элемента, который находится над текстом/изображением, указанным в запросе.
findBottomOf()
: этот метод используется для поиска элемента, который находится под текстом/изображением, указанным в запросе.
findNearestTo()
: этот метод используется для поиска элемента, ближайшего к тексту/изображению, указанному в запросе.
click()
: этот метод используется для щелчка по элементу, расположенному с помощью текста/изображения или любого другого метода.
mouseMove()
: этот метод используется для перемещения мыши к элементу, который находится с помощью текста/изображения или любого другого метода.
scroll_up()
: этот метод используется для прокрутки веб-страницы вверх.
scroll_down()
: этот метод используется для прокрутки веб-страницы вниз.
scroll_left()
: этот метод используется для прокрутки веб-страницы влево.
scroll_right()
: этот метод используется для прокрутки веб-страницы прямо.
... Подробнее в документации.
Это то, к чему стремится данный проект и пытается достичь того же.
? Итак, вот как все работает под капотом:
Преобразует запрос на естественном языке в сценарии автоматизации, которые в дальнейшем можно использовать для решения задачи.
SingularGPT обрабатывает ваш экран, получает необходимые данные, которые запрашиваются.
Генерирует команды для достижения задачи.
Распознавайте, что у вас на экране
Даже то, что находится на вашем безголовом сервере, использующем x11
Может внутренне обрабатывать их.
Самостоятельно создавать скрипты автоматизации
Автоматизирует ваше устройство
Эти проекты стали возможными с помощью различных областей информатики, таких как зрение на основе искусственного интеллекта, пользовательские библиотеки, автоматизация устройств и внутренняя логическая обработка с использованием новейших версий ChatGPT и GPT-4.
Суммируя:
Компьютерное зрение AI + Автоматизация (ZexUI) + GPT
Подумываю об уходе из звезды.
Помощь в написании документации для проекта.