SingularGPTは、ChatGPT と GPT-4 を使用してデバイスを自動化するオープンソース プロジェクトです。
SingularGPTを使用すると、単純なテキストベースのクエリでデバイスに簡単に指示できます。
例えば:
「ファイル」というテキストが含まれるボタンをクリックする必要があるとします。次のように言います。
クエリ:テキスト ファイルが含まれる項目をクリックしてください。
クエリを処理し、それを理解可能な命令に変換して実行することで、アクションを実行します。
GPU を使用して Google Colab で実行することもできます。
以下の手順を注意深く実行してください
pip install -r requirements.txt
このコマンドは、 requirements.txt
ファイルと同じディレクトリで実行してください。
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
でプラットフォーム名を変更します。 Linux を使用している場合は、次のように設定します: _PLATFORM
as linux [デフォルトはwindows
]
main.py
を実行します。 python main . py
SingularGPT
ボットを使用してくださいscript.py
ファイルに含まれていることを確認してください。 OPENAI_API
を使用して.env
ファイルを作成し、そこに openai_api API を配置するか、環境変数として渡します。
script.py
に自動化スクリプトを入れて実行します。
プロンプト クエリをPrompts/prompts.txt
ファイルに記述するか、 main.py
ファイルに文字列として渡します。
# Run the main script.
python main . py
これを視覚化するには、Poe のこのボットを参照してください
X_PATH または CSS/JS セレクターを使用するか、座標だけを使用する古い方法。
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
いいえ、新しい GUI 要素検出技術が使用されています。
いや!
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
左または右の要素、またはその要素に最も近い要素を見つけてアクションを実行します。
ZexUI は、GUI 自動化に画像処理技術を使用するスタンドアロン ライブラリです。
ここではいくつかの方法とその使用法を紹介します。
もちろん!各メソッドの説明は次のとおりです。
text()
: このメソッドは、クエリで提供されたテキスト コンテンツに基づいて Web ページ上のテキスト要素を見つけるために使用されます。
textRegex()
: このメソッドは、クエリで提供された正規表現に基づいて Web ページ上のテキスト要素を見つけるために使用されます。
textContains()
: このメソッドは、クエリで指定された特定の単語を含む Web ページ上のテキスト要素を見つけるために使用されます。
image()
: このメソッドは、クエリで指定された画像パスに基づいて Web ページ上の画像要素を見つけるために使用されます。
findLeftOf()
: このメソッドは、クエリで指定されたテキスト/画像の左側にある要素を見つけるために使用されます。
findRightOf()
: このメソッドは、クエリで指定されたテキスト/画像の右側にある要素を見つけるために使用されます。
findTopOf()
: このメソッドは、クエリで指定されたテキスト/画像の上にある要素を見つけるために使用されます。
findBottomOf()
: このメソッドは、クエリで指定されたテキスト/画像の下にある要素を見つけるために使用されます。
findNearestTo()
: このメソッドは、クエリで指定されたテキスト/画像に最も近い要素を見つけるために使用されます。
click()
: このメソッドは、テキスト/画像またはその他のメソッドを使用して配置された要素をクリックするために使用されます。
mouseMove()
: このメソッドは、テキスト/画像またはその他のメソッドを使用して配置された要素にマウスを移動するために使用されます。
scroll_up()
: このメソッドは、Web ページを上にスクロールするために使用されます。
scroll_down()
: このメソッドは、Web ページを下にスクロールするために使用されます。
scroll_left()
: このメソッドは、Web ページを左にスクロールするために使用されます。
scroll_right()
: このメソッドは、Web ページを右にスクロールするために使用されます。
...詳細についてはドキュメントをご覧ください。
これがこのプロジェクトの目標であり、同じことを達成しようとしています。
?したがって、内部でどのように機能するかは次のとおりです。
自然言語クエリを自動化スクリプトに変換し、タスクを達成するためにさらに使用できるようにします。
SingularGPT 画面を処理し、要求された内容の必要なデータを取得します。
タスクを達成するためのコマンドを生成します。
画面上にあるものを認識する
x11 を使用するヘッドレス サーバー上の内容も含めて
内部で処理できます。
自動化スクリプトを独自に構築する
デバイスを自動化します
このプロジェクトは、AI ベースのビジョン、カスタム ライブラリ、デバイス自動化、最新の ChatGPT および GPT-4 を使用した内部ロジック処理など、コンピューター サイエンスのさまざまな分野の助けを借りて可能になりました。
要するに:
AI コンピューター ビジョン + オートメーション (ZexUI) + GPT
スターを離れることを検討しています。
プロジェクトのドキュメントの作成を支援します。