Fuji-Web: AIベースのフルブラウザ自動化 ?
Fuji-Web は、ユーザーの意図を理解し、自律的に Web サイトを移動し、各アクション ステップを説明しながらユーザーに代わってタスクを実行するインテリジェントな AI パートナーです。
デモ
FujiWebCompressed.mp4
どのように機能するのでしょうか?
デモビデオ、ベンチマーク、詳細な技術概要については、ブログ投稿をお読みください。
インストールと実行
ブラウザに拡張機能をダウンロードしてインストールします
- リリース ページに移動し、拡張機能の最新バージョンを見つけて、「fuji-extension.zip」をダウンロードします。
- ファイルを解凍します。
- 次の手順を実行して、Chrome に拡張機能を読み込みます。
-
chrome://extensions/
に移動します Developer mode
切り替えLoad unpacked extension
をクリックします- 解凍したフォルダーを選択します
拡張機能を使用する
拡張機能を機能させるには、ページを更新する必要がある場合があることに注意してください。
- ブラウザの右上隅にある Fuji アイコンを見つけてクリックし、サイドパネルを開きます。
- OpenAI API キーまたは既存の Anthropic API キーを作成またはアクセスし、提供されたボックスに貼り付けます。このキーはブラウザに保存され、第三者にアップロードされることはありません。
- 最後に、Fuji-Web に実行させたい Web ページに移動し、実行させたいタスクを入力します。
注: すべてのプロンプト (テキストと画像) は、選択した API に直接送信されます。 Fuji-Web は、お客様からいかなる情報も収集することはありません。
拡張機能をビルドする
ソースから拡張機能をビルドする場合は、次の手順に従ってください。
- Node.js があることを確認してください。開発は Node v20 で行われましたが、いくつかの下位バージョンでも動作するはずです。
- このリポジトリのクローンを作成します
pnpm
グローバルにインストールします: npm install -g pnpm
-
pnpm install
実行する pnpm dev
実行して開発サーバーを起動するか、 pnpm build
実行して拡張機能をビルドします。
拡張機能をロードするときは、ビルド プロセスによって作成されたdist
フォルダーをロードする必要があります。
ロードマップ
- ブラウザ自動化フレームワーク (Puppeteer、Playwright、Selenium など) と簡単に統合できるように API を公開します。
- より複雑なクロス集計ワークフローのサポートを追加
- より多くの閲覧動作 (ドロップダウンからの選択、ページ全体からのコンテンツの抽出など) のサポートを追加します。
- ワークフローの保存のサポートを追加
- ワークフローと手順を他のユーザーと共有するためのサポートを追加します
- ユーザーが協力して Fuji-Web のパフォーマンスを向上させる知識を作成できる、ウィキペディアのような知識ベースを作成します。
トラブルシューティング
一般的な問題の解決方法については、トラブルシューティング ガイドをご覧ください。
貢献する
Fuji-Web に貢献することに興味がありますか?ぜひご協力をお願いいたします。貢献、バグの報告、機能強化の提案などの方法に関するガイドラインについては、貢献ガイドをご覧ください。
また、Discord 上に Fuji-Web のフィードバック用の専用チャンネル (https://discord.gg/yfMjZ8udb5) を開設しました。
クレジット
- Fuji-Web の画像アノテーション手法は、マイクロソフトの UFO 論文からインスピレーションを受けました。
- ブラウザのサイドパネルに組み込まれたツールとしての Fuji は、TaxyAI のブラウザ拡張機能からインスピレーションを受けました。また、その UI コードの一部も使用しました。
- Chrome 拡張機能のセットアップでは、素晴らしい定型プロジェクト Jonghakseo/chrome-extension-boilerplate-react-vite を活用しました。
- Fuji ロゴは Toss Face Emoji デザイン セットからのものです。