Kerangka kerja untuk memungkinkan model multimodal mengoperasikan komputer.
Menggunakan input dan output yang sama sebagai operator manusia, model melihat layar dan memutuskan pada serangkaian tindakan mouse dan keyboard untuk mencapai tujuan.
Di Hyperwriteai, kami mengembangkan Agen-1-Vision model multimodal dengan prediksi lokasi klik yang lebih akurat.
Kami akan segera menawarkan akses API ke model agen-1-visi kami.
Jika Anda tertarik untuk mendapatkan akses ke API ini, daftar di sini.
Self-Operating Computer
pip install self-operating-computer
operate
vim .env
untuk membuka .env
dan mengganti kunci lama. operate
-m
Model tambahan sekarang kompatibel dengan kerangka kerja komputer yang beroperasi sendiri. Coba Google gemini-pro-vision
dengan mengikuti instruksi di bawah ini.
Mulailah operate
dengan model Gemini
operate -m gemini-pro-vision
Masukkan kunci API Google AI Studio Anda ketika terminal meminta Anda jika Anda tidak memilikinya, Anda dapat memperoleh kunci di sini setelah menyiapkan akun Google AI Studio Anda. Anda mungkin juga memerlukan kredensial otorisasi untuk aplikasi desktop. Butuh sedikit waktu untuk membuatnya bekerja, jika ada yang tahu cara yang lebih sederhana, tolong buat PR.
-m claude-3
Gunakan Claude 3 dengan visi untuk melihat bagaimana menumpuk hingga GPT-4-Vision dalam mengoperasikan komputer. Arahkan ke dasbor Claude untuk mendapatkan kunci API dan jalankan perintah di bawah ini untuk mencobanya.
operate -m claude-3
-m llava
Jika Anda ingin bereksperimen dengan kerangka kerja komputer yang mengoperasikan diri menggunakan LLAVA pada mesin Anda sendiri, Anda dapat dengan Ollama!
Catatan: Ollama saat ini hanya mendukung macOS dan Linux
Pertama, instal ollama di mesin Anda dari https://ollama.ai/download.
Setelah Ollama diinstal, tarik model LLAVA:
ollama pull llava
Ini akan mengunduh model pada mesin Anda yang membutuhkan sekitar 5 GB penyimpanan.
Ketika Ollama selesai menarik LLAVA, mulai server:
ollama serve
Itu saja! Sekarang mulailah operate
dan pilih model LLAVA:
operate -m llava
Penting: Tarif kesalahan saat menggunakan LLAVA sangat tinggi. Ini hanya dimaksudkan untuk menjadi basis untuk membangun karena model multimodal lokal meningkat dari waktu ke waktu.
Pelajari lebih lanjut tentang ollama di repositori github -nya
--voice
Kerangka kerja mendukung input suara untuk tujuan. Coba suaranya dengan mengikuti instruksi di bawah ini. Kloning repo ke direktori di komputer Anda:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD ke direktori :
cd self-operating-computer
Instal requirements-audio.txt
pip install -r requirements-audio.txt
Instal Persyaratan Perangkat untuk Pengguna Mac:
brew install portaudio
Untuk pengguna Linux:
sudo apt install portaudio19-dev python3-pyaudio
Jalankan dengan mode suara
operate --voice
-m gpt-4-with-ocr
Kerangka komputer yang mengoperasikan diri sekarang mengintegrasikan kemampuan pengenalan karakter optik (OCR) dengan mode gpt-4-with-ocr
. Mode ini memberi GPT-4 peta hash elemen yang dapat diklik oleh koordinat. GPT-4 dapat memutuskan untuk click
elemen melalui teks dan kemudian kode merujuk peta hash untuk mendapatkan koordinat untuk elemen tersebut yang ingin diklik GPT-4.
Berdasarkan tes terbaru, OCR berkinerja lebih baik daripada som
dan Vanilla GPT-4 sehingga kami menjadikannya default untuk proyek tersebut. Untuk menggunakan mode OCR, Anda cukup menulis:
operate
atau operate -m gpt-4-with-ocr
juga akan bekerja.
-m gpt-4-with-som
Kerangka kerja komputer yang mengoperasikan diri sekarang mendukung set-of-mark (SOM) yang meminta dengan perintah gpt-4-with-som
. Metode dorongan visual baru ini meningkatkan kemampuan grounding visual dari model multimodal besar.
Pelajari lebih lanjut tentang dorongan SOM di kertas Arxiv terperinci: di sini.
Untuk versi awal ini, model YOLOV8 sederhana dilatih untuk deteksi tombol, dan file best.pt
termasuk dalam model/weights/
. Pengguna didorong untuk bertukar dalam file best.pt
mereka untuk mengevaluasi peningkatan kinerja. Jika model Anda mengungguli yang sudah ada, silakan berkontribusi dengan membuat permintaan tarik (PR).
Mulailah operate
dengan model SOM
operate -m gpt-4-with-som
Jika Anda ingin berkontribusi sendiri, lihat Contributing.md.
Untuk setiap masukan tentang peningkatan proyek ini, jangan ragu untuk menjangkau Josh di Twitter.
Untuk diskusi waktu nyata dan dukungan masyarakat, bergabunglah dengan server Discord kami.
Tetap diperbarui dengan perkembangan terbaru:
Model gpt-4o
diperlukan. Untuk membuka kunci akses ke model ini, akun Anda perlu menghabiskan setidaknya $ 5 dalam kredit API. Pra-pembayaran untuk kredit ini akan membuka akses jika Anda belum menghabiskan minimum $ 5.
Pelajari lebih lanjut di sini