Unduh self operating computer - Unduh Kode Sumber self operating computer

self operating computer

Kode sumber lainnya

update to `1.4.6`

Unduh

Kerangka kerja komputer yang mengoperasikan diri

Kerangka kerja untuk memungkinkan model multimodal mengoperasikan komputer.

Menggunakan input dan output yang sama sebagai operator manusia, model melihat layar dan memutuskan pada serangkaian tindakan mouse dan keyboard untuk mencapai tujuan.

Fitur utama

Kompatibilitas : Dirancang untuk berbagai model multimodal.
Integrasi : Saat ini terintegrasi dengan GPT-4O, Gemini Pro Vision, Claude 3 dan Llava.
Rencana Masa Depan : Dukungan untuk model tambahan.

Pengembangan yang sedang berlangsung

Di Hyperwriteai, kami mengembangkan Agen-1-Vision model multimodal dengan prediksi lokasi klik yang lebih akurat.

Akses API Model Agen-1-Visi

Kami akan segera menawarkan akses API ke model agen-1-visi kami.

Jika Anda tertarik untuk mendapatkan akses ke API ini, daftar di sini.

Demo

final-low.mp4

Jalankan `Self-Operating Computer`

Instal proyek

 pip install self-operating-computer

Jalankan proyek

 operate

Masukkan kunci openai Anda : Jika Anda tidak memilikinya, Anda dapat memperoleh kunci openai di sini. Jika Anda membutuhkan Anda mengubah kunci Anda di titik selanjutnya, jalankan vim .env untuk membuka .env dan mengganti kunci lama.

Berikan aplikasi terminal izin yang diperlukan : Sebagai langkah terakhir, aplikasi terminal akan meminta izin untuk "perekaman layar" dan "aksesibilitas" di halaman "keamanan & privasi" dari "preferensi sistem" Mac.

Menggunakan mode `operate`

Model Multimodal `-m`

Model tambahan sekarang kompatibel dengan kerangka kerja komputer yang beroperasi sendiri. Coba Google gemini-pro-vision dengan mengikuti instruksi di bawah ini.

Mulailah operate dengan model Gemini

 operate -m gemini-pro-vision

Masukkan kunci API Google AI Studio Anda ketika terminal meminta Anda jika Anda tidak memilikinya, Anda dapat memperoleh kunci di sini setelah menyiapkan akun Google AI Studio Anda. Anda mungkin juga memerlukan kredensial otorisasi untuk aplikasi desktop. Butuh sedikit waktu untuk membuatnya bekerja, jika ada yang tahu cara yang lebih sederhana, tolong buat PR.

Coba claude `-m claude-3`

Gunakan Claude 3 dengan visi untuk melihat bagaimana menumpuk hingga GPT-4-Vision dalam mengoperasikan komputer. Arahkan ke dasbor Claude untuk mendapatkan kunci API dan jalankan perintah di bawah ini untuk mencobanya.

 operate -m claude-3

Coba llava yang diselenggarakan melalui Ollama `-m llava`

Jika Anda ingin bereksperimen dengan kerangka kerja komputer yang mengoperasikan diri menggunakan LLAVA pada mesin Anda sendiri, Anda dapat dengan Ollama!
Catatan: Ollama saat ini hanya mendukung macOS dan Linux

Pertama, instal ollama di mesin Anda dari https://ollama.ai/download.

Setelah Ollama diinstal, tarik model LLAVA:

 ollama pull llava

Ini akan mengunduh model pada mesin Anda yang membutuhkan sekitar 5 GB penyimpanan.

Ketika Ollama selesai menarik LLAVA, mulai server:

 ollama serve

Itu saja! Sekarang mulailah operate dan pilih model LLAVA:

 operate -m llava

Penting: Tarif kesalahan saat menggunakan LLAVA sangat tinggi. Ini hanya dimaksudkan untuk menjadi basis untuk membangun karena model multimodal lokal meningkat dari waktu ke waktu.

Pelajari lebih lanjut tentang ollama di repositori github -nya

Mode Suara `--voice`

Kerangka kerja mendukung input suara untuk tujuan. Coba suaranya dengan mengikuti instruksi di bawah ini. Kloning repo ke direktori di komputer Anda:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD ke direktori :

 cd self-operating-computer

Instal requirements-audio.txt

 pip install -r requirements-audio.txt

Instal Persyaratan Perangkat untuk Pengguna Mac:

 brew install portaudio

Untuk pengguna Linux:

 sudo apt install portaudio19-dev python3-pyaudio

Jalankan dengan mode suara

 operate --voice

Mode Pengenalan Karakter Optik `-m gpt-4-with-ocr`

Kerangka komputer yang mengoperasikan diri sekarang mengintegrasikan kemampuan pengenalan karakter optik (OCR) dengan mode gpt-4-with-ocr . Mode ini memberi GPT-4 peta hash elemen yang dapat diklik oleh koordinat. GPT-4 dapat memutuskan untuk click elemen melalui teks dan kemudian kode merujuk peta hash untuk mendapatkan koordinat untuk elemen tersebut yang ingin diklik GPT-4.

Berdasarkan tes terbaru, OCR berkinerja lebih baik daripada som dan Vanilla GPT-4 sehingga kami menjadikannya default untuk proyek tersebut. Untuk menggunakan mode OCR, Anda cukup menulis:

operate atau operate -m gpt-4-with-ocr juga akan bekerja.

Set-of-mark prompt `-m gpt-4-with-som`

Kerangka kerja komputer yang mengoperasikan diri sekarang mendukung set-of-mark (SOM) yang meminta dengan perintah gpt-4-with-som . Metode dorongan visual baru ini meningkatkan kemampuan grounding visual dari model multimodal besar.

Pelajari lebih lanjut tentang dorongan SOM di kertas Arxiv terperinci: di sini.

Untuk versi awal ini, model YOLOV8 sederhana dilatih untuk deteksi tombol, dan file best.pt termasuk dalam model/weights/ . Pengguna didorong untuk bertukar dalam file best.pt mereka untuk mengevaluasi peningkatan kinerja. Jika model Anda mengungguli yang sudah ada, silakan berkontribusi dengan membuat permintaan tarik (PR).

Mulailah operate dengan model SOM

 operate -m gpt-4-with-som

Kontribusi disambut!:

Jika Anda ingin berkontribusi sendiri, lihat Contributing.md.

Masukan

Untuk setiap masukan tentang peningkatan proyek ini, jangan ragu untuk menjangkau Josh di Twitter.

Bergabunglah dengan Komunitas Perselisihan Kami

Untuk diskusi waktu nyata dan dukungan masyarakat, bergabunglah dengan server Discord kami.

Jika Anda sudah menjadi anggota, bergabunglah dengan diskusi di #-mandiri-komputer.
Jika Anda baru, pertama-tama bergabunglah dengan server Discord kami dan kemudian navigasikan ke #-computer yang beroperasi sendiri.

Ikuti Hyperwriteai untuk pembaruan lebih lanjut

Tetap diperbarui dengan perkembangan terbaru:

Ikuti Hyperwriteai di Twitter.
Ikuti Hyperwriteai di LinkedIn.

Kesesuaian

Proyek ini kompatibel dengan Mac OS, Windows, dan Linux (dengan X Server diinstal).

Catatan pembatas tingkat openai

Model gpt-4o diperlukan. Untuk membuka kunci akses ke model ini, akun Anda perlu menghabiskan setidaknya $ 5 dalam kredit API. Pra-pembayaran untuk kredit ini akan membuka akses jika Anda belum menghabiskan minimum $ 5.
Pelajari lebih lanjut di sini

Memperluas

Informasi Tambahan