Fitur "penggunaan komputer" Anthropic dari Claude, yang diluncurkan pada bulan Oktober, telah menarik perhatian karena kemampuan agen AI-nya. Claude telah menjadi model mutakhir pertama yang dapat berinteraksi melalui antarmuka pengguna grafis (GUI) yang sama dengan manusia. Editor Downcodes akan memberi Anda pemahaman mendalam tentang kemajuan terobosan teknologi ini, serta tantangan yang dihadapi dan arah pengembangannya di masa depan.
Sejak Anthropic meluncurkan fitur "Penggunaan Komputer" Claude pada bulan Oktober, kemampuan agen AI telah menarik perhatian luas. Fitur ini menjadikan Claude model mutakhir pertama yang berinteraksi melalui antarmuka pengguna grafis (GUI) yang sama dengan manusia.
Claude memberi pengguna cara mudah untuk mengotomatiskan operasi tanpa memerlukan antarmuka API dengan mengakses tangkapan layar desktop dan menyelesaikan tugas melalui pengoperasian keyboard dan mouse.
Dalam sebuah penelitian yang dilakukan oleh Show Lab Universitas Nasional Singapura, para peneliti menguji Claude pada berbagai tugas, termasuk pencarian web, penyelesaian alur kerja, produktivitas kantor, dan video game. Tugas-tugas ini menguji kemampuan Claude dalam berbagai skenario, seperti mencari dan membeli item di web, atau mengekstraksi informasi dari situs web dan memasukkannya ke dalam spreadsheet. Melalui tes tersebut, para peneliti menilai kinerja Claude dalam tiga dimensi: perencanaan, tindakan, dan evaluasi.
Performa Claude sangat mengesankan dalam menjalankan tugas-tugas kompleks. Ini adalah kemampuan untuk merumuskan rencana yang jelas, mengikutinya langkah demi langkah, dan mengevaluasi kemajuannya di setiap langkah. Selain itu, dapat berkoordinasi antara beberapa aplikasi, seperti menyalin halaman web informasi ke dalam spreadsheet. Dalam beberapa kasus, Claude bahkan mampu meninjau kembali hasil di akhir misi untuk memastikan semuanya sesuai target.
Namun, Claude juga melakukan beberapa kesalahan sederhana yang rata-rata pengguna dapat dengan mudah menghindarinya. Misalnya, dalam satu tugas, ia gagal menyelesaikan langganan karena tidak ada halaman yang dapat digulir ke bawah untuk menemukan tombol yang sesuai.
Ada juga kasus di mana terasa kikuk saat melakukan tugas yang jelas, seperti memilih dan mengganti teks atau mengubah poin menjadi angka. Selain itu, Claude terkadang tidak menyadari kesalahannya atau membuat asumsi yang salah tentang alasan ia gagal mencapai tujuannya.
Para peneliti menunjukkan bahwa kekurangan Claude dalam mekanisme penilaian mandiri mungkin menjadi penyebab kesalahan ini, dan bahwa kerangka agen GUI mungkin perlu ditingkatkan di masa depan untuk menambahkan modul penilaian mandiri yang lebih ketat. Hasilnya juga menunjukkan bahwa agen GUI yang ada tidak sepenuhnya meniru nuansa mendasar bagaimana manusia menggunakan komputer.
Bagi bisnis, potensi penggunaan teks sederhana untuk mendeskripsikan tugas otomatis merupakan hal yang menarik, namun teknologinya belum siap untuk diadopsi dalam skala besar. Perilaku model tidak menentu, sehingga dapat menimbulkan konsekuensi yang tidak terduga dalam aplikasi sensitif. Pada saat yang sama, melakukan operasi melalui antarmuka yang dirancang manusia bukanlah cara tercepat untuk menyelesaikan suatu tugas.
Sebelum penerapannya secara luas, perusahaan juga perlu khawatir tentang risiko keamanan yang ditimbulkan dengan mempercayakan model bahasa besar (LLM) ke mouse dan keyboard. Misalnya, penelitian telah menunjukkan bahwa proxy jaringan rentan terhadap serangan musuh yang dapat dengan mudah diabaikan oleh manusia. Namun, alat seperti Claude dapat membantu tim produk mengeksplorasi ide dan mengulangi solusi, menghemat waktu dan uang sebelum mengembangkan fitur atau layanan baru.
Fitur "Penggunaan Komputer" Claude menunjukkan potensi besar kemajuan teknologi AI, tetapi juga membuka ruang untuk peningkatan dalam hal keandalan dan keamanan. Di masa depan, seiring dengan perkembangan dan peningkatan teknologi, saya yakin alat AI seperti Claude akan melayani manusia dengan lebih baik, meningkatkan efisiensi, dan memberikan lebih banyak kemungkinan.