Anthropic telah meningkatkan model seri Claude 3.5, memungkinkan Anda mengoperasikan komputer seperti manusia!

Penulis：Eve Cole Waktu Pembaruan：2024-12-09 17:48:01

Editor Downcodes mengetahui bahwa perusahaan kecerdasan buatan Anthropic telah meningkatkan model seri Claude 3.5 dan meluncurkan Claude 3.5 Sonnet dan Claude 3.5 Haiku yang baru. Sorotan inti dari pemutakhiran ini adalah bahwa hal ini sangat meningkatkan kemampuan pengkodean dan memberi Claude kemampuan untuk mensimulasikan operasi manusia di komputer, menandai langkah penting Anthropic dalam memperluas model AI komersial menjadi “agen AI” yang komprehensif. Skor Sonnet di SWE-bench Verified meningkat menjadi 49,0%, melampaui semua model yang tersedia untuk umum, termasuk model pratinjau o1 OpenAI. Haiku berkinerja baik dalam berbagai pengujian benchmark cerdas dengan kecepatan lebih cepat dan kemampuan mengikuti perintah yang lebih akurat. Peningkatan ini akan menghadirkan alat bantuan AI yang lebih canggih dan pengalaman yang lebih nyaman bagi pengembang dan pengguna.

Perusahaan kecerdasan buatan Anthropic mengumumkan peningkatan besar-besaran pada model seri Claude 3.5, termasuk Claude 3.5 Sonnet dan Claude 3.5 Haiku yang baru. Versi yang ditingkatkan mengklaim memungkinkan kecerdasan buatan mengambil alih PC Anda, melakukan tugas-tugas dasar seperti mensimulasikan input keyboard dan klik mouse untuk menggunakan aplikasi apa pun yang diinstal di komputer Anda.

Kemampuan pengkodean ditingkatkan secara signifikan, melampaui model pratinjau OpenAI o1

Claude3.5Sonnet baru telah ditingkatkan secara signifikan di semua aspek, terutama dalam hal kemampuan coding. Skornya di SWE-bench Verified meningkat dari 33,4% menjadi 49,0%, melampaui semua model yang tersedia untuk umum, termasuk model pratinjau o1 OpenAI.

Selain itu, kinerjanya di TAU-bench juga mengalami peningkatan, terutama di sektor ritel dan penerbangan. Semua ini dengan tetap mempertahankan harga dan kecepatan yang sama seperti pendahulunya.

Umpan balik pelanggan menunjukkan bahwa Claude3.5Sonnet yang ditingkatkan telah membuat lompatan kualitatif dalam pengkodean AI. Misalnya, GitLab menguji model ini untuk tugas DevSecOps dan menemukan peningkatan signifikan dalam kemampuan penalaran tanpa meningkatkan latensi.

Claude3.5Haiku adalah model tercepat generasi berikutnya dari Claude , mengungguli Claude3Opus dengan biaya dan kecepatan yang sama, dan berkinerja baik pada berbagai tolok ukur cerdas, terutama pada tugas pengkodean. Latensi rendah Claude3.5Haiku dan kemampuan mengikuti perintah yang lebih akurat membuatnya sangat cocok untuk pembuatan produk antarmuka pengguna dan pengalaman yang dipersonalisasi.

Mengoperasikan komputer seperti manusia

Fungsi penggunaan komputer yang baru diluncurkan adalah upaya yang benar-benar baru . Para pejabat mengatakan ini bukan untuk mengembangkan alat khusus untuk Claude, namun untuk mengajarkan keterampilan komputer umum sehingga dapat menggunakan berbagai alat standar dan program perangkat lunak. Pengembang dapat menggunakan kemampuan ini untuk mengotomatisasi proses berulang, membangun dan menguji perangkat lunak, melakukan penelitian terbuka, dan banyak lagi.

Tentu saja kemampuan Claude dalam menggunakan komputer saat ini masih perlu ditingkatkan. Beberapa operasi sederhana, seperti scrolling dan drag, masih menjadi tantangan bagi Claude. Untuk menjamin keamanan, para pejabat juga telah mengembangkan pengklasifikasi baru yang dapat mengidentifikasi apakah penggunaan komputer telah menyebabkan potensi bahaya.

“Kita akan memasuki era baru di mana kecerdasan buatan dapat memanfaatkan semua alat yang Anda gunakan sebagai individu untuk menyelesaikan tugas,” kata Jared Kaplan, kepala ilmuwan Anthropic, dalam sebuah wawancara model dari kerangka obrolan tradisional hingga "agen AI" skala penuh.

Dalam salah satu demo, Claude diminta merencanakan perjalanan temannya untuk menyaksikan matahari terbit di atas Jembatan Golden Gate. AI tidak hanya membuka halaman web, tetapi juga menemukan tempat menonton yang sesuai di Google dan menambahkan rencana perjalanan ke aplikasi kalender. Meskipun kinerjanya mengesankan, Wired menunjukkan bahwa ini tidak memberikan beberapa informasi tambahan, seperti cara mencapai tujuan Anda.

Selain itu, pada demonstrasi lainnya, Claude diminta untuk membangun website sederhana. Hasilnya, ia berhasil membuat website menggunakan Visual Studio Code Microsoft dan membuka server lokal untuk pengujian. Namun, dalam prosesnya, ia menemui beberapa bug kecil tetapi berhasil memperbaiki kodenya saat diminta.

Claude 3.5 Sonne menunjukkan kemampuannya untuk melakukan tugas multi-langkah pada platform perangkat lunak yang berbeda dengan mengambil informasi yang diperlukan dari sistem manajemen hubungan pelanggan (CRM) untuk melengkapi formulir permintaan pemasok secara mandiri.

Claude3.5Sonnet yang ditingkatkan sekarang tersedia untuk semua pengguna. Mulai hari ini, pengembang dapat membangun komputer beta di Anthropic API, Amazon Bedrock, dan Vertex AI Google Cloud. Claude3.5Haiku baru akan dirilis akhir bulan ini.

Blog resmi: https://www.anthropic.com/news/3-5-models-and-computer-use

Menyorot:

Model Claude3.5Sonnet dan Haiku telah ditingkatkan secara signifikan, dan kemampuan pengkodeannya telah ditingkatkan secara signifikan.

? Fungsi penggunaan komputer yang baru diluncurkan memungkinkan Claude mengoperasikan komputer seperti manusia, membuka lebih banyak kemungkinan.

? Menggunakan asisten AI membawa risiko keselamatan, dan Anthropic menekankan observasi dan peningkatan bertahap untuk memastikan keselamatan.

Secara keseluruhan, peningkatan model seri Claude 3.5 dari Anthropic menunjukkan pesatnya perkembangan teknologi AI dan juga menunjukkan bahwa AI akan memainkan peran yang lebih kuat di lebih banyak bidang di masa depan. Meski masih terdapat beberapa tantangan, namun prospek pengembangannya patut dinantikan. Editor Downcodes akan terus memperhatikan perkembangan terkini di bidang ini dan memberikan laporan yang lebih menarik kepada pembaca.