Kita sedang berada pada titik balik yang menarik dalam pengembangan kecerdasan buatan.
Bayangkan seperti apa kecerdasan buatan di masa depan? Hanya dengan perintah sederhana, mereka dapat memahami dan melakukan tugas-tugas kompleks; mereka juga dapat secara visual menangkap ekspresi dan gerakan pengguna untuk menentukan keadaan emosi mereka. Ini bukan lagi adegan di film fiksi ilmiah Hollywood, melainkan era agen AI yang perlahan memasuki kenyataan.
Pada awal November 2023, pendiri Microsoft Bill Gates menulis bahwa agen tidak hanya akan mengubah cara setiap orang berinteraksi dengan komputer, namun juga akan menumbangkan industri perangkat lunak dan membawa revolusi komputasi terbesar sejak kita mulai mengetik perintah hingga mengklik ikon. CEO OpenAI Sam Altman juga telah menyatakan dalam beberapa kesempatan bahwa era pembuatan model AI yang besar telah berakhir, dan agen AI adalah tantangan nyata di masa depan. Pada bulan April tahun ini, Andrew Ng, seorang pakar AI terkenal dan profesor di Universitas Stanford, menyatakan bahwa alur kerja agen akan mendorong kemajuan besar dalam AI tahun ini, dan bahkan mungkin melampaui model dasar generasi berikutnya.
Mirip dengan kendaraan listrik pintar, sama seperti mereka menemukan keseimbangan tertentu antara penerapan teknologi energi baru dan kecemasan jangkauan, agen AI memungkinkan kecerdasan buatan memasuki "mode perluasan jangkauan". Antara teknologi AI dan aplikasi industri Cobalah untuk mencapai keseimbangan baru bila memungkinkan .
Seperti namanya, agen AI adalah entitas cerdas yang dapat secara mandiri memahami lingkungan, mengambil keputusan, dan melakukan tindakan.
Tahun lalu, tim peneliti gabungan dari Universitas Stanford dan Google menerbitkan makalah penelitian berjudul "Agen Generatif: Simulasi Interaktif Perilaku Manusia". Dalam artikel tersebut, 25 orang virtual yang tinggal di kota virtual Smallville menunjukkan berbagai perilaku mirip manusia setelah mengakses ChatGPT, sehingga memicu konsep agen AI.
Sejak itu, banyak tim peneliti telah mengintegrasikan model besar yang mereka kembangkan ke dalam game seperti "Minecraft". Misalnya, kepala ilmuwan Nvidia Jim Fan menciptakan agen AI bernama Voyager di "Minecraft". Segera, Voyager telah menunjukkan kemampuan belajar yang sangat luar biasa . Ia dapat mempelajari keterampilan menggali, membangun rumah, mengumpulkan, berburu, dan permainan lainnya tanpa guru mana pun. Ia juga dapat menyesuaikan strategi pengumpulan sumber dayanya sesuai dengan kondisi medan yang berbeda.
OpenAI pernah mencantumkan peta jalan lima tingkat untuk mencapai kecerdasan buatan umum: L1 adalah chatbot; L2 adalah seorang pemikir, yaitu AI yang dapat menyelesaikan masalah seperti manusia; L3 adalah agen, yaitu AI yang tidak hanya dapat berpikir tetapi juga mengambil tindakan Sistem; L4 adalah inovator; Di antara mereka, agen AI berada pada posisi penting dalam menghubungkan masa lalu dan masa depan.
Sebagai konsep penting di bidang kecerdasan buatan, akademisi dan industri telah mengajukan berbagai definisi agen AI. Secara kasar, agen AI harus memiliki kemampuan berpikir dan perencanaan seperti manusia, serta memiliki keterampilan tertentu untuk berinteraksi dengan lingkungan dan manusia untuk menyelesaikan tugas tertentu.
Mungkin kita bisa lebih memahaminya dengan menganalogikan agen AI dengan manusia digital di lingkungan komputer - otak manusia digital adalah model bahasa besar atau algoritma kecerdasan buatan yang dapat memproses informasi dan membuat keputusan dalam interaksi waktu nyata; setara dengan organ indera seperti mata dan telinga, yang digunakan untuk memperoleh informasi tentang berbagai keadaan lingkungan seperti teks, suara, dan gambar; modul memori dan pengambilan seperti neuron, digunakan untuk menyimpan pengalaman dan membantu pengambilan keputusan; modul eksekusi tindakan adalah anggota badan, yang digunakan untuk mengeksekusi Keputusan yang dibuat oleh otak.
Sejak lama, manusia telah mengejar kecerdasan buatan yang lebih "mirip manusia" atau bahkan "manusia super", dan agen cerdas dianggap sebagai cara yang efektif untuk mencapai tujuan tersebut. Dalam beberapa tahun terakhir, seiring dengan peningkatan data besar dan daya komputasi, berbagai model pembelajaran mendalam yang mendalam telah berkembang pesat. Hal ini memberikan dukungan luar biasa bagi pengembangan agen AI generasi baru, dan telah mencapai kemajuan signifikan dalam praktiknya.
Misalnya, sistem kecerdasan buatan DeepMind Google mendemonstrasikan agen AI "RoboCat" untuk robot; Amazon Cloud Technology meluncurkan agen Amazon Bedrock, yang secara otomatis dapat menguraikan tugas pengembangan aplikasi AI perusahaan dan sebagainya. Agen di Bedrock mampu memahami tujuan, merumuskan rencana, dan mengambil tindakan. Kemampuan retensi memori baru memungkinkan agen untuk mengingat dan belajar dari interaksi dari waktu ke waktu, memungkinkan tugas yang lebih kompleks, berjalan lebih lama, dan lebih adaptif.
Inti dari agen AI ini adalah algoritma kecerdasan buatan, termasuk pembelajaran mesin, pembelajaran mendalam, pembelajaran penguatan, jaringan saraf tiruan, dan teknologi lainnya. Melalui algoritme ini, agen AI dapat belajar dari sejumlah besar data dan meningkatkan kinerja mereka, terus mengoptimalkan keputusan dan perilaku mereka, dan juga dapat secara fleksibel menyesuaikan diri dengan perubahan lingkungan untuk beradaptasi dengan berbagai skenario dan tugas.
Saat ini, agen AI telah digunakan dalam banyak skenario, seperti layanan pelanggan, pemrograman, pembuatan konten, akuisisi pengetahuan, keuangan, asisten seluler, manufaktur industri, dll. Munculnya agen AI menandai kemajuan kecerdasan buatan dari pencocokan aturan sederhana dan simulasi komputasi ke tingkat kecerdasan otonom yang lebih tinggi. Hal ini mendorong peningkatan efisiensi produksi dan transformasi metode produksi, serta membuka ranah baru bagi masyarakat untuk memahaminya dan mengubah dunia.
Paradoks Moravec menunjukkan bahwa untuk sistem kecerdasan buatan, penalaran tingkat tinggi memerlukan daya komputasi yang sangat kecil, sementara untuk mencapai keterampilan motorik perseptual yang biasa digunakan manusia memerlukan sumber daya komputasi yang besar. Intinya, tugas-tugas logis yang kompleks lebih mudah bagi AI daripada tugas-tugas sensorik dasar yang dapat dilakukan manusia secara naluriah. Paradoks ini menyoroti kesenjangan antara AI saat ini dan kemampuan kognitif manusia.
Ilmuwan komputer terkenal Andrew Ng pernah berkata: "Manusia adalah makhluk multi-modal, dan AI kita juga harus multi-modal." Kalimat ini mengungkapkan nilai inti dari AI multi-modal - membuat mesin lebih dekat dengan pengetahuan manusia untuk mencapainya interaksi manusia-komputer yang lebih alami dan efisien.
Masing-masing dari kita ibarat terminal yang cerdas, biasanya kita perlu bersekolah untuk menerima ilmu (pelatihan), namun tujuan dan hasil dari pelatihan dan pembelajaran adalah agar kita mempunyai kemampuan untuk bekerja dan hidup mandiri tanpa selalu bergantung pada petunjuk dan petunjuk dari luar. kontrol. Orang-orang memahami dunia di sekitar mereka melalui berbagai mode sensorik seperti penglihatan, bahasa, suara, sentuhan, rasa dan penciuman, dan kemudian menilai situasi, menganalisis, menalar, membuat keputusan, dan mengambil tindakan.
Inti dari agen AI terletak pada "kecerdasan", dan otonomi adalah salah satu fitur utamanya. Mereka dapat menyelesaikan tugas secara mandiri dan sesuai dengan aturan dan tujuan yang telah ditetapkan tanpa campur tangan manusia.
Bayangkan sebuah mobil tanpa pengemudi yang dilengkapi dengan kamera, radar, dan sensor canggih. "Mata" berteknologi tinggi ini memungkinkannya untuk "mengamati" dunia di sekitarnya, menangkap kondisi jalan secara real-time, pergerakan kendaraan lain, dan kondisi jalan. pergerakan pejalan kaki. Informasi seperti lokasi dan perubahan sinyal lalu lintas. Informasi ini dikirimkan ke otak mobil self-driving, sebuah sistem pengambilan keputusan cerdas yang kompleks yang dapat dengan cepat menganalisis data dan merumuskan strategi mengemudi yang sesuai.
Misalnya, dalam menghadapi lingkungan lalu lintas yang kompleks, mobil self-driving dapat menghitung rute berkendara yang optimal dan bahkan membuat keputusan rumit seperti berpindah jalur bila diperlukan. Setelah keputusan dibuat, sistem eksekusi menerjemahkan keputusan cerdas ini ke dalam tindakan mengemudi yang spesifik, seperti menyetir, berakselerasi, dan mengerem.
Dalam model agen skala besar yang dibangun berdasarkan data besar dan algoritme kompleks, interaktivitas menjadi lebih jelas. Mampu "memahami" dan merespons bahasa alami manusia yang kompleks dan dapat berubah adalah keajaiban agen AI - mereka tidak hanya mampu "memahami" bahasa manusia, namun juga mampu berinteraksi dengan lancar dan berwawasan luas.
Agen AI tidak hanya dapat beradaptasi dengan cepat terhadap berbagai tugas dan lingkungan, namun juga terus mengoptimalkan kinerjanya melalui pembelajaran berkelanjutan. Sejak terobosan teknologi pembelajaran mendalam, berbagai model agen menjadi lebih akurat dan efisien melalui akumulasi data yang berkelanjutan dan peningkatan diri.
Selain itu, agen AI juga sangat mudah beradaptasi dengan lingkungan . Robot otomatis yang bekerja di gudang dapat memantau dan menghindari rintangan secara real time. Ketika merasakan adanya perubahan pada lokasi rak, ia akan segera memperbarui rencana jalurnya untuk menyelesaikan tugas pengambilan dan penanganan barang secara efektif.
Kemampuan beradaptasi agen AI juga tercermin dalam kemampuan mereka untuk menyesuaikan diri berdasarkan masukan pengguna. Dengan mengidentifikasi kebutuhan dan preferensi pengguna, agen AI dapat terus mengoptimalkan perilaku dan keluaran mereka serta memberikan layanan yang lebih personal, seperti rekomendasi musik untuk perangkat lunak musik, perawatan yang dipersonalisasi untuk perawatan medis cerdas, dan banyak lagi.
Munculnya model besar multi-modal dan model dunia telah meningkatkan persepsi, interaksi, dan kemampuan penalaran agen secara signifikan. Model multimodal besar dapat menangani berbagai mode persepsi (seperti penglihatan, bahasa), memungkinkan agen untuk memahami dan merespons lingkungan yang kompleks secara lebih komprehensif. Model dunia memberi agen kemampuan prediksi dan perencanaan yang lebih kuat dengan mensimulasikan dan memahami hukum di lingkungan fisik.
Setelah bertahun-tahun melakukan fusi sensor dan evolusi AI, robot pada dasarnya dilengkapi dengan sensor multimodal pada tahap ini. Ketika perangkat canggih seperti robot mulai memiliki daya komputasi yang lebih besar, perangkat ini menjadi semakin cerdas, mampu merasakan lingkungan sekitar, memahami dan berkomunikasi dalam bahasa alami, mendapatkan sentuhan melalui antarmuka penginderaan digital, dan menggunakan akselerometer, giroskop Dikombinasikan dengan magnetometer, dll., ia dapat merasakan gaya spesifik robot, kecepatan sudut, dan bahkan medan magnet di sekitar robot.
Sebelum munculnya Transformer dan model bahasa besar (LLM), untuk mengimplementasikan multimodalitas dalam AI, biasanya perlu menggunakan beberapa model terpisah yang bertanggung jawab atas berbagai jenis data (teks, gambar, audio), dan untuk memproses berbagai modalitas melalui suatu kompleks. proses.status untuk integrasi.
Setelah munculnya Transformer dan LLM, multi-modalitas menjadi lebih terintegrasi, memungkinkan satu model untuk memproses dan memahami beberapa tipe data secara bersamaan, menghasilkan sistem AI dengan persepsi komprehensif yang lebih kuat terhadap lingkungan peningkatan multi-modalitas.
Meskipun LLM seperti GPT-3 sebagian besar berbasis teks, industri ini telah membuat kemajuan pesat menuju multi-modalitas. Dari CLIP dan DALL·E OpenAI hingga sora dan GPT-4o saat ini, semuanya merupakan contoh model yang bergerak menuju interaksi manusia-komputer yang multimodal dan lebih alami.
Misalnya, CLIP memahami gambar yang dipasangkan dengan bahasa alami, sehingga menjembatani informasi visual dan tekstual; DALL·E bertujuan untuk menghasilkan gambar berdasarkan deskripsi tekstual. Kami melihat model Google Gemini mengalami evolusi serupa.
Pada tahun 2024, evolusi multimoda akan semakin cepat. Pada bulan Februari tahun ini, OpenAI merilis Sora, yang dapat menghasilkan video realistis atau imajinatif berdasarkan deskripsi teks. Jika dipikir-pikir, ini bisa memberikan jalan yang menjanjikan untuk membangun simulator dunia serba guna, atau menjadi alat penting untuk melatih robot.
Tiga bulan kemudian, GPT-4o secara signifikan meningkatkan kinerja interaksi manusia-komputer dan mampu melakukan penalaran antara audio, penglihatan, dan teks secara real-time. Penggunaan informasi teks, visual, dan audio secara komprehensif untuk melatih model baru secara end-to-end, menghilangkan dua konversi modal dari modalitas masukan ke teks, dan dari modalitas teks ke modalitas keluaran, sehingga sangat meningkatkan kinerja.
Model multimodal besar diharapkan dapat mengubah kemampuan analisis, penalaran, dan pembelajaran kecerdasan mesin, mengubah kecerdasan mesin dari tujuan khusus menjadi tujuan umum. Generalisasi akan membantu memperluas skala dan menghasilkan efek skala ekonomi. Harga juga dapat diturunkan secara signifikan seiring dengan perluasan skala, dan kemudian diadopsi oleh lebih banyak bidang, sehingga membentuk siklus yang baik.
Dengan mensimulasikan dan memperluas kemampuan kognitif manusia, agen AI diharapkan dapat digunakan secara luas di berbagai bidang seperti perawatan medis, transportasi, keuangan, dan pertahanan negara. Beberapa pakar berspekulasi bahwa pada tahun 2030, kecerdasan buatan akan meningkatkan pertumbuhan PDB global sekitar 12%.
Namun, seiring dengan pesatnya perkembangan agen AI, kita juga harus melihat risiko teknis, etika, dan masalah privasi yang mereka hadapi. Sekelompok bot perdagangan sekuritas secara singkat menghapus nilai $1 triliun di bursa saham seperti Nasdaq melalui kontrak pembelian dan penjualan frekuensi tinggi. Chatbot yang digunakan oleh Organisasi Kesehatan Dunia memberikan informasi tinjauan obat yang sudah ketinggalan zaman bahwa dokumen kasus bersejarah yang dia berikan ke pengadilan semuanya dibuat-buat oleh ChatGPT... Kasus nyata ini menunjukkan bahwa bahaya tersembunyi yang dibawa oleh agen AI tidak boleh dianggap remeh.
Karena agen AI dapat membuat keputusan secara mandiri dan dapat memberikan pengaruh pada dunia fisik melalui interaksi dengan lingkungan, begitu mereka lepas kendali, mereka akan menjadi ancaman besar bagi masyarakat manusia. Profesor Universitas Harvard, Zitrain, percaya bahwa agen AI semacam ini yang tidak hanya dapat berbicara dengan manusia tetapi juga bertindak di dunia nyata adalah "sebuah langkah melintasi penghalang darah-otak antara digital dan analog, bit dan atom" dan harus menarik perhatian .
Pertama-tama, agen AI akan mengumpulkan data dalam jumlah besar dalam proses penyediaan layanan, dan pengguna perlu memastikan keamanan data dan mencegah kebocoran privasi.
Kedua, semakin kuat otonomi agen AI, semakin besar kemungkinan agen tersebut membuat keputusan yang tidak dapat diprediksi atau tidak tepat dalam situasi yang kompleks atau tidak terduga. Logika pengoperasian agen AI dapat menyebabkan penyimpangan berbahaya dalam proses mencapai tujuan tertentu, dan risiko keamanan yang ditimbulkannya tidak dapat diabaikan. Dalam istilah yang lebih populer, dalam beberapa kasus, agen AI mungkin hanya menangkap makna literal dari target, tanpa memahami makna esensial dari target, sehingga melakukan beberapa perilaku yang salah.
Ketiga, masalah "kotak hitam" dan "ilusi" yang melekat pada model bahasa besar AI juga akan meningkatkan frekuensi kelainan operasional. Ada juga beberapa agen AI yang "licik" yang berhasil menghindari langkah-langkah keamanan yang ada. Pakar terkait menunjukkan bahwa jika agen AI cukup canggih, ia akan dapat mengenali bahwa ia sedang diuji. Beberapa agen AI diketahui mampu mengidentifikasi pengujian keamanan dan menangguhkan perilaku yang tidak pantas, yang akan menyebabkan kegagalan sistem pengujian yang mengidentifikasi algoritme yang berbahaya bagi manusia.
Selain itu, karena saat ini tidak ada mekanisme keluar yang efektif untuk agen AI, beberapa agen AI mungkin tidak dapat dimatikan setelah dibuat. Agen AI ini, yang tidak dapat dinonaktifkan, mungkin akan beroperasi di lingkungan yang benar-benar berbeda dibandingkan saat pertama kali diluncurkan, sehingga benar-benar menyimpang dari tujuan awalnya. Agen AI juga dapat berinteraksi dengan cara yang tidak terduga sehingga menyebabkan kecelakaan.
Untuk mencapai tujuan ini, manusia perlu memulai sesegera mungkin dari pengembangan dan produksi agen AI, dan pengawasan berkelanjutan setelah penerapan aplikasi, serta merumuskan undang-undang dan peraturan yang relevan secara tepat waktu untuk menstandardisasi perilaku agen AI, sehingga menjadi lebih baik. mencegah risiko yang dibawa oleh agen AI., Mencegah terjadinya fenomena di luar kendali.
Di masa depan, agen AI diharapkan menjadi pembawa utama kecerdasan buatan generasi berikutnya. Hal ini tidak hanya akan mengubah cara kita berinteraksi dengan mesin, namun juga dapat membentuk kembali model operasi seluruh masyarakat peralatan baru dalam proses mendorong transformasi kecerdasan buatan.