ARC-AGI, sebuah tolok ukur yang dirancang untuk menilai kemampuan abstraksi dan penalaran kecerdasan umum buatan (AGI), baru-baru ini mengalami kemajuan, namun penciptanya Francois Cholet mengingatkan kita bahwa ini tidak berarti bahwa AGI semakin dekat. Dia menunjukkan bahwa kinerja sistem AI saat ini dalam pengujian ARC-AGI masih jauh di bawah ekspektasi, dan alasan utamanya adalah keterbatasan model bahasa besar (LLM), yang lebih baik dalam pengenalan pola daripada penalaran sebenarnya. Sholay dan kolaboratornya meluncurkan kompetisi senilai $1 juta untuk mempromosikan terobosan AI open source pada ARC-AGI, namun hasilnya juga menegaskan bahwa pengujian itu sendiri mungkin memiliki kekurangan dan memerlukan perbaikan lebih lanjut.
Sejak diluncurkan pada tahun 2019, ARC-AGI telah menjadi fokus perhatian di bidang kecerdasan buatan. Meskipun sistem AI mengalami kemajuan dalam pengujian, skornya masih jauh di bawah level manusia. Hal ini memicu refleksi terhadap arah pengembangan AI saat ini dan mendorong para peneliti untuk mengkaji ulang definisi dan metode evaluasi AGI. Artikel ini menganalisis secara rinci keterbatasan tes ARC-AGI, serta prospek arah penelitian AGI di masa depan, dan menampilkan hasil kompetisi yang relevan dan strategi penanggulangan para peneliti.
Meski begitu, Sholay tidak berhenti mendorong penelitian AI. Dia dan pendiri Zapier Mike Knoop bersama-sama meluncurkan kompetisi senilai $1 juta pada bulan Juni tahun ini untuk mendorong AI open source guna menantang tolok ukur ARC-AGI. Meskipun sistem AI dengan kinerja terbaik hanya mendapat skor 55,5% dari 17.789 entri, di bawah angka 85% yang diperlukan untuk mencapai "kinerja manusia", Sholay dan Knoop masih melihatnya sebagai sebuah langkah maju.
Knoop menunjukkan dalam postingan blognya bahwa pencapaian ini tidak berarti bahwa kita semakin dekat untuk mewujudkan AGI. Sebaliknya, hal ini menyoroti bahwa beberapa tugas di ARC-AGI terlalu bergantung pada solusi "brute force" dan mungkin tidak memberikan sinyal yang efektif untuk tujuan umum yang sebenarnya. intelijen. ARC-AGI pada awalnya dirancang untuk menguji kemampuan generalisasi AI dengan menyediakan tugas-tugas kompleks yang belum pernah ada sebelumnya. Namun, masih ada keraguan apakah tugas-tugas ini dapat mengevaluasi AGI secara efektif.
Catatan sumber gambar: Gambar dihasilkan oleh AI, dan penyedia layanan otorisasi gambar Midjourney
Tugas dalam benchmark ARC-AGI melibatkan masalah teka-teki, dll., yang memerlukan AI untuk menyimpulkan jawaban yang tidak diketahui berdasarkan informasi yang diketahui. Meskipun tugas-tugas ini tampaknya mendorong adaptasi AI terhadap situasi baru, hasilnya menunjukkan bahwa model yang ada tampaknya menemukan solusi melalui sejumlah besar perhitungan, dan tidak serta merta menunjukkan kemampuan adaptasi cerdas yang sebenarnya.
Selain itu, pembuat ARC-AGI juga menghadapi kritik dari rekan-rekan mereka, khususnya mengenai ambiguitas seputar definisi AGI. Seorang karyawan OpenAI baru-baru ini menyatakan bahwa jika AGI didefinisikan sebagai kecerdasan buatan yang "berkinerja lebih baik daripada kebanyakan manusia dalam sebagian besar tugas", maka AGI sebenarnya telah tercapai. Namun, Cholet dan Knoop berpendapat bahwa desain benchmark ARC-AGI yang ada belum sepenuhnya mencapai tujuan ini.
Ke depannya, Sholay dan Knoop berencana merilis benchmark ARC-AGI generasi kedua dan akan mengadakan kompetisi baru pada tahun 2025 untuk mengatasi kekurangan dalam pengujian saat ini. Mereka mengatakan bahwa benchmark baru ini akan lebih fokus untuk mendorong pengembangan penelitian AI ke arah yang lebih penting dan mempercepat implementasi AGI.
Namun memperbaiki benchmark yang ada bukanlah tugas yang mudah. Upaya Sholay dan Knoop menunjukkan bahwa mendefinisikan kecerdasan dalam kecerdasan buatan, khususnya di bidang kecerdasan umum, masih merupakan tugas yang sulit dan kompleks.
Secara keseluruhan, kemajuan benchmark ARC-AGI dan diskusi terkait mencerminkan bahwa eksplorasi kecerdasan buatan umum di bidang kecerdasan buatan masih berlangsung, dengan terobosan dan tantangan yang diperlukan masa depan. Mempromosikan pengembangan AGI yang nyata.