Model terbaru OpenAI, o3, mencapai hasil yang mengesankan pada benchmark ARC-AGI, dengan skor sebesar 75,7% pada kondisi komputasi standar dan 87,5% pada versi komputasi tinggi. Hasil ini jauh melebihi semua model sebelumnya dan telah menarik perhatian luas di bidang penelitian AI. Tolok ukur ARC-AGI dirancang untuk mengevaluasi kemampuan sistem AI dalam beradaptasi dengan tugas-tugas baru dan menunjukkan kecerdasan yang lancar. Hal ini sangat sulit dan dianggap sebagai salah satu standar paling menantang dalam evaluasi AI. Terobosan kinerja o3 tidak diragukan lagi membawa arah dan kemungkinan baru bagi pengembangan AI, namun bukan berarti AGI telah terpecahkan.
Model o3 terbaru yang dirilis oleh OpenAI mencapai hasil luar biasa dalam benchmark ARC-AGI, mencetak skor setinggi 75,7% dalam kondisi komputasi standar, dan versi komputasi tinggi mencapai 87,5%. Pencapaian ini mengejutkan komunitas riset AI, namun masih belum membuktikan bahwa kecerdasan umum kecerdasan buatan (AGI) telah berhasil dipecahkan.
Tolok ukur ARC-AGI didasarkan pada Abstrak Reasoning Corpus, sebuah tes yang dirancang untuk mengevaluasi kemampuan sistem AI dalam beradaptasi dengan tugas-tugas baru dan menunjukkan kecerdasan yang lancar. ARC terdiri dari serangkaian teka-teki visual yang memerlukan pemahaman konsep dasar seperti objek, batas, dan hubungan spasial. Manusia dapat dengan mudah memecahkan teka-teki ini, namun sistem AI saat ini menghadapi tantangan besar dalam hal ini. ARC dianggap sebagai salah satu kriteria paling menantang dalam evaluasi AI.
o3 berkinerja jauh lebih baik dibandingkan model sebelumnya. Skor tertinggi o1-preview dan o1 model pada ARC-AGI adalah 32%. Sebelumnya, peneliti Jeremy Berman menggunakan metode hybrid untuk menggabungkan Claude3.5Sonnet dengan algoritma genetika, mencapai skor 53%, dan kemunculan o3 dianggap sebagai lompatan dalam kemampuan AI.
François Chollet, pendiri ARC, memuji o3 atas perubahan kualitatif dalam kemampuan AI dan percaya bahwa o3 telah mencapai tingkat yang belum pernah terjadi sebelumnya dalam kemampuannya beradaptasi dengan tugas-tugas baru.
Meskipun o3 berkinerja baik, biaya komputasinya juga cukup tinggi. Dalam konfigurasi komputasi rendah, penyelesaian setiap teka-teki membutuhkan biaya antara $17 dan $20, menghabiskan 33 juta token; dalam konfigurasi komputasi tinggi, biaya komputasi meningkat hingga 172 kali lipat, menggunakan miliaran token. Namun, seiring dengan penurunan biaya inferensi secara bertahap, biaya overhead ini mungkin menjadi lebih masuk akal.
Saat ini belum ada rincian bagaimana o3 mencapai terobosan ini. Beberapa ilmuwan berspekulasi bahwa o3 mungkin menggunakan metode sintesis program yang menggabungkan pemikiran berantai dan mekanisme pencarian. Ilmuwan lain percaya bahwa o3 mungkin hanya berasal dari perluasan pembelajaran penguatan.
Meskipun o3 telah mencapai kemajuan yang signifikan pada ARC-AGI, Chollet menekankan bahwa ARC-AGI bukanlah pengujian AGI dan o3 belum mencapai standar AGI. Ia masih berkinerja buruk pada beberapa tugas sederhana, menunjukkan perbedaan mendasar dari kecerdasan manusia. Selain itu, o3 masih mengandalkan verifikasi eksternal dalam proses penalarannya, jauh dari kemampuan belajar mandiri AGI.
Tim Chollet sedang mengembangkan tolok ukur baru yang menantang untuk menguji kemampuan o3 dan berharap dapat menurunkan skornya di bawah 30%. Dia menunjukkan bahwa AGI yang sebenarnya berarti hampir mustahil untuk menciptakan tugas-tugas yang sederhana bagi manusia namun sulit bagi AI.
Menyorot:
o3 mencapai skor tinggi sebesar 75,7% dalam tes benchmark ARC-AGI, mengungguli model sebelumnya.
Biaya untuk memecahkan setiap teka-teki di o3 mencapai 17 hingga 20 dolar AS, yang merupakan perhitungan yang sangat besar.
Meskipun o3 berkinerja baik, para ahli menekankan bahwa o3 belum mencapai standar AGI.
Secara keseluruhan, performa model o3 yang luar biasa dalam pengujian ARC-AGI menunjukkan kemajuan signifikan dalam kecerdasan buatan dalam kemampuan penalaran abstrak, namun ini hanyalah langkah kecil menuju AGI yang sebenarnya. Penelitian di masa depan masih perlu terus dieksplorasi untuk memecahkan tingginya biaya komputasi dan masalah inti AGI.