Tim Meta FAIR merilis model Transformer baru, Dualformer, yang mensimulasikan sistem kognitif ganda manusia (Sistem 1 dan Sistem 2) dan mencapai peningkatan signifikan dalam kemampuan penalaran dan efisiensi komputasi. Berbeda dengan model Transformer tradisional yang hanya mensimulasikan Sistem 1 atau Sistem 2, Dualformer dapat secara fleksibel beralih antara mode penalaran cepat dan lambat untuk beradaptasi dengan kompleksitas tugas yang berbeda. Inovasi ini berasal dari metode pelatihannya yang unik - menggunakan lintasan penalaran acak untuk pelatihan dan secara acak membuang bagian lintasan yang berbeda untuk menyimulasikan jalan pintas dalam proses berpikir manusia.
Tim FAIR Meta baru-baru ini meluncurkan model Transformer baru yang disebut Dualformer, yang meniru sistem kognitif ganda manusia dan dapat dengan mulus mengintegrasikan mode penalaran cepat dan lambat, mencapai terobosan signifikan dalam kemampuan penalaran dan efisiensi komputasi.
Proses berpikir manusia pada umumnya dianggap dikendalikan oleh dua sistem: Sistem 1, yang cepat dan intuitif, dan Sistem 2, yang lebih lambat dan lebih logis.
Model Transformer tradisional biasanya hanya mensimulasikan salah satu Sistem 1 atau Sistem 2, sehingga menghasilkan model yang cepat namun memiliki kemampuan penalaran yang buruk, atau memiliki kemampuan penalaran yang kuat namun lambat dan memiliki biaya komputasi yang tinggi.
Yang inovatif dari Dualformer adalah cara pelatihannya. Para peneliti melatih model menggunakan lintasan inferensi acak, secara acak membuang bagian lintasan yang berbeda selama pelatihan, serupa dengan menganalisis proses berpikir manusia dan membuat jalan pintas. Strategi pelatihan ini memungkinkan Dualformer untuk secara fleksibel beralih di antara mode yang berbeda selama inferensi:
Mode cepat: Dualformer hanya mengeluarkan solusi akhir, yang sangat cepat.
Mode lambat: Dualformer akan menghasilkan rantai penalaran lengkap dan solusi akhir, dengan kemampuan penalaran yang lebih kuat.
Mode otomatis: Dualformer dapat secara otomatis memilih mode yang sesuai berdasarkan kompleksitas tugas.
Hasil eksperimen menunjukkan bahwa Dualformer bekerja dengan baik pada tugas-tugas seperti navigasi labirin dan pemecahan masalah matematika. Dalam mode lambat, Dualformer dapat menyelesaikan tugas navigasi labirin 30x30 dengan tingkat keberhasilan 97,6%, melampaui model Searchformer yang dilatih hanya menggunakan lintasan inferensi lengkap, sekaligus mengurangi langkah inferensi sebesar 45,5%.
Dalam mode cepat, tingkat keberhasilan Dualformer juga mencapai 80%, jauh lebih tinggi dibandingkan model Solution-Only yang dilatih hanya menggunakan solusi akhir. Dalam mode otomatis, Dualformer dapat mengurangi langkah inferensi secara signifikan sambil mempertahankan tingkat keberhasilan yang tinggi.
Keberhasilan Dualformer menunjukkan bahwa penerapan teori kognitif manusia pada desain model kecerdasan buatan dapat secara efektif meningkatkan performa model. Model pengintegrasian pemikiran cepat dan lambat ini memberikan ide-ide baru untuk membangun sistem AI yang lebih kuat dan efisien.
Alamat makalah: https://arxiv.org/pdf/2410.09918
Editor Downcodes menyimpulkan: Munculnya Dualformer menandai langkah maju yang besar dalam desain model kecerdasan buatan yang lebih dekat dengan pola berpikir manusia. Terobosannya dalam efisiensi dan akurasi penalaran memberikan arah baru dan pengembangan teknologi AI di masa depan.