Editor Downcodes mengetahui bahwa penelitian terbaru mengeksplorasi secara mendalam potensi kemampuan model AI dalam proses pembelajaran, dan metode pembelajarannya bahkan melampaui pemahaman orang-orang sebelumnya. Dengan menganalisis dinamika pembelajaran model AI di “ruang konsep”, para peneliti mengungkapkan mekanisme baru untuk pemahaman dan pembuatan gambar AI. Penelitian ini tidak hanya memberikan perspektif baru bagi pemahaman kita tentang pembelajaran AI, namun juga memberikan ide-ide berharga untuk meningkatkan kinerja model AI. Mari kita lihat lebih dekat penelitian inovatif ini.
Catatan sumber gambar: Gambar dihasilkan oleh AI, dan penyedia layanan otorisasi gambar Midjourney
“Konsep ruang” adalah sistem koordinat abstrak yang dapat mewakili karakteristik setiap konsep independen dalam data pelatihan, seperti bentuk, warna, atau ukuran suatu objek. Para peneliti mengatakan bahwa dengan menggambarkan dinamika pembelajaran di ruang ini, dapat diketahui bahwa kecepatan pembelajaran konsep dan urutan pembelajaran dipengaruhi oleh atribut data yang disebut “sinyal konsep”. Sinyal konsep ini mencerminkan sensitivitas proses pembuatan data terhadap perubahan nilai konsep. Misalnya, model mempelajari warna lebih cepat ketika perbedaan antara merah dan biru terlihat jelas dalam kumpulan data.
Selama proses penelitian, tim peneliti mengamati bahwa dinamika pembelajaran model akan mengalami perubahan arah secara tiba-tiba, dari “memori konsep” menjadi “generalisasi”. Untuk memverifikasi fenomena ini, mereka melatih model dengan "lingkaran merah besar", "lingkaran biru besar", dan "lingkaran merah kecil" sebagai masukan. Model tidak dapat menghasilkan kombinasi "lingkaran biru kecil" yang tidak muncul dalam pelatihan melalui perintah teks sederhana. Namun, dengan menggunakan teknik "intervensi potensial" (yaitu memanipulasi aktivasi yang bertanggung jawab atas warna dan ukuran model) dan teknik "over-cueing" (yaitu meningkatkan spesifikasi warna melalui nilai RGB), para peneliti berhasil menghasilkan "lingkaran biru kecil". " Hal ini menunjukkan bahwa meskipun model mampu memahami kombinasi "biru" dan "kecil", model tidak menguasai kemampuan tersebut melalui perintah teks sederhana.
Para peneliti juga memperluas metode ini ke kumpulan data dunia nyata, seperti CelebA, yang berisi beberapa atribut gambar wajah seperti jenis kelamin dan senyuman. Hasilnya menunjukkan bahwa model tersebut menunjukkan kemampuan bersembunyi ketika menghasilkan gambar wanita yang tersenyum, namun lemah ketika menggunakan isyarat dasar. Selain itu, eksperimen pendahuluan juga menemukan bahwa saat menggunakan Stable Diffusion1.4, over-prompting dapat menghasilkan gambar yang tidak biasa, seperti kartu kredit berbentuk segitiga.
Oleh karena itu, tim peneliti mengajukan hipotesis umum tentang kemampuan tersembunyi: Model generatif memiliki kemampuan laten yang muncul secara tiba-tiba dan konsisten selama pelatihan, meskipun model mungkin tidak menunjukkan kemampuan tersebut ketika dihadapkan pada isyarat biasa.
Penelitian ini memberikan perspektif baru bagi kita untuk memahami mekanisme pembelajaran model AI, dan juga memberikan arah baru untuk perbaikan dan penerapan model AI di masa depan. Editor Downcodes percaya bahwa dengan pendalaman penelitian yang berkelanjutan tentang mekanisme pembelajaran AI, kita akan dapat memanfaatkan potensi AI dengan lebih baik dan mendorong pengembangan lebih lanjut teknologi kecerdasan buatan. Nantikan hasil penelitian serupa lainnya di masa mendatang!