Sumber gambar: Situs web Spanyol "El Pais".
Berbicara tentang kotak hitam, banyak orang memikirkan peralatan yang digunakan untuk merekam data penerbangan di pesawat terbang atau teater kecil yang penuh dengan nostalgia. Namun dalam bidang kecerdasan buatan (AI), black box juga merupakan istilah penting yang tidak bisa diabaikan.
El Pais dari Spanyol menunjukkan bahwa ketika jaringan saraf AI berjalan, bahkan peneliti paling senior pun tidak tahu apa-apa tentang operasi internalnya. Pembahasan disini bukan tentang biologi, melainkan tentang algoritma AI, terutama yang berbasis deep learning yang meniru koneksi antar neuron. Sistem ini seperti kotak hitam, dan sulit bagi ilmuwan data, talenta terbaik di dunia akademis, dan insinyur pemenang Hadiah Nobel di OpenAI dan Google untuk mengintip rahasia internal mereka.
Model dan data tidak jelas
Majalah "Scientific American" melaporkan bahwa kotak hitam AI mengacu pada sistem AI yang cara kerjanya sama sekali tidak terlihat oleh pengguna. Pengguna dapat memasukkan informasi ke dalam sistem ini dan mendapatkan keluaran, namun mereka tidak dapat memeriksa kodenya atau memahami logika yang menghasilkan keluaran.
Pembelajaran mesin, sebagai cabang utama AI, adalah landasan sistem AI generatif seperti ChatGPT. Pembelajaran mesin terdiri dari tiga bagian inti: algoritma, data pelatihan, dan model. Algoritme adalah serangkaian instruksi program. Dalam pembelajaran mesin, algoritme belajar mengenali pola dalam data melalui data pelatihan dalam jumlah besar. Ketika algoritma pembelajaran mesin menyelesaikan pelatihan, produknya adalah model pembelajaran mesin, yang juga merupakan bagian yang benar-benar digunakan oleh pengguna.
Salah satu dari ketiga bagian sistem pembelajaran mesin ini mungkin disembunyikan, yaitu ditempatkan di kotak hitam. Biasanya, algoritma tersedia untuk umum. Namun untuk melindungi kekayaan intelektual, pengembang perangkat lunak AI sering kali memasukkan model atau data pelatihan ke dalam kotak hitam.
Arsitektur model sangat kompleks sehingga sulit untuk dijelaskan
Meskipun matematika di balik banyak algoritma AI telah dipahami dengan baik, perilaku yang dihasilkan oleh jaringan yang dibentuk oleh algoritma ini masih sulit dipahami.
ChatGPT, Gemini, Claude, Llama, dan generator gambar apa pun seperti DALL-E, serta sistem apa pun yang mengandalkan jaringan saraf, termasuk aplikasi pengenalan wajah dan mesin rekomendasi konten, menghadapi masalah ini.
Sebaliknya, algoritme AI lainnya, seperti pohon keputusan atau regresi linier (umumnya digunakan di bidang kedokteran dan ekonomi), lebih mudah diinterpretasikan. Proses pengambilan keputusan mereka mudah dipahami dan divisualisasikan. Insinyur dapat mengikuti cabang-cabang pohon keputusan dan melihat dengan jelas bagaimana hasil tertentu dicapai.
Kejelasan ini sangat penting karena memberikan transparansi ke dalam AI dan memberikan keselamatan dan keamanan bagi mereka yang menggunakan algoritme. Perlu dicatat bahwa Undang-Undang Kecerdasan Buatan UE menekankan pentingnya memiliki sistem yang transparan dan dapat dijelaskan. Namun, arsitektur jaringan saraf itu sendiri menghambat transparansi ini. Untuk memahami masalah kotak hitam dari algoritma ini, kita harus membayangkan jaringan neuron atau node yang saling berhubungan.
Juan Antonio, seorang profesor di Institut AI Dewan Riset Nasional Spanyol, menjelaskan bahwa ketika Anda memasukkan data ke dalam jaringan, nilai-nilai dalam node memicu serangkaian perhitungan. Informasi disebarkan dari node pertama dalam bentuk numerik ke node berikutnya, setiap node menghitung angka dan mengirimkannya ke semua koneksi, dengan mempertimbangkan bobot (yaitu nilai numerik) dari setiap koneksi. Node baru yang menerima informasi ini akan menghitung nomor lain.
Perlu dicatat bahwa model pembelajaran mendalam saat ini berisi ribuan hingga jutaan parameter. Parameter ini mewakili jumlah node dan koneksi setelah pelatihan, yang besar dan bervariasi, sehingga sulit untuk mendapatkan persamaan yang berarti secara manual.
Menurut perkiraan industri, GPT-4 memiliki hampir 1,8 triliun parameter. Menurut analisis ini, setiap model bahasa akan menggunakan sekitar 220 miliar parameter. Artinya setiap pertanyaan diajukan, terdapat 220 miliar variabel yang dapat mempengaruhi respon algoritma.
Perusahaan teknologi mencoba membuka kotak hitam
Ketidakjelasan yang sistemik mempersulit koreksi bias dan memicu ketidakpercayaan. Saat ini, para pemain besar di bidang AI menyadari keterbatasan ini dan secara aktif melakukan penelitian untuk lebih memahami cara kerja model mereka. Misalnya, OpenAI menggunakan jaringan saraf untuk mengamati dan menganalisis jaringan saraf lain, dan Antropik mempelajari koneksi node dan sirkuit propagasi informasi.
Menguraikan kode kotak hitam sangat bermanfaat bagi model bahasa, yang dapat menghindari penalaran yang salah dan informasi menyesatkan yang dihasilkan oleh AI, serta memecahkan masalah jawaban yang tidak konsisten. Namun, tanpa memahami cara kerja jaringan, perusahaan teknologi sering kali menempatkan model melalui pelatihan ekstensif dan kemudian merilis produk setelah lulus pengujian. Pendekatan ini juga dapat menimbulkan masalah, seperti Google Gemini menghasilkan gambar yang salah saat pertama kali dirilis.
Konsep kebalikan dari kotak hitam adalah kotak kaca. Kotak kaca AI berarti algoritme, data pelatihan, dan modelnya dapat dilihat oleh siapa saja. Tujuan akhir dari memecahkan kode kotak hitam adalah untuk mempertahankan kendali AI, terutama ketika AI ditempatkan di area sensitif. Misalkan model pembelajaran mesin telah membuat diagnosis terhadap kesehatan atau situasi keuangan manusia, apakah model tersebut ingin berupa kotak hitam atau kotak kaca? Jawabannya jelas. Ini bukan hanya fokus yang kuat pada cara kerja algoritme, tidak hanya karena keingintahuan ilmiah, tetapi juga perlindungan privasi pengguna.