Model bahasa besar (LLM) sumber terbuka mendorong pengembangan teknologi AI, tetapi juga membawa tantangan dalam perlindungan kekayaan intelektual. Munculnya model “shell” membuat identifikasi sumber model menjadi masalah mendesak yang perlu dipecahkan. Artikel ini akan membahas kekurangan metode identifikasi sidik jari model yang ada, dan memperkenalkan metode identifikasi sidik jari model baru yang lebih kuat - REEF, bagaimana metode ini dapat secara efektif memecahkan masalah "penembakan" dan melindungi kekayaan intelektual LLM.
Di era AI, model bahasa besar (LLM) seperti rahasia seni bela diri, proses pelatihannya menghabiskan daya komputasi dan data yang sangat besar, seperti halnya seorang ahli seni bela diri yang telah berlatih dalam pengasingan selama bertahun-tahun. Pelepasan model open source seperti seorang master yang mempublikasikan rahasianya, tetapi ia akan disertai dengan beberapa lisensi (seperti lisensi komunitas Apache2.0 dan LLaMA2) untuk melindungi kekayaan intelektual (IP) miliknya.
Namun, dunia ini berbahaya, dan insiden "penembakan" selalu terjadi. Beberapa pengembang mengklaim telah melatih LLM baru, namun kenyataannya mereka hanya membungkus atau menyempurnakan model dasar lainnya (seperti Llama-2 dan MiniCPM-V). Ini seperti mempelajari ilmu bela diri orang lain secara diam-diam tetapi mengaku sebagai ciptaan asli Anda sendiri. Untuk mencegah hal ini terjadi, pemilik model dan pihak ketiga memerlukan cara untuk mengidentifikasi model "cangkang".
Ada dua jenis utama metode identifikasi sidik jari model yang ada:
Injeksi sidik jari: Ini seperti menandai buku rahasia secara diam-diam, seperti metode tanda air. Metode ini secara artifisial menambahkan beberapa "pemicu" selama pelatihan model atau proses penyesuaian, memungkinkan model menghasilkan konten tertentu dalam kondisi tertentu, sehingga mengidentifikasi sumber model. Namun, pendekatan ini akan meningkatkan biaya pelatihan, memengaruhi performa model, dan bahkan mungkin dihapus. Selain itu, metode ini tidak dapat diterapkan pada model yang sudah dipublikasikan.
Sidik Jari Intrinsik: Ini seperti menilai sumber cheat berdasarkan konten dan gayanya. Metode ini memanfaatkan properti model itu sendiri untuk identifikasi, termasuk bobot model dan representasi fitur. Diantaranya, metode sidik jari berbasis bobot melakukan identifikasi dengan menghitung kemiripan bobot model. Namun, metode ini rentan terhadap perubahan bobot, seperti permutasi bobot, pemangkasan, dan penyesuaian. Metode berbasis analisis semantik melakukan pengenalan melalui teks yang dihasilkan oleh model analisis statistik. Namun, kedua metode tersebut kurang kokoh.
Jadi, adakah metode yang dapat secara efektif mengidentifikasi model "cangkang" tanpa memengaruhi performa model dan menolak berbagai modifikasi "mewah"?
Para peneliti dari Laboratorium Kecerdasan Buatan Shanghai dan lembaga lain telah mengusulkan metode identifikasi sidik jari model baru - REEF.
Prinsip kerja REEF adalah:
REEF adalah metode identifikasi sidik jari berdasarkan representasi fitur. Itu tidak bergantung pada representasi lapisan tertentu, tetapi memanfaatkan kemampuan pemodelan representasi LLM yang kuat untuk mengekstrak fitur dari berbagai lapisan untuk dikenali.
Ini membandingkan kesamaan representasi fitur center kernel aligment (CKA) dari dua model pada sampel yang sama. CKA adalah indeks kesamaan berdasarkan Kriteria Kemerdekaan Hilbert-Schmidt (HSIC), yang dapat mengukur independensi antara dua set variabel acak.
Jika kemiripannya tinggi, berarti model tersangka kemungkinan besar berasal dari model korban; sebaliknya, kecil kemungkinannya.
Apa kelebihan REEF?
Tidak diperlukan pelatihan: Artinya, hal ini tidak memengaruhi performa model dan tidak menambah biaya pelatihan tambahan.
Ketahanan yang kuat: Kuat terhadap berbagai perkembangan selanjutnya seperti pemangkasan model, penyesuaian, penggabungan, penataan, dan transformasi penskalaan. Bahkan jika model yang dicurigai mengalami penyesuaian ekstensif (hingga 700 miliar token data), REEF masih dapat secara efektif mengidentifikasi apakah model tersebut berasal dari model korban.
Jaminan Teoretis: Para peneliti secara teoritis telah membuktikan bahwa CKA tidak berubah terhadap pengaturan kolom dan transformasi penskalaan.
Hasil eksperimen menunjukkan bahwa REEF berkinerja baik dalam mengidentifikasi model “shell”, mengungguli metode yang ada berdasarkan bobot dan analisis semantik.
Munculnya REEF menyediakan alat baru untuk melindungi kekayaan intelektual LLM dan membantu memerangi perilaku tidak etis atau ilegal seperti penggunaan tidak sah atau penyalinan model.
Alamat makalah: https://arxiv.org/pdf/2410.14273
Secara keseluruhan, metode REEF memberikan solusi yang efektif, kuat, dan efisien terhadap masalah perlindungan kekayaan intelektual model sumber terbuka LLM, dan berkontribusi dalam membangun lingkungan ekologi AI yang lebih sehat.