Dengan pesatnya perkembangan teknologi kecerdasan buatan, model bahasa besar (LLM) mempunyai dampak yang semakin besar terhadap masyarakat. Bagaimana memastikan bahwa alat-alat canggih ini konsisten dengan nilai-nilai kemanusiaan telah menjadi arah penelitian yang penting. Makalah ini memperkenalkan metode baru yang disebut OPO, yang mampu menyelaraskan nilai model besar secara dinamis secara real time tanpa melatih ulang model tersebut. Metode ini sederhana dan mudah digunakan, cocok untuk model besar baik sumber tertutup maupun terbuka, serta memberikan kemajuan terobosan dalam penyelarasan standar hukum dan etika.
Dengan berkembangnya teknologi kecerdasan buatan, model bahasa besar yang diwakili oleh GPT-4 memberikan dampak besar pada masyarakat dengan kemampuannya yang kuat. Metode baru OPO tidak memerlukan pelatihan ulang model, menyelaraskan nilai secara dinamis dalam waktu nyata, dan metode penyelarasan mudah dan cepat. Peneliti menggunakan metode OPO untuk menyelaraskan model besar dengan standar hukum dan etika. Masalah keamanan model besar itu sendiri menjadi penting. Kemajuan terobosan telah dicapai dalam penyelarasan nilai dinamis secara real-time. Hasilnya, metode OPO tidak memerlukan pelatihan dan dapat diterapkan pada perusahaan besar sumber tertutup dan sumber terbuka model. Kode OPO telah dipublikasikan di GitHub, dan para peneliti membuat tiga tolok ukur pengujian yang dianotasi oleh manusia dan dua tolok ukur pengujian yang dihasilkan secara otomatis oleh model.
Kemunculan metode OPO memberikan ide baru untuk memecahkan masalah penyelarasan nilai model bahasa besar, dan efisiensi serta penerapannya patut mendapat perhatian. Di masa depan, metode seperti OPO dapat menjadi alat penting untuk memastikan pengembangan AI yang aman dan andal. Metode open source ini juga mendorong kerja sama antara akademisi dan industri untuk bersama-sama mendorong perkembangan teknologi AI yang sehat.