Saat ini, dengan pesatnya perkembangan teknologi AI, pengalaman yang dipersonalisasi telah menjadi fokus pencarian pengguna. Bagaimana membuat AI benar-benar memahami kebutuhan pengguna dan menyediakan layanan yang disesuaikan telah menjadi tantangan besar dalam bidang kecerdasan buatan. Teknologi PMG (Personalized Multimodal Generation) yang dikembangkan bersama oleh Huawei dan Tsinghua University memberikan ide baru untuk mengatasi masalah ini. Teknologi ini dapat menghasilkan konten multi-modal yang dipersonalisasi berdasarkan riwayat perilaku dan preferensi pengguna, seperti emotikon, desain T-shirt, dan poster film, sehingga memberikan pengalaman AI yang lebih bijaksana dan nyaman bagi pengguna.
Di era di mana personalisasi sangat penting, bagaimana AI dapat memahami Anda dengan lebih baik? Bayangkan saat Anda mengetik "Saya lulus, saya sangat senang!" di perangkat lunak obrolan, AI yang memahami pikiran Anda tidak hanya mengenali kegembiraan Anda, tetapi juga mengingatnya bahwa Anda lebih menyukai ekspresi kucing tersenyum, sehingga telah dibuat serangkaian paket ekspresi kucing tersenyum unik yang disesuaikan untuk Anda.
Di bidang generasi kecerdasan buatan yang dipersonalisasi, Huawei dan Universitas Tsinghua telah bekerja sama untuk menciptakan teknologi baru yang disebut PMG (Personalized Multimodal Generation). Teknologi ini dapat menghasilkan konten multi-modal yang memenuhi kebutuhan personal pengguna berdasarkan riwayat perilaku dan preferensi pengguna, seperti emotikon, desain kaos, poster film, dll.
Bagaimana cara kerja PMG? Ia mengekstrak preferensi pengguna dengan menganalisis riwayat tampilan dan percakapan pengguna, dikombinasikan dengan kemampuan penalaran model bahasa besar. Proses ini mencakup pembuatan kata kunci eksplisit dan pembuatan vektor preferensi pengguna implisit. Kombinasi keduanya memberikan dasar informasi yang kaya untuk pembuatan konten multi-modal.
Dalam aplikasi praktis, teknologi PMG dapat mencapai fungsi-fungsi berikut:
Pembuatan kata kunci: Buat kata-kata cepat untuk memandu model besar guna mengekstrak preferensi pengguna sebagai kata kunci.
Pembuatan vektor tersembunyi: Menggabungkan kata kunci preferensi pengguna dan kata kunci item target, menggunakan model besar koreksi bias yang disempurnakan oleh P-Tuning V2 untuk mempelajari kemampuan pembuatan multimodal.
Keseimbangan preferensi pengguna dan item target: Dengan menghitung tingkat personalisasi dan akurasi, mengukur efek pembuatan secara kuantitatif, dan mengoptimalkan konten yang dihasilkan.
Tim peneliti memverifikasi efektivitas teknologi PMG melalui tiga skenario penerapan: pembuatan gambar pakaian e-commerce, adegan poster film, dan pembuatan ekspresi. Hasil percobaan menunjukkan bahwa PMG mampu menghasilkan konten yang dipersonalisasi yang mencerminkan preferensi pengguna, dan berkinerja baik pada indikator kesamaan gambar LPIPS dan SSIM.
Teknologi ini tidak hanya inovatif secara teori, tetapi juga menunjukkan potensi besar dan nilai komersial dalam penerapan praktis. Dengan meningkatnya permintaan akan personalisasi, teknologi PMG diperkirakan akan mengalami pertumbuhan eksplosif di masa depan, memberikan pengalaman yang lebih kaya dan lebih personal kepada pengguna.
Alamat proyek: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
Secara keseluruhan, teknologi PMG mencapai pembuatan konten yang sangat dipersonalisasi dengan menggabungkan model bahasa besar dan kemampuan pembuatan multi-modal, memberikan pengalaman AI yang lebih kreatif dan lebih dekat dengan kebutuhan pengguna. Ini memiliki prospek penerapan yang luas di bidang e-commerce, hiburan, dan bidang lainnya, dan pengembangan dan penerapannya di masa depan patut dinantikan.