在AI技術快速發展的今天,個人化體驗成為使用者追求的焦點。如何讓AI真正理解使用者需求,提供量身訂做的服務,成為人工智慧領域的一大挑戰。華為與清華大學合作研發的PMG(Personalized Multimodal Generation)技術,為解決這個難題提供了新的想法。這項技術能夠根據用戶的歷史行為和偏好,產生個人化的多模態內容,例如表情包、T卹設計圖和電影海報等,為用戶帶來更貼心、更便捷的AI體驗。
在這個個人化至上的時代,AI如何更懂你?想像一下,當你在聊天軟體中輸入「我通過了,很開心!」時,一個懂得你心意的AI,不僅識別出你的興奮情緒,還想起你偏愛笑臉貓的表情,於是,它為你量身打造了一系列獨特的笑臉貓表情包。
在人工智慧的個人化生成領域,華為與清華大學強強聯手,打造了名為PMG(Personalized Multimodal Generation)的新技術。這項技術能夠根據使用者的歷史行為和偏好,產生符合用戶個人化需求的多模態內容,如表情符號、T卹設計圖、電影海報等。
PMG的工作原理是什麼?它透過分析使用者的觀影和對話歷史,結合大語言模型的推理能力,提取出使用者的偏好。這個過程包括顯式的關鍵字生成和隱式的使用者偏好向量生成,兩者相結合,為多模態內容的生成提供了豐富的資訊基礎。
在實際應用中,PMG技術能夠實現以下功能:
關鍵字生成:建構提示詞指導大模型提取使用者偏好為關鍵字。
隱向量生成:結合使用者偏好關鍵字和目標項關鍵字,使用P-Tuning V2微調的偏差校正大模型,學習多模態生成能力。
使用者偏好和目標項的平衡:透過計算個人化程度和準確度,量化衡量生成效果,並優化生成內容。
研究團隊透過電商服裝圖片產生、電影海報場景和表情產生三個應用場景驗證了PMG技術的有效性。實驗結果表明,PMG能夠產生反映使用者偏好的個人化內容,並且在影像相似度指標LPIPS和SSIM上表現出色。
這項技術不僅在理論上具有創新性,而且在實際應用中展現出巨大的潛力和商業價值。隨著個人化需求的日益增長,PMG技術有望在未來迎來爆發性成長,為用戶帶來更豐富、更個人化的體驗。
專案地址:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
總而言之,PMG技術透過結合大語言模型和多模態生成能力,實現了高度個人化的內容生成,為使用者提供了更貼近需求、更具創意的AI體驗。其在電商、娛樂等領域的應用前景廣闊,值得期待其未來的發展與應用。