오늘날 AI 기술의 급속한 발전으로 개인화된 경험이 사용자 추구의 초점이 되었습니다. AI가 어떻게 사용자의 요구를 진정으로 이해하고 맞춤형 서비스를 제공할 수 있는지는 인공지능 분야의 주요 과제가 되었습니다. 화웨이와 칭화대학교가 공동 개발한 PMG(Personalized Multimodal Generation) 기술은 이 문제를 해결하기 위한 새로운 아이디어를 제공합니다. 이 기술은 사용자의 과거 행동과 선호도를 기반으로 이모티콘, 티셔츠 디자인, 영화 포스터 등 개인화된 멀티모달 콘텐츠를 생성하여 사용자에게 더욱 사려 깊고 편리한 AI 경험을 제공할 수 있습니다.
개인화가 중요한 시대에 AI가 어떻게 당신을 더 잘 이해할 수 있을까요? 채팅 소프트웨어에 "합격했습니다. 매우 기쁩니다!"라고 입력하면 당신의 생각을 이해하는 AI가 당신의 흥분을 인식할 뿐만 아니라, 기억하기도 합니다. 당신이 웃는 고양이 표정을 선호한다는 점을 고려하여 당신에게 꼭 맞는 독특한 웃는 고양이 표정 팩 시리즈를 만들었습니다.
인공지능 개인화 세대 분야에서 화웨이와 칭화대학교가 힘을 합쳐 PMG(Personalized Multimodal Generation)라는 신기술을 개발했습니다. 이 기술은 이모티콘, 티셔츠 디자인, 영화 포스터 등 사용자의 과거 행동과 선호도를 기반으로 사용자의 개인화된 요구를 충족하는 다중 모드 콘텐츠를 생성할 수 있습니다.
PMG는 어떻게 작동하나요? 사용자의 시청 및 대화 기록을 대규모 언어 모델의 추론 기능과 결합하여 분석하여 사용자의 선호도를 추출합니다. 이 프로세스에는 명시적 키워드 생성과 암시적 사용자 선호도 벡터 생성이 포함됩니다. 이 두 가지의 조합은 다중 모드 콘텐츠 생성을 위한 풍부한 정보 기반을 제공합니다.
실제 응용 분야에서 PMG 기술은 다음과 같은 기능을 달성할 수 있습니다.
키워드 생성: 사용자 선호도를 키워드로 추출하기 위해 대형 모델을 안내하는 프롬프트 단어를 구성합니다.
히든 벡터 생성: P-Tuning V2로 미세 조정된 편향 보정 대형 모델을 사용하여 사용자 선호 키워드와 대상 항목 키워드를 결합하여 다중 모드 생성 기능을 학습합니다.
사용자 선호도와 타겟 아이템의 균형 : 개인화 수준과 정확도를 계산하여 생성 효과를 정량적으로 측정하고 생성된 콘텐츠를 최적화합니다.
연구팀은 전자상거래 의류 이미지 생성, 영화 포스터 장면, 표현 생성 등 3가지 적용 시나리오를 통해 PMG 기술의 유효성을 검증했다. 실험 결과에 따르면 PMG는 사용자 선호도를 반영하는 개인화된 콘텐츠를 생성할 수 있고 이미지 유사성 지표인 LPIPS 및 SSIM에서 좋은 성능을 발휘하는 것으로 나타났습니다.
이 기술은 이론적으로 혁신적일 뿐만 아니라 실제 적용에서도 큰 잠재력과 상업적 가치를 보여줍니다. 개인화에 대한 수요가 증가함에 따라 PMG 기술은 향후 폭발적인 성장을 경험하여 사용자에게 더욱 풍부하고 개인화된 경험을 제공할 것으로 예상됩니다.
프로젝트 주소: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
전체적으로 PMG 기술은 대규모 언어 모델과 다중 모드 생성 기능을 결합하여 고도로 개인화된 콘텐츠 생성을 달성하고 사용자에게 자신의 요구에 더 가까운 보다 창의적인 AI 경험을 제공합니다. 전자상거래, 엔터테인먼트 및 기타 분야에서 광범위한 응용 전망을 가지고 있으며 향후 개발 및 응용을 기대할 가치가 있습니다.