Сегодня, с быстрым развитием технологий искусственного интеллекта, персонализированный опыт стал в центре внимания пользователей. Как заставить ИИ по-настоящему понимать потребности пользователей и предоставлять индивидуальные услуги, стало серьезной проблемой в области искусственного интеллекта. Технология PMG (персонализированная мультимодальная генерация), совместно разработанная Huawei и Университетом Цинхуа, предлагает новую идею для решения этой проблемы. Эта технология может генерировать персонализированный мультимодальный контент на основе исторического поведения и предпочтений пользователей, например смайлики, дизайны футболок и постеры фильмов, предоставляя пользователям более продуманный и удобный опыт работы с искусственным интеллектом.
В эту эпоху, когда персонализация имеет первостепенное значение, как ИИ может лучше вас понимать? Представьте себе, что когда вы вводите в чате «Я прошел, я очень рад!», ИИ, который понимает ваши мысли, не только распознает ваше волнение, но и запоминает! что вы предпочитаете выражения смайликов-кошек, поэтому мы создали серию уникальных пакетов выражений смайликов-котов, специально предназначенных для вас.
В области персонализированной генерации искусственного интеллекта компания Huawei и Университет Цинхуа объединили усилия для создания новой технологии под названием PMG (персонализированная мультимодальная генерация). Эта технология может генерировать мультимодальный контент, отвечающий персонализированным потребностям пользователя на основе его исторического поведения и предпочтений, например смайлики, дизайны футболок, постеры к фильмам и т. д.
Как работает PMG? Он извлекает предпочтения пользователя, анализируя историю просмотров и разговоров пользователя в сочетании с возможностями рассуждения большой языковой модели. Этот процесс включает в себя явную генерацию ключевых слов и неявную генерацию вектора предпочтений пользователя. Комбинация этих двух процессов обеспечивает богатую информационную основу для генерации мультимодального контента.
В практическом применении технология PMG может выполнять следующие функции:
Генерация ключевых слов: создавайте подсказки, которые помогут большой модели извлечь пользовательские предпочтения в качестве ключевых слов.
Генерация скрытых векторов: объединение ключевых слов пользовательских предпочтений и ключевых слов целевых элементов с использованием большой модели коррекции смещения, точно настроенной с помощью P-Tuning V2, для изучения возможностей мультимодальной генерации.
Баланс пользовательских предпочтений и целевых элементов: путем расчета уровня персонализации и точности, количественного измерения эффекта генерации и оптимизации генерируемого контента.
Исследовательская группа проверила эффективность технологии PMG в трех сценариях применения: создание изображений одежды для электронной коммерции, сцена постера к фильму и создание выражения лица. Результаты экспериментов показывают, что PMG способен генерировать персонализированный контент, отражающий предпочтения пользователя, и хорошо работает по показателям сходства изображений LPIPS и SSIM.
Эта технология не только является инновационной в теории, но также демонстрирует большой потенциал и коммерческую ценность в практическом применении. Ожидается, что в связи с растущим спросом на персонализацию технология PMG в будущем будет бурно развиваться, предоставляя пользователям более богатый и персонализированный опыт.
Адрес проекта: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
В целом, технология PMG обеспечивает высоко персонализированную генерацию контента за счет объединения больших языковых моделей и возможностей мультимодальной генерации, предоставляя пользователям более творческий опыт искусственного интеллекта, который ближе к их потребностям. Он имеет широкие перспективы применения в электронной коммерции, развлечениях и других областях, и стоит с нетерпением ждать его дальнейшего развития и применения.