اليوم، مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، أصبحت التجربة الشخصية محور اهتمام المستخدمين. أصبحت كيفية جعل الذكاء الاصطناعي يفهم حقًا احتياجات المستخدم ويقدم خدمات مخصصة تحديًا كبيرًا في مجال الذكاء الاصطناعي. توفر تقنية PMG (الجيل الشخصي متعدد الوسائط) التي تم تطويرها بشكل مشترك بين هواوي وجامعة تسينغهوا فكرة جديدة لحل هذه المشكلة. يمكن لهذه التقنية إنشاء محتوى مخصص متعدد الوسائط استنادًا إلى سلوكيات المستخدمين وتفضيلاتهم التاريخية، مثل الرموز التعبيرية وتصميمات القمصان وملصقات الأفلام، مما يوفر للمستخدمين تجربة ذكاء اصطناعي أكثر تفكيرًا وملاءمة.
في هذا العصر حيث يعد التخصيص أمرًا بالغ الأهمية، كيف يمكن للذكاء الاصطناعي أن يفهمك بشكل أفضل؟ تخيل أنه عندما تكتب "لقد نجحت، أنا سعيد جدًا!" في برنامج الدردشة، فإن الذكاء الاصطناعي الذي يفهم أفكارك لا يتعرف على حماستك فحسب، بل يتذكرها أيضًا أنك تفضل تعبيرات القطط المبتسمة، لذلك قامت بإنشاء سلسلة من حزم تعبيرات القطط المبتسمة الفريدة المصممة خصيصًا لك.
في مجال الجيل الشخصي من الذكاء الاصطناعي، تعاونت هواوي وجامعة تسينغهوا لإنشاء تقنية جديدة تسمى PMG (الجيل الشخصي متعدد الوسائط). يمكن لهذه التقنية إنشاء محتوى متعدد الوسائط يلبي احتياجات المستخدم الشخصية بناءً على سلوك المستخدم وتفضيلاته التاريخية، مثل الرموز التعبيرية وتصميمات القمصان وملصقات الأفلام وما إلى ذلك.
كيف يعمل PMG؟ فهو يستخرج تفضيلات المستخدم من خلال تحليل تاريخ العرض والمحادثة الخاص بالمستخدم، بالإضافة إلى القدرات المنطقية لنموذج اللغة الكبير. تتضمن هذه العملية إنشاء كلمات رئيسية صريحة وإنشاء متجهات تفضيلات المستخدم الضمنية، ويوفر الجمع بين الاثنين أساسًا غنيًا بالمعلومات لإنشاء محتوى متعدد الوسائط.
وفي التطبيقات العملية، يمكن لتقنية PMG تحقيق الوظائف التالية:
إنشاء الكلمات الرئيسية: قم ببناء كلمات سريعة لتوجيه النموذج الكبير لاستخراج تفضيلات المستخدم ككلمات رئيسية.
توليد المتجهات المخفية: الجمع بين الكلمات الرئيسية المفضلة للمستخدم والكلمات الرئيسية للعنصر المستهدف، باستخدام النموذج الكبير لتصحيح التحيز الذي تم ضبطه بدقة بواسطة P-Tuning V2 لتعلم قدرات الإنشاء متعدد الوسائط.
التوازن بين تفضيلات المستخدم والعناصر المستهدفة: من خلال حساب مستوى التخصيص والدقة، والقياس الكمي لتأثير الإنشاء وتحسين المحتوى الذي تم إنشاؤه.
تحقق فريق البحث من فعالية تقنية PMG من خلال ثلاثة سيناريوهات تطبيقية: إنشاء صور ملابس التجارة الإلكترونية، ومشهد ملصق الفيلم، وتوليد التعبير. تظهر النتائج التجريبية أن PMG قادر على إنشاء محتوى مخصص يعكس تفضيلات المستخدم، ويعمل بشكل جيد على مؤشرات تشابه الصورة LPIPS وSSIM.
وهذه التكنولوجيا ليست مبتكرة من الناحية النظرية فحسب، ولكنها تُظهر أيضًا إمكانات كبيرة وقيمة تجارية في التطبيقات العملية. ومع تزايد الطلب على التخصيص، من المتوقع أن تشهد تقنية PMG نموًا هائلاً في المستقبل، مما يوفر للمستخدمين تجربة أكثر ثراءً وأكثر تخصيصًا.
عنوان المشروع: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
بشكل عام، تحقق تقنية PMG إنشاء محتوى مخصص للغاية من خلال الجمع بين نماذج اللغات الكبيرة وقدرات الإنشاء متعددة الوسائط، مما يوفر للمستخدمين تجربة ذكاء اصطناعي أكثر إبداعًا وأقرب إلى احتياجاتهم. لديها آفاق تطبيق واسعة في التجارة الإلكترونية والترفيه وغيرها من المجالات، ومن الجدير التطلع إلى تطويرها وتطبيقها في المستقبل.