Mit der rasanten Entwicklung der KI-Technologie ist heute das personalisierte Erlebnis in den Mittelpunkt des Strebens der Benutzer gerückt. Es ist zu einer großen Herausforderung im Bereich der künstlichen Intelligenz geworden, KI dazu zu bringen, die Bedürfnisse der Benutzer wirklich zu verstehen und maßgeschneiderte Dienste bereitzustellen. Die von Huawei und der Tsinghua-Universität gemeinsam entwickelte PMG-Technologie (Personalized Multimodal Generation) bietet eine neue Idee zur Lösung dieses Problems. Diese Technologie kann personalisierte multimodale Inhalte basierend auf den historischen Verhaltensweisen und Vorlieben der Benutzer generieren, wie z. B. Emoticons, T-Shirt-Designs und Filmplakate, und den Benutzern ein durchdachteres und komfortableres KI-Erlebnis bieten.
Wie kann KI in dieser Zeit, in der Personalisierung an erster Stelle steht, Sie besser verstehen? Wenn Sie in die Chat-Software „Ich habe bestanden, ich bin sehr glücklich!“ eingeben, erkennt eine KI, die Ihre Gedanken versteht, nicht nur Ihre Aufregung, sondern merkt sich auch dass Sie Smiley-Katzen-Ausdrücke bevorzugen, deshalb hat das Unternehmen eine Reihe einzigartiger Smiley-Katzen-Ausdruckspakete zusammengestellt, die speziell auf Sie zugeschnitten sind.
Im Bereich der personalisierten Erzeugung künstlicher Intelligenz haben Huawei und die Tsinghua-Universität ihre Kräfte gebündelt, um eine neue Technologie namens PMG (Personalized Multimodal Generation) zu entwickeln. Diese Technologie kann multimodale Inhalte generieren, die die personalisierten Bedürfnisse des Benutzers erfüllen, basierend auf dem historischen Verhalten und den Vorlieben des Benutzers, wie z. B. Emoticons, T-Shirt-Designs, Filmplakate usw.
Wie funktioniert PMG? Es extrahiert die Präferenzen des Benutzers, indem es den Anzeige- und Gesprächsverlauf des Benutzers analysiert, kombiniert mit den Argumentationsfähigkeiten des großen Sprachmodells. Dieser Prozess umfasst die explizite Generierung von Schlüsselwörtern und die implizite Generierung von Benutzerpräferenzvektoren. Die Kombination beider bietet eine umfassende Informationsbasis für die Generierung multimodaler Inhalte.
In praktischen Anwendungen kann die PMG-Technologie folgende Funktionen erreichen:
Schlüsselwortgenerierung: Konstruieren Sie Eingabeaufforderungswörter, um das große Modell bei der Extraktion von Benutzerpräferenzen als Schlüsselwörter zu unterstützen.
Generierung versteckter Vektoren: Kombination von Benutzerpräferenzschlüsselwörtern und Zielelementschlüsselwörtern unter Verwendung des von P-Tuning V2 fein abgestimmten Bias-Korrektur-Großmodells zum Erlernen multimodaler Generierungsfunktionen.
Ausgewogenheit von Benutzerpräferenzen und Zielelementen: Durch Berechnung des Personalisierungsgrads und der Genauigkeit, quantitative Messung des Generierungseffekts und Optimierung des generierten Inhalts.
Das Forschungsteam verifizierte die Wirksamkeit der PMG-Technologie anhand von drei Anwendungsszenarien: E-Commerce-Bildgenerierung für Kleidung, Filmplakatszene und Ausdrucksgenerierung. Experimentelle Ergebnisse zeigen, dass PMG in der Lage ist, personalisierte Inhalte zu generieren, die die Präferenzen der Benutzer widerspiegeln, und bei den Bildähnlichkeitsindikatoren LPIPS und SSIM gut abschneidet.
Diese Technologie ist nicht nur in der Theorie innovativ, sondern zeigt auch in der praktischen Anwendung großes Potenzial und kommerziellen Wert. Angesichts der wachsenden Nachfrage nach Personalisierung wird erwartet, dass die PMG-Technologie in Zukunft ein explosionsartiges Wachstum verzeichnen und den Benutzern ein reichhaltigeres und personalisierteres Erlebnis bieten wird.
Projektadresse: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
Alles in allem erreicht die PMG-Technologie eine hochgradig personalisierte Inhaltsgenerierung durch die Kombination großer Sprachmodelle und multimodaler Generierungsfunktionen und bietet Benutzern ein kreativeres KI-Erlebnis, das näher an ihren Bedürfnissen liegt. Es verfügt über breite Anwendungsaussichten im E-Commerce, in der Unterhaltung und in anderen Bereichen und es lohnt sich, auf seine zukünftige Entwicklung und Anwendung zu blicken.