Pika, l'Université de Pékin et Stanford ont ouvert un nouveau cadre de modèle de diffusion appelé RPG, qui utilise intelligemment la technologie du grand modèle de langage (LLM) pour améliorer la capacité du modèle de diffusion à comprendre et à traiter des mots d'invite complexes. Cette technologie révolutionnaire permet aux images générées de correspondre plus précisément aux exigences de mots d'invite fournies par l'utilisateur, et son effet dépasse même celui primé du Dall·E 3. Cette nouvelle a suscité de vives discussions sur Internet dès sa publication. Les chercheurs impliqués dans le projet venaient de l'Université de Pékin, de l'Université de Stanford et de l'équipe co-fondatrice de Pika. Cette technologie apporte de nouvelles possibilités dans le domaine de la génération d’images par intelligence artificielle, attendons de voir son évolution future.
Pika s'est associé à l'Université de Pékin et à Stanford pour ouvrir le framework RPG, en utilisant la technologie LLM pour améliorer la capacité du modèle de diffusion à comprendre des mots d'invite complexes, et l'effet a dépassé Dall·E 3. Le cadre peut générer des images qui répondent mieux aux exigences en termes de mots d'invite et a suscité des discussions animées en ligne. Les auteurs participants viennent de l’Université de Pékin, de Stanford et sont co-fondateurs de Pika. Veuillez visiter le lien d'origine pour plus de détails.
L'open source du framework RPG marque un grand pas en avant dans la technologie de génération d'images d'intelligence artificielle, offrant aux développeurs et aux chercheurs de nouveaux outils puissants. À l’avenir, nous pouvons nous attendre à des applications plus innovantes basées sur la technologie LLM, nous offrant une expérience de génération d’images IA plus étonnante.