La Universidad de Pekín, la Universidad de Stanford y Pika Labs colaboraron para desarrollar un nuevo marco de gráficos vicenciano de código abierto llamado RPG, que aprovecha las poderosas capacidades de los modelos de lenguaje grande (LLM) multimodales para superar con éxito dos problemas importantes con la tecnología de gráficos vicencianos. Sus estrategias principales incluyen la descomposición de indicaciones de texto, la división del espacio de la imagen y la generación independiente de imágenes de subregiones, logrando así avances significativos e inyectando nueva vitalidad en el campo de los gráficos vicencianos. Esto marca un avance importante en el campo de la generación de imágenes con inteligencia artificial y se espera que promueva aún más la aplicación y el desarrollo de esta tecnología en el futuro.
La Universidad de Pekín, Stanford y Pika Labs lanzaron conjuntamente un nuevo juego de rol de marco de gráficos Vincent de código abierto, que resuelve con éxito dos problemas importantes de los gráficos Vincent aprovechando las capacidades del LLM multimodal. Este marco ha logrado resultados de investigación notables a través de estrategias centrales como la descomposición de indicaciones de texto, la división del espacio de la imagen y la generación independiente de imágenes de subregiones, lo que aporta nuevos avances al campo de los gráficos vicencianos.
La aparición del marco RPG presagia una nueva etapa de desarrollo para la tecnología gráfica vicenciana. Su característica de código abierto acelerará la iteración tecnológica y la implementación de aplicaciones, y se espera que desempeñe un papel importante en la creación de arte, asistencia en diseño y otros campos, brindando comodidad a más desarrolladores y usuarios. Esperamos ver más aplicaciones innovadoras basadas en el marco RPG en el futuro.