¡El modelo de difusión comprende mejor las palabras complejas! Pika, un nuevo marco de código abierto de la Universidad de Pekín y Stanford, utiliza LLM para mejorar la comprensión

Autor：Eve Cole Fecha de actualización：2025-01-31 00:00:02

Pika, la Universidad de Pekín y Stanford han abierto un nuevo marco de modelo de difusión llamado RPG, que utiliza inteligentemente la tecnología de modelo de lenguaje grande (LLM) para mejorar la capacidad del modelo de difusión para comprender y procesar palabras complejas. Esta innovadora tecnología permite que las imágenes generadas coincidan con mayor precisión con los requisitos de palabras proporcionados por el usuario, y su efecto supera incluso al galardonado Dall·E 3. Esta noticia provocó acaloradas discusiones en Internet tan pronto como se publicó. Los investigadores involucrados en el proyecto procedían de la Universidad de Pekín, la Universidad de Stanford y el equipo cofundador de Pika. Esta tecnología aporta nuevas posibilidades al campo de la generación de imágenes con inteligencia artificial, esperemos y veamos su desarrollo futuro.

Pika se asoció con la Universidad de Pekín y Stanford para abrir el marco RPG, utilizando tecnología LLM para mejorar la capacidad del modelo de difusión para comprender palabras complejas, y el efecto superó a Dall·E 3. El marco puede generar imágenes que cumplen mejor con los requisitos de palabras y ha provocado acaloradas discusiones en línea. Los autores participantes son de la Universidad de Pekín, Stanford y el cofundador de Pika. Visite el enlace original para obtener más detalles.

El código abierto del marco RPG marca un gran paso adelante en la tecnología de generación de imágenes de inteligencia artificial, proporcionando a desarrolladores e investigadores nuevas y potentes herramientas. En el futuro, podemos esperar aplicaciones más innovadoras basadas en la tecnología LLM, que nos brindarán una experiencia de generación de imágenes de IA más sorprendente.