Модель диффузии лучше понимает сложные подсказки! Pika, новая платформа с открытым исходным кодом от Пекинского университета и Стэнфорда, использует LLM для улучшения понимания

Автор：Eve Cole Время обновления：2025-01-31 00:00:02

Пика, Пекинский университет и Стэнфорд открыли исходный код новой структуры модели распространения под названием RPG, которая умело использует технологию модели большого языка (LLM) для улучшения способности модели распространения понимать и обрабатывать сложные слова-подсказки. Эта революционная технология позволяет сгенерированным изображениям более точно соответствовать требованиям к подсказкам, заданным пользователем, а ее эффект даже превосходит отмеченный наградами Dall·E 3. Эта новость вызвала бурные обсуждения в Интернете, как только она была опубликована. В проекте участвовали исследователи из Пекинского университета, Стэнфордского университета и команды соучредителей Pika. Эта технология открывает новые возможности в области создания изображений искусственного интеллекта, давайте подождем и посмотрим ее будущее развитие.

Pika объединилась с Пекинским университетом и Стэнфордом, чтобы открыть исходный код структуры RPG, используя технологию LLM для улучшения способности модели диффузии понимать сложные слова-подсказки, и эффект превзошел Dall·E 3. Платформа может генерировать изображения, которые лучше соответствуют требованиям к подсказкам, и вызвала бурные дискуссии в Интернете. Участвующие авторы — представители Пекинского университета, Стэнфорда и соучредителя Pika. Пожалуйста, посетите оригинальную ссылку для получения подробной информации.

Открытый исходный код платформы RPG знаменует собой большой шаг вперед в технологии создания изображений искусственного интеллекта, предоставляя разработчикам и исследователям новые мощные инструменты. В будущем мы можем рассчитывать на более инновационные приложения на основе технологии LLM, которые предоставят нам более удивительный опыт создания изображений с помощью искусственного интеллекта.