擴散模型更懂複雜提示詞！ Pika北大斯坦福開源新框架，利用LLM提升理解力

作者：Eve Cole 更新時間：2025-01-31 00:00:02

Pika聯合北大斯坦福開源了一個名為RPG的全新擴散模型框架，該框架巧妙地利用了大型語言模型（LLM）技術來增強擴散模型對複雜提示詞的理解和處理能力。這項突破性的技術使得生成的圖像能夠更精準地符合用戶提供的提示詞要求，其效果甚至超越了備受讚譽的Dall·E 3。這項消息一經發布便在網路上引發熱烈討論，參與該計畫的研究人員來自北京大學、史丹佛大學以及Pika的共同創辦人團隊。這項技術為人工智慧影像生成領域帶來了新的可能性，讓我們拭目以待其未來的發展。

Pika聯合北大斯坦福開源了RPG框架，利用LLM技術提升擴散模型對複雜提示詞的理解能力，效果超越Dall·E 3。此框架能產生更符合提示詞要求的圖片，並已在網路上引起熱議。參與作者來自北大、史丹佛和Pika共同創辦人。詳細內容請造訪原文連結。

RPG框架的開源，標誌著人工智慧圖像生成技術向前邁進了一大步，為開發者和研究人員提供了強大的新工具。未來，我們可以期待更多基於LLM技術的創新應用，為我們帶來更驚豔的AI影像生成體驗。