快手開源圖像生成模型可圖Kolors 支持在畫面中生成文字- AI文章

作者：Eve Cole 更新時間：2025-02-20 20:50:02

快手近日發布了一項重大技術突破，正式開源了其自主研發的圖像生成模型——“可圖Kolors”。這一模型不僅代表了快手在人工智能領域的深厚積累，更展示了其在圖像生成技術上的創新實力。可圖Kolors 的發布，標誌著快手在AI技術應用上的又一次重要突破，尤其是在圖像生成與處理領域，為創作者提供了強大的工具支持。

可圖Kolors 的核心優勢在於其強大的語言理解與圖像生成能力。該模型採用了通用語言模型（GLM）作為文本編碼器，支持中英文雙語提示詞，能夠處理長達256個token的上下文。這意味著用戶可以通過詳細的文字描述，生成高度符合預期的圖像，無論是複雜的場景設計，還是細膩的情感表達，都能通過這一模型實現。

在訓練數據方面，可圖Kolors 基於數十億的文本圖像對進行了深度訓練，這使得模型具備了豐富的知識庫，能夠生成多樣化且精準的圖像。尤其值得一提的是，該模型特別針對中國文化元素進行了優化，生成的圖像不僅具有國際化的審美，還能更好地融入中國本土文化特色，滿足本土用戶的需求。

此外，可圖Kolors 在中文文字生成方面表現尤為突出。它不僅能夠理解中文提示詞，還能在生成的圖像中嵌入中文文字，為圖像增添更多的表達力。這一點在實際測試中得到了充分驗證，模型在生成包含中文文字的圖像時，準確率極高，幾乎可以完美呈現用戶的需求。

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

在實際應用中，可圖Kolors 展現了其強大的生成能力。例如，在生成“躺平小貓”這一主題的圖像時，模型能夠完美呈現中文提示詞的要求，圖像中的文字清晰準確。然而，當使用英文提示詞時，模型的表現則稍顯不足，容易出現缺字或錯字的情況。這表明，雖然可圖Kolors 在中文處理上表現優異，但在英文生成方面仍有提升空間。

QQ截图20240708112728.jpg

可圖Kolors 的背後，是快手強大的技術支撐。該模型基於SDXL架構，並融合了ChatGLM256技術，進一步增強了其雙語理解和文字生成能力。然而，值得注意的是，運行這一模型需要較大的顯存，大約19GB，這對硬件設備提出了較高的要求，可能限制了部分用戶的使用。

快手此次開源可圖Kolors，不僅是對技術社區的貢獻，更是對創作自由的一次大膽推動。通過開源，快手希望更多的開發者、設計師和藝術家能夠利用這一工具，探索AI在藝術創作中的無限可能。同時，這也展示了快手在AI技術領域的決心與實力，預示著未來將有更多創新技術應用於實際場景中。

可圖Kolors 的開源計劃還包括了CN（ControlNet）支持、LoRa(低秩適應)、IPA(圖像提示適應)和ComfyUI直接支持，這些功能的加入，將進一步優化用戶的創作體驗，使圖像生成過程更加流暢和個性化。

總的來說，可圖Kolors 的發布，不僅是快手在AI技術領域的一次重要突破，更是對圖像生成技術的一次革新。它通過強大的語言理解與圖像生成能力，為用戶提供了全新的創作工具，同時也為AI技術在藝術創作中的應用開闢了新的道路。

可圖官網:https://top.aibase.com/tool/kuaishouketudamoxingkolors

項目地址:https://top.aibase.com/tool/kolors