快手近日發布了一項重大技術突破,正式開源了其自主研發的圖像生成模型——“可圖Kolors”。這一模型不僅代表了快手在人工智能領域的深厚積累,更展示了其在圖像生成技術上的創新實力。可圖Kolors 的發布,標誌著快手在AI技術應用上的又一次重要突破,尤其是在圖像生成與處理領域,為創作者提供了強大的工具支持。
可圖Kolors 的核心優勢在於其強大的語言理解與圖像生成能力。該模型採用了通用語言模型(GLM)作為文本編碼器,支持中英文雙語提示詞,能夠處理長達256個token的上下文。這意味著用戶可以通過詳細的文字描述,生成高度符合預期的圖像,無論是複雜的場景設計,還是細膩的情感表達,都能通過這一模型實現。
在訓練數據方面,可圖Kolors 基於數十億的文本圖像對進行了深度訓練,這使得模型具備了豐富的知識庫,能夠生成多樣化且精準的圖像。尤其值得一提的是,該模型特別針對中國文化元素進行了優化,生成的圖像不僅具有國際化的審美,還能更好地融入中國本土文化特色,滿足本土用戶的需求。
此外,可圖Kolors 在中文文字生成方面表現尤為突出。它不僅能夠理解中文提示詞,還能在生成的圖像中嵌入中文文字,為圖像增添更多的表達力。這一點在實際測試中得到了充分驗證,模型在生成包含中文文字的圖像時,準確率極高,幾乎可以完美呈現用戶的需求。
在實際應用中,可圖Kolors 展現了其強大的生成能力。例如,在生成“躺平小貓”這一主題的圖像時,模型能夠完美呈現中文提示詞的要求,圖像中的文字清晰準確。然而,當使用英文提示詞時,模型的表現則稍顯不足,容易出現缺字或錯字的情況。這表明,雖然可圖Kolors 在中文處理上表現優異,但在英文生成方面仍有提升空間。
可圖Kolors 的背後,是快手強大的技術支撐。該模型基於SDXL架構,並融合了ChatGLM256技術,進一步增強了其雙語理解和文字生成能力。然而,值得注意的是,運行這一模型需要較大的顯存,大約19GB,這對硬件設備提出了較高的要求,可能限制了部分用戶的使用。
快手此次開源可圖Kolors,不僅是對技術社區的貢獻,更是對創作自由的一次大膽推動。通過開源,快手希望更多的開發者、設計師和藝術家能夠利用這一工具,探索AI在藝術創作中的無限可能。同時,這也展示了快手在AI技術領域的決心與實力,預示著未來將有更多創新技術應用於實際場景中。
可圖Kolors 的開源計劃還包括了CN(ControlNet)支持、LoRa(低秩適應)、IPA(圖像提示適應)和ComfyUI直接支持,這些功能的加入,將進一步優化用戶的創作體驗,使圖像生成過程更加流暢和個性化。
總的來說,可圖Kolors 的發布,不僅是快手在AI技術領域的一次重要突破,更是對圖像生成技術的一次革新。它通過強大的語言理解與圖像生成能力,為用戶提供了全新的創作工具,同時也為AI技術在藝術創作中的應用開闢了新的道路。
可圖官網:https://top.aibase.com/tool/kuaishouketudamoxingkolors
項目地址:https://top.aibase.com/tool/kolors