快手开源图像生成模型可图Kolors 支持在画面中生成文字 - AI文章

作者：Eve Cole 更新时间：2025-02-20 20:50:02

快手近日发布了一项重大技术突破，正式开源了其自主研发的图像生成模型——“可图 Kolors”。这一模型不仅代表了快手在人工智能领域的深厚积累，更展示了其在图像生成技术上的创新实力。可图 Kolors 的发布，标志着快手在AI技术应用上的又一次重要突破，尤其是在图像生成与处理领域，为创作者提供了强大的工具支持。

可图 Kolors 的核心优势在于其强大的语言理解与图像生成能力。该模型采用了通用语言模型（GLM）作为文本编码器，支持中英文双语提示词，能够处理长达256个token的上下文。这意味着用户可以通过详细的文字描述，生成高度符合预期的图像，无论是复杂的场景设计，还是细腻的情感表达，都能通过这一模型实现。

在训练数据方面，可图 Kolors 基于数十亿的文本图像对进行了深度训练，这使得模型具备了丰富的知识库，能够生成多样化且精准的图像。尤其值得一提的是，该模型特别针对中国文化元素进行了优化，生成的图像不仅具有国际化的审美，还能更好地融入中国本土文化特色，满足本土用户的需求。

此外，可图 Kolors 在中文文字生成方面表现尤为突出。它不仅能够理解中文提示词，还能在生成的图像中嵌入中文文字，为图像增添更多的表达力。这一点在实际测试中得到了充分验证，模型在生成包含中文文字的图像时，准确率极高，几乎可以完美呈现用户的需求。

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

在实际应用中，可图 Kolors 展现了其强大的生成能力。例如，在生成“躺平小猫”这一主题的图像时，模型能够完美呈现中文提示词的要求，图像中的文字清晰准确。然而，当使用英文提示词时，模型的表现则稍显不足，容易出现缺字或错字的情况。这表明，虽然可图 Kolors 在中文处理上表现优异，但在英文生成方面仍有提升空间。

QQ截图20240708112728.jpg

可图 Kolors 的背后，是快手强大的技术支撑。该模型基于SDXL架构，并融合了ChatGLM256技术，进一步增强了其双语理解和文字生成能力。然而，值得注意的是，运行这一模型需要较大的显存，大约19GB，这对硬件设备提出了较高的要求，可能限制了部分用户的使用。

快手此次开源可图 Kolors，不仅是对技术社区的贡献，更是对创作自由的一次大胆推动。通过开源，快手希望更多的开发者、设计师和艺术家能够利用这一工具，探索AI在艺术创作中的无限可能。同时，这也展示了快手在AI技术领域的决心与实力，预示着未来将有更多创新技术应用于实际场景中。

可图 Kolors 的开源计划还包括了CN（ControlNet）支持、LoRa(低秩适应)、IPA(图像提示适应)和ComfyUI直接支持，这些功能的加入，将进一步优化用户的创作体验，使图像生成过程更加流畅和个性化。

总的来说，可图 Kolors 的发布，不仅是快手在AI技术领域的一次重要突破，更是对图像生成技术的一次革新。它通过强大的语言理解与图像生成能力，为用户提供了全新的创作工具，同时也为AI技术在艺术创作中的应用开辟了新的道路。

可图官网:https://top.aibase.com/tool/kuaishouketudamoxingkolors

项目地址:https://top.aibase.com/tool/kolors