快手近日发布了一项重大技术突破,正式开源了其自主研发的图像生成模型——“可图 Kolors”。这一模型不仅代表了快手在人工智能领域的深厚积累,更展示了其在图像生成技术上的创新实力。可图 Kolors 的发布,标志着快手在AI技术应用上的又一次重要突破,尤其是在图像生成与处理领域,为创作者提供了强大的工具支持。
可图 Kolors 的核心优势在于其强大的语言理解与图像生成能力。该模型采用了通用语言模型(GLM)作为文本编码器,支持中英文双语提示词,能够处理长达256个token的上下文。这意味着用户可以通过详细的文字描述,生成高度符合预期的图像,无论是复杂的场景设计,还是细腻的情感表达,都能通过这一模型实现。
在训练数据方面,可图 Kolors 基于数十亿的文本图像对进行了深度训练,这使得模型具备了丰富的知识库,能够生成多样化且精准的图像。尤其值得一提的是,该模型特别针对中国文化元素进行了优化,生成的图像不仅具有国际化的审美,还能更好地融入中国本土文化特色,满足本土用户的需求。
此外,可图 Kolors 在中文文字生成方面表现尤为突出。它不仅能够理解中文提示词,还能在生成的图像中嵌入中文文字,为图像增添更多的表达力。这一点在实际测试中得到了充分验证,模型在生成包含中文文字的图像时,准确率极高,几乎可以完美呈现用户的需求。
在实际应用中,可图 Kolors 展现了其强大的生成能力。例如,在生成“躺平小猫”这一主题的图像时,模型能够完美呈现中文提示词的要求,图像中的文字清晰准确。然而,当使用英文提示词时,模型的表现则稍显不足,容易出现缺字或错字的情况。这表明,虽然可图 Kolors 在中文处理上表现优异,但在英文生成方面仍有提升空间。
可图 Kolors 的背后,是快手强大的技术支撑。该模型基于SDXL架构,并融合了ChatGLM256技术,进一步增强了其双语理解和文字生成能力。然而,值得注意的是,运行这一模型需要较大的显存,大约19GB,这对硬件设备提出了较高的要求,可能限制了部分用户的使用。
快手此次开源可图 Kolors,不仅是对技术社区的贡献,更是对创作自由的一次大胆推动。通过开源,快手希望更多的开发者、设计师和艺术家能够利用这一工具,探索AI在艺术创作中的无限可能。同时,这也展示了快手在AI技术领域的决心与实力,预示着未来将有更多创新技术应用于实际场景中。
可图 Kolors 的开源计划还包括了CN(ControlNet)支持、LoRa(低秩适应)、IPA(图像提示适应)和ComfyUI直接支持,这些功能的加入,将进一步优化用户的创作体验,使图像生成过程更加流畅和个性化。
总的来说,可图 Kolors 的发布,不仅是快手在AI技术领域的一次重要突破,更是对图像生成技术的一次革新。它通过强大的语言理解与图像生成能力,为用户提供了全新的创作工具,同时也为AI技术在艺术创作中的应用开辟了新的道路。
可图官网:https://top.aibase.com/tool/kuaishouketudamoxingkolors
项目地址:https://top.aibase.com/tool/kolors