彩云科技发布基于DCFormer架构的通用大模型“云锦天章”及彩云小梦V3.5版本,标志着AI领域在模型架构效率方面取得重大突破。DCFormer架构通过可动态组合的多头注意力机制,显著提升模型表达能力,解决传统Transformer架构效率低下的问题,并有效应对AI发展面临的能源挑战。此项创新成果已在国际顶级会议ICML上发表,并获得高度评价。
在AI领域,Transformer架构一直是ChatGPT、Gemini等主流大模型的核心技术支撑。今年,彩云科技在国际顶级会议ICML上发表的论文《Improving Transformers with Dynamically Composable Multi-Head Attention》首次提出DCFormer架构。测试显示,基于该架构开发的DCPythia-6.9B模型在性能上实现了对传统Transformer模型1.7- 2 倍的显著提升。对于AI发展面临的能源挑战,彩云科技CEO袁行远指出,根据预测,到 2050 年全球AI耗电量可能达到目前地球发电能力的 8 倍。英伟达CEO黄仁勋更形象地表示,按目前发展速度,未来可能需要" 14 个行星、 3 个星系、 4 个太阳"来为AI提供能源支持。针对这一困境,彩云科技选择从改善模型底层架构入手。DCFormer通过引入可动态组合的多头注意力(DCMHA)机制,解除了传统多头注意力模块(MHA)中注意力头的固定绑定,实现了更灵活的动态组合,从而大幅提升模型表达能力。该创新使彩云科技在ICML会议上的三篇论文获得平均 7 分的高分,并成为国内仅有的两家受邀在维也纳ICML2024 登台演讲的企业之一。作为DCFormer架构的首个落地产品,新版彩云小梦展现出卓越性能:支持 1 万字的长文本输入,故事背景设定长度可达 1 万字,整体流畅性和连贯性提升20%。这意味着AI能够更好地维持剧情连贯性,保持人物性格一致性,并具备情节反思和修正能力。彩云科技作为国内最早涉足大语言模型的企业之一,目前已拥有彩云天气、彩云小梦、彩云小译三款盈利性AI产品。公司表示将继续加大对DCFormer的研发投入,致力于打破"国外技术层、国内应用层"的传统格局,推动国产AI技术在全球竞争中占据优势地位。通过这次技术突破,彩云科技不仅展现了中国企业在AI底层架构创新方面的实力,更为解决AI发展中的能源瓶颈提供了新思路,有望加速AI技术的可持续发展。
彩云科技的创新为AI发展带来了新的希望,其在底层架构上的突破将推动AI技术持续进步,并在全球竞争中占据有利地位,值得期待其未来的发展。