月之暗面科技有限公司与清华大学MADSys实验室携手打造的开源项目Mooncake,旨在构建以KVCache为核心的大模型推理架构,致力于提升大模型推理效率。该项目源于此前双方联合发布的Kimi底层Mooncake推理系统设计方案,该方案以其创新的PD分离和以存换算架构,显着提升了推理吞吐量,引发业界广泛关注。 Mooncake项目正逐步开源其核心组件,力求为大模型推理提供一个高效、兼容性强的平台。
Mooncake项目从论文延伸而来,以超大规模KVCache缓存池为中心,通过以存换算的创新理念减少算力开销,提升推理吞吐量。项目采用分阶段开源方式,逐步开源高性能KVCache多级缓存Mooncake Store的实现,并针对各类推理引擎和底层存储/传输资源进行兼容。目前,传输引擎Transfer Engine部分已在GitHub全球开源。
月之暗面Kimi工程副总裁许欣然表示,通过与清华大学MADSys实验室的紧密合作,共同打造了分离式大模型推理架构Mooncake,实现了推理资源的极致优化。 Mooncake不仅提升了Kimi的用户体验和降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。公司相信,通过与产学研机构的开源合作,可以推动整个行业向更高效的推理平台方向发展,并邀请更多企业和研究机构加入Mooncake项目共建,共同探索更高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品惠及更广泛人群。
项目地址:https://github.com/kvcache-ai/Mooncake
Mooncake项目的开源,标志着大模型推理架构创新迈出了重要一步,其高效的架构设计和开放的合作模式,将极大推动大模型技术的普及和应用,为人工智能发展注入新的活力。期待更多开发者加入,共同构建更强大的AI推理生态。