苹果公司近期发布的一项研究成果,显著提升了大型语言模型在内存受限设备上的运行效率。该研究巧妙地将模型参数存储在闪存中,并在需要时按需加载到DRAM,有效解决了内存瓶颈问题,并通过一系列优化策略,实现了推理速度的巨大飞跃。这项技术突破为大型语言模型在移动设备和嵌入式系统等资源受限环境中的应用铺平了道路,具有重要的实际意义。
苹果最新研究指出,在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需加载到DRAM,成功提高了大型语言模型的运行效率,推理速度增加了25倍。该方法通过优化推断成本模型,减少数据传输量,并引入窗口化策略和行列捆绑技术,使得能够在内存容量有限的设备上运行比可用DRAM容量大两倍的模型。相比朴素加载方法,CPU和GPU的推断速度分别提高了4-5倍和20-25倍,同时结合稀疏感知、上下文自适应加载和硬件导向设计,为大型语言模型在内存有限设备上的推断带来新的可能性。详细论文可查阅[这里](https://arxiv.org/pdf/2312.11514.pdf)。这项研究成果不仅在速度上取得了显著提升,更重要的是为大型语言模型在更广泛的设备上的应用提供了可能,预示着未来AI技术将更加普及和便捷。 苹果的这项创新为AI领域的发展带来了新的方向。