苹果和Meta AI 联合推出名为LazyLLM的新技术,旨在显着提升大型语言模型(LLM)处理长文本推理的效率。当前LLM在处理长提示时,由于注意力机制的计算复杂度随token数量平方增长,导致速度缓慢,尤其在预充阶段。 LazyLLM通过动态选择重要token进行计算,有效降低计算量,并引入Aux Cache机制高效恢复被剪枝的token,从而在保证准确性的前提下大幅提升速度。
最近苹果公司的研究团队和Meta AI 的研究人员联合推出了一项名为LazyLLM 的新技术,这项技术在提高大型语言模型(LLM)在长文本推理中的效率。
大家都知道,当前的LLM 在处理长提示时,特别是在预充阶段,往往会面临速度慢的问题。这主要是因为现代的变换器架构在计算注意力时,其计算复杂度随着提示中的token 数量呈平方关系增长。因此,在使用Llama2模型时,首个token 的计算时间往往是后续解码步骤的21倍,占据了生成时间的23%。
为了改善这一状况,研究者们提出LazyLLM,这是一种通过动态选择重要token 的计算方式来加速LLM 推理的新方法。 LazyLLM 的核心在于它会根据之前层的注意力分数评估每个token 的重要性,从而逐步削减计算量。与永久性压缩不同的是,LazyLLM 可以在必要时恢复被削减的token,以确保模型的准确性。此外,LazyLLM 引入了一种名为Aux Cache 的机制,可以存储被剪枝token 的隐含状态,从而高效地恢复这些token,并防止性能下降。
LazyLLM 在推理速度上表现突出,尤其是在预填充和解码阶段。该技术的三个主要优点是:它与任何变换器基础的LLM 兼容,实施过程中不需要进行模型的再训练,并且在多种语言任务上都表现得非常有效。 LazyLLM 的动态剪枝策略使其在保留大部分重要token 的同时,可以大幅度减少计算量,进而提升生成速度。
研究结果表明,LazyLLM 在多个语言任务上均表现优异,TTFT 速度提升达2.89倍(对于Llama2)及4.77倍(对于XGen),同时准确率几乎与基线持平。无论是问答、摘要生成还是代码补全任务,LazyLLM 都能实现更快的生成速度,并且在性能与速度之间取得良好的平衡。其渐进的剪枝策略加上逐层分析,为LazyLLM 的成功奠定了基础。
论文地址:https://arxiv.org/abs/2407.14057
划重点:
LazyLLM 通过动态选择重要token,加速LLM 推理过程,特别是在长文本场景中表现突出。
该技术能够显着提高推理速度,TTFT 速度提升可达4.77倍,同时保持较高的准确性。
LazyLLM 不需要对现有模型进行改动,可与任何变换器基础的LLM 兼容,易于实施。
总而言之,LazyLLM 的出现为解决LLM 长文本推理效率问题提供了新的思路和有效的解决方案,其在速度和准确性上的出色表现,预示着其在未来大模型应用中将发挥重要作用。 这项技术具有广泛的应用前景,值得期待其进一步发展和应用。