苹果研究团队出品！LazyLLM：提高LLM长文本推理效率

作者：Eve Cole 更新时间：2024-12-13 19:32:01

苹果和Meta AI 联合推出名为LazyLLM的新技术，旨在显着提升大型语言模型(LLM)处理长文本推理的效率。当前LLM在处理长提示时，由于注意力机制的计算复杂度随token数量平方增长，导致速度缓慢，尤其在预充阶段。 LazyLLM通过动态选择重要token进行计算，有效降低计算量，并引入Aux Cache机制高效恢复被剪枝的token，从而在保证准确性的前提下大幅提升速度。

最近苹果公司的研究团队和Meta AI 的研究人员联合推出了一项名为LazyLLM 的新技术，这项技术在提高大型语言模型（LLM）在长文本推理中的效率。

大家都知道，当前的LLM 在处理长提示时，特别是在预充阶段，往往会面临速度慢的问题。这主要是因为现代的变换器架构在计算注意力时，其计算复杂度随着提示中的token 数量呈平方关系增长。因此，在使用Llama2模型时，首个token 的计算时间往往是后续解码步骤的21倍，占据了生成时间的23%。

为了改善这一状况，研究者们提出LazyLLM，这是一种通过动态选择重要token 的计算方式来加速LLM 推理的新方法。 LazyLLM 的核心在于它会根据之前层的注意力分数评估每个token 的重要性，从而逐步削减计算量。与永久性压缩不同的是，LazyLLM 可以在必要时恢复被削减的token，以确保模型的准确性。此外，LazyLLM 引入了一种名为Aux Cache 的机制，可以存储被剪枝token 的隐含状态，从而高效地恢复这些token，并防止性能下降。

LazyLLM 在推理速度上表现突出，尤其是在预填充和解码阶段。该技术的三个主要优点是:它与任何变换器基础的LLM 兼容，实施过程中不需要进行模型的再训练，并且在多种语言任务上都表现得非常有效。 LazyLLM 的动态剪枝策略使其在保留大部分重要token 的同时，可以大幅度减少计算量，进而提升生成速度。

研究结果表明，LazyLLM 在多个语言任务上均表现优异，TTFT 速度提升达2.89倍（对于Llama2）及4.77倍(对于XGen)，同时准确率几乎与基线持平。无论是问答、摘要生成还是代码补全任务，LazyLLM 都能实现更快的生成速度，并且在性能与速度之间取得良好的平衡。其渐进的剪枝策略加上逐层分析，为LazyLLM 的成功奠定了基础。

论文地址：https://arxiv.org/abs/2407.14057

划重点:

LazyLLM 通过动态选择重要token，加速LLM 推理过程，特别是在长文本场景中表现突出。

该技术能够显着提高推理速度，TTFT 速度提升可达4.77倍，同时保持较高的准确性。

LazyLLM 不需要对现有模型进行改动，可与任何变换器基础的LLM 兼容，易于实施。

总而言之，LazyLLM 的出现为解决LLM 长文本推理效率问题提供了新的思路和有效的解决方案，其在速度和准确性上的出色表现，预示着其在未来大模型应用中将发挥重要作用。这项技术具有广泛的应用前景，值得期待其进一步发展和应用。