四行代码让大模型上下文暴增 3 倍，羊驼 Mistral 都适用

作者：Eve Cole 更新时间：2025-01-22 10:16:01

华人学者提出了一种名为SelfExtended (SE) 的全新大模型窗口扩展方法，该方法仅需四行代码即可将大模型的窗口长度提升三倍。这项突破性的技术具有“即插即用”的特性，能够兼容各种大模型，并在Mistral和Llama2模型上得到验证。通过SE方法，大模型在处理长文本任务时的性能得到了显着的提升，有效解决了大模型处理长文本时面临的编码超限问题。这为大模型在处理复杂长文本任务上提供了新的方向和可能。

华人学者发布了全新的大模型窗口扩展方法SelfExtended（简称SE），只需四行代码，即可让大模型的窗口长度暴增3 倍。 SE 是“即插即用” 的方法，适配任意大模型，并且在Mistral 和Llama2 上已经试验成功。使用SE 处理后，模型在长文本任务中的表现显着增强。 SE 使用了两种注意力机制，解决了大模型处理长文本时遇到的编码超限问题。

SelfExtended (SE) 方法的出现，为解决大模型长文本处理难题提供了简洁高效的解决方案，其“即插即用”的特性也使其易于应用于各种大模型，展现了其强大的实用性和广泛的应用前景。未来，SE方法的进一步改进和完善，将为大模型技术的发展带来更多可能性。