中文(简体)
Transformer 架构中自注意力机制的替代方案。它使用可学习的横向连接来直接重新加权输入,而不是使用自注意力机制(如下图所示)。要了解有关该方法的更多信息,请观看此视频(从 41:26 开始):https://youtu.be/l-CjXFmcVzY