首个线性注意力Transformer大模型：1750亿参数，速度、精度更优( 三 )

2026-02-12 大模型

架构消融实验

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 3：Transformer vs TransNormerLLM 。在相同的配置下，当模型参数数量为 385M 和 1B 时， TransNormerLLM 的性能比 Transformer 分别好 5% 和 9% 。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 4：TransNormer vs TransNormerLLM 。TransNormerLLM 的实验结果是最好的。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 5：位置编码组合使用 LRPE+LRPE-d 得到的结果最优。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 6：衰减温度方面的消融实验结果。结果表明新方法更优。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 7：门控机制方面的消融实验结果。使用该门控机制的模型表现更好。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 8：GLA 激活函数的消融实验结果。用不同激活函数得到结果差不多。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 9：GLU 激活函数的消融实验结果。去除激活函数对结果没有负面影响。

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 10：归一化函数。使用以下归一化函数的结果差异不大。
【首个线性注意力Transformer大模型：1750亿参数，速度、精度更优】

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
图 3：对 SRMSNorm 实现的性能评估

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
图 4：线性注意力和闪电注意力之间的内存和速度比较

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
图 5：推理时间和内存占用情况
系统优化

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 11：模型并行性性能

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 12：训练不同大小的模型的效率

首个线性注意力Transformer大模型：1750亿参数，速度、精度更优

文章插图
表 13：训练 Transformer 和 TransNormerLLM 的最大上下文长度

推荐阅读

上一篇：如何理解看待 OpenAI 公布PPO算法？

下一篇：数据分析师成长攻略