首个线性注意力Transformer大模型:1750亿参数,速度、精度更优( 三 )


架构消融实验

首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 3:Transformer vs TransNormerLLM 。在相同的配置下 , 当模型参数数量为 385M 和 1B 时 , TransNormerLLM 的性能比 Transformer 分别好 5% 和 9% 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 4:TransNormer vs TransNormerLLM 。TransNormerLLM 的实验结果是最好的 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 5:位置编码组合使用 LRPE+LRPE-d 得到的结果最优 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 6:衰减温度方面的消融实验结果 。结果表明新方法更优 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 7:门控机制方面的消融实验结果 。使用该门控机制的模型表现更好 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 8:GLA 激活函数的消融实验结果 。用不同激活函数得到结果差不多 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 9:GLU 激活函数的消融实验结果 。去除激活函数对结果没有负面影响 。
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 10:归一化函数 。使用以下归一化函数的结果差异不大 。
【首个线性注意力Transformer大模型:1750亿参数,速度、精度更优】
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
图 3:对 SRMSNorm 实现的性能评估
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
图 4:线性注意力和闪电注意力之间的内存和速度比较
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
图 5:推理时间和内存占用情况
系统优化
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 11:模型并行性性能
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 12:训练不同大小的模型的效率
首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

文章插图
表 13:训练 Transformer 和 TransNormerLLM 的最大上下文长度




推荐阅读