|自己挖坑自己填,谷歌大改Transformer注意力( 二 )
本文插图
标准注意力矩阵包括每一对 entry 的相似度系数 , 由 query 和 key 上的 softmax 计算组成 , 表示为 q 和 k 。
常规的 softmax 注意力可以看作是由指数函数和高斯投影定义的非线性函数的一个特例 。 在这里我们也可以反向推理 , 首先实现一些更广义的非线性函数 , 隐式定义 query-key 结果中其他类型的相似性度量或核函数 。 研究者基于早期的核方法(kernel method) , 将其定义为广义注意力(generalized attention) 。 尽管对于大多核函数来说 , 闭式解并不存在 , 但这一机制仍然可以应用 , 因为它并不依赖于闭式解 。
该研究首次证明了 , 任意注意力矩阵都可以通过随机特征在下游 Transformer 应用中实现有效地近似 。 实现这一点的的新机制是使用正随机特征 , 即原始 query 和 key 的正直非线性函数 , 这对于避免训练过程中的不稳定性至关重要 , 并实现了对常规 softmax 注意力的更准确近似 。
新算法 FAVOR+:通过矩阵相关性实现快速注意力
上文描述的分解允许我们以线性而非二次内存复杂度的方式存储隐式注意力矩阵 。 我们还可以通过分解获得一个线性时间注意力机制 。 虽然在分解注意力矩阵之后 , 原始注意力机制与具有值输入的存储注意力矩阵相乘以获得最终结果 , 我们可以重新排列矩阵乘法以近似常规注意力机制的结果 , 并且不需要显式地构建二次方大小的注意力矩阵 。 最终生成了新算法 FAVOR+ 。
本文插图
左:标准注意力模块计算 , 其中通过执行带有矩阵 A 和值张量 V 的矩阵乘法来计算最终的预期结果;右:通过解耦低秩分解 A 中使用的矩阵 Q′和 K′以及按照虚线框中指示的顺序执行矩阵乘法 , 研究者获得了一个线性注意力矩阵 , 同时不用显式地构建 A 或其近似 。
上述分析与双向注意力(即非因果注意力)相关 , 其中没有 past 和 future 的概念 。 对于输入序列中没有注意前后 token 的单向(即因果)注意力而言 , 研究者稍微修改方法以使用前缀和计算(prefix-sum computation) , 它们只存储矩阵计算的运行总数 , 而不存储显式的下三角常规注意力矩阵 。
本文插图
左:标准单向注意力需要 mask 注意力矩阵以获得其下三角部分;右:LHS 上的无偏近似可以通过前缀和获得 , 其中用于 key 和值向量的随机特征图的外积(outer-product)前缀和实现动态构建 , 并通过 query 随机特征向量进行左乘计算 , 以在最终矩阵中获得新行(new row) 。
性能
研究者首先对 Performer 的空间和时间复杂度进行基准测试 , 结果表明 , 注意力的加速比和内存减少在实证的角度上近乎最优 , 也就是说 , 这非常接近在模型中根本不使用注意力机制的情况 。
本文插图
在以时间(T)和长度(L)为度量的双对数坐标轴中 , 常规 Transformer 模型的双向 timing 。
研究者进一步证明 , 使用无偏 softmax 近似 , 该 Performer 模型在稍微进行微调之后可以向后兼容预训练 Transformer 模型 , 从而在提升推理速度的同时降低能耗 , 并且不需要从头训练预先存在的模型 。
本文插图
在 One Billion Word Benchmark (LM1B) 数据集上 , 研究者将原始预训练 Transformer 的权重迁移至 Performer 模型 , 使得初始非零准确度为 0.07(橙色虚线) 。 但在微调之后 , Performer 的准确度在很少的梯度步数之后迅速恢复 。
推荐阅读
- 玩懂手机|谷歌宣布 Google Photos 将结束免费存储:Google Pixel 用户不受影响
- 森林军营|土耳其对谷歌罚款二亿!埃尔多安令西方刮目相看,给中方上了一课
- FreeBuf|前微软工程师窃取千万美元:自己买车买房,同事做替罪羊
- 英特尔|MacBook Pro、MacBook Air、Mac Mini运行在苹果自己设计的M1硅上
- 腾讯美股|谷歌再遭反垄断指责!165家欧美公司发联名信,敦促欧盟尽快行动
- 企业,数据|企业为什么一定要有自己的私有化部署即时通讯软件?
- 芯片|国内四大手机厂商现在产品的自己烙印分析!
- 谷歌|谷歌发布Objectron数据集,推进三维物体几何理解的极限
- PS|PS5今日正式开售 索尼为自己订下了一个小目标
- 主机|PS5今日正式开售 索尼为自己订下了一个小目标
