|自己挖坑自己填，谷歌大改Transformer注意力( 二 )

本文插图

标准注意力矩阵包括每一对 entry 的相似度系数，由 query 和 key 上的 softmax 计算组成，表示为 q 和 k 。
常规的 softmax 注意力可以看作是由指数函数和高斯投影定义的非线性函数的一个特例。在这里我们也可以反向推理，首先实现一些更广义的非线性函数，隐式定义 query-key 结果中其他类型的相似性度量或核函数。研究者基于早期的核方法（kernel method），将其定义为广义注意力（generalized attention）。尽管对于大多核函数来说，闭式解并不存在，但这一机制仍然可以应用，因为它并不依赖于闭式解。
该研究首次证明了，任意注意力矩阵都可以通过随机特征在下游 Transformer 应用中实现有效地近似。实现这一点的的新机制是使用正随机特征，即原始 query 和 key 的正直非线性函数，这对于避免训练过程中的不稳定性至关重要，并实现了对常规 softmax 注意力的更准确近似。
新算法 FAVOR+：通过矩阵相关性实现快速注意力
上文描述的分解允许我们以线性而非二次内存复杂度的方式存储隐式注意力矩阵。我们还可以通过分解获得一个线性时间注意力机制。虽然在分解注意力矩阵之后，原始注意力机制与具有值输入的存储注意力矩阵相乘以获得最终结果，我们可以重新排列矩阵乘法以近似常规注意力机制的结果，并且不需要显式地构建二次方大小的注意力矩阵。最终生成了新算法 FAVOR+ 。

本文插图

左：标准注意力模块计算，其中通过执行带有矩阵 A 和值张量 V 的矩阵乘法来计算最终的预期结果；右：通过解耦低秩分解 A 中使用的矩阵 Q′和 K′以及按照虚线框中指示的顺序执行矩阵乘法，研究者获得了一个线性注意力矩阵，同时不用显式地构建 A 或其近似。
上述分析与双向注意力（即非因果注意力）相关，其中没有 past 和 future 的概念。对于输入序列中没有注意前后 token 的单向（即因果）注意力而言，研究者稍微修改方法以使用前缀和计算（prefix-sum computation），它们只存储矩阵计算的运行总数，而不存储显式的下三角常规注意力矩阵。

本文插图

左：标准单向注意力需要 mask 注意力矩阵以获得其下三角部分；右：LHS 上的无偏近似可以通过前缀和获得，其中用于 key 和值向量的随机特征图的外积（outer-product）前缀和实现动态构建，并通过 query 随机特征向量进行左乘计算，以在最终矩阵中获得新行（new row）。
性能
研究者首先对 Performer 的空间和时间复杂度进行基准测试，结果表明，注意力的加速比和内存减少在实证的角度上近乎最优，也就是说，这非常接近在模型中根本不使用注意力机制的情况。

本文插图

在以时间（T）和长度（L）为度量的双对数坐标轴中，常规 Transformer 模型的双向 timing 。
研究者进一步证明，使用无偏 softmax 近似，该 Performer 模型在稍微进行微调之后可以向后兼容预训练 Transformer 模型，从而在提升推理速度的同时降低能耗，并且不需要从头训练预先存在的模型。

本文插图

在 One Billion Word Benchmark (LM1B) 数据集上，研究者将原始预训练 Transformer 的权重迁移至 Performer 模型，使得初始非零准确度为 0.07（橙色虚线）。但在微调之后， Performer 的准确度在很少的梯度步数之后迅速恢复。

|自己挖坑自己填，谷歌大改Transformer注意力( 二 )

推荐阅读

[老王简单说]终于明白支付宝说有可能涨芝麻分的意思了，芝麻信用升级后

迷途的羔羊|演技佳、长相脱俗奇丽，穿什么都美出圈，赵丽颖挺难不让人心动的

秦孝文王在位三天吗,秦孝文王为什么只当了三天王-_1

八只爪的猫|《乘风破浪》郑希怡街拍，穿连体裤单手插兜够飒，就是发型太显老

「限公司生产」北京2批次日用消费类产品不合格TATA、绿芝岛''上榜''

体内有寒气怎么排除

多人控告美政府应对气候变化不力上诉院驳回案件

下颚骨宽变小▲下颚骨宽变小的方法

开启信息存储新时代

教育圈|给快递小哥写首诗，快递小哥纷纷写诗回应，为考生加油，高考作文

蔬菜|吃蔬菜可以降血糖？吃哪些蔬菜可以“控制”血糖？

欧冠|下午18：00！欧冠八强即将抽签，4大豪强坐等对手，C罗有望PK梅西

穿衣搭配|懂时尚的贵妇就是厉害，“组合的方式”都和我们不一样

央视新闻客户端|阿根廷新增新冠肺炎确诊病例再达历史最高值累计达136118例

天鼎投资▲天鼎证券：资金依旧把握低位消费板块的修复机会进行持续运作

吃素未必一定健康，太素的饮食或增加患中风的风险

虚幻引擎|虚幻引擎5.1上线：电影级画质更逼真了

大家在中关村遇到过啥坑人的事

西游记人参果树的恐怖西游记人参果树

小君的家乡|经历住时间考验，女神魅力不减，赵薇的大眼睛美艳动人