飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制( 二 )


飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制
本文插图

案例:蛋白质序列建模
蛋白质是具有复杂三维结构和特定功能的大分子 , 对生命来说至关重要 。 与单词一样 , 蛋白质被指定为线性序列 , 其中每个字符是20个氨基酸构建块中的一个 。
将 Transformers 应用于大型未标记的蛋白质序列产生的模型可用于对折叠的功能性大分子进行正确的猜测 。
Performer-ReLU (使用基于 relu 的注意力 , 这是一个不同于 softmax 的广义注意力)在蛋白质序列数据建模方面有很强的表现 , 而 Performer-Softmax 与 Transformer 的机能相匹配 , 正如理论所猜测的结果那样 。
飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制
本文插图

下面 , 我们可视化一个蛋白质Performer模型 , 使用基于 relu 的近似注意力机制进行练习 , 使用 Performer 来估计氨基酸之间的相似性 , 从序列比对中分析进化替代模式得到的替代矩阵中恢复类似的结构 。
飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制
本文插图

更一般地说 , 我们发现局部和全局注意力机制与用蛋白质数据练习的Transformer模型一致 。 Dense Attention的近似Performer有可能捕获跨越多个蛋白质序列的全局相互作用 。
飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制
本文插图
【飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制】

作为概念的验证 , 对长串联蛋白质序列进行模型练习 , 会使得常规 Transformer 模型的内存过载 , 但 Performer模型的内存不会过载 , 由于它的空间利用很高效 。
结论
Google AI的这项工作有助于改进基于非稀疏的方法和基于Kernel的Transformer , 这种方法也可以与其他技术互操作 , 研究职员甚至还将 FAVOR 与Reformer的代码集成在一起 。 同时研究职员还提供了论文、 Performer的代码和蛋白质语言模型的代码链接 。
Google AI的研究职员相信 , 他们对于Performer的研究开辟了一种关于Attention、Transformer架构甚至Kernel的全新的思维方式 , 对于进一步的改进有巨大的启示作用 。
飞行的小猪|谷歌联手DeepMind提出Performer:用新方式重新思索注意力机制
本文插图


推荐阅读