|自己挖坑自己填,谷歌大改Transformer注意力( 三 )


应用示例:蛋白质建模
蛋白质具有复杂的 3D 结构 , 是生命必不可少的拥有特定功能的大分子 。 和单词一样 , 蛋白质可以被看做线性序列 , 每个字符代表一种氨基酸 。 将 Transformers 应用于大型未标记的蛋白质序列语料库 , 生成的模型可用于精确预测折叠功能大分子 。 正如该研究理论结果所预测的那样 , Performer-ReLU 在蛋白质序列数据建模方面表现良好 , 而 Performer-Softmax 与 Transformer 性能相媲美 。
|自己挖坑自己填,谷歌大改Transformer注意力
本文插图

Performer 在蛋白质序列建模时的性能 。
下面可视化一个蛋白质 Performer 模型 , 该模型使用基于 ReLU 的近似注意力机制进行训练 。 研究者发现 , Performer 的密集注意力近似有可能捕捉到跨多个蛋白质序列的全局相互作用 。 作为概念的证明 , 研究者在串联蛋白长序列上训练模型 , 这使得常规的 Transformer 模型内存过载 。 但由于具有良好的空间利用效率 , Performer 不会出现这一问题 。
|自己挖坑自己填,谷歌大改Transformer注意力
本文插图

左:从注意力权重估计氨基酸相似性矩阵 。 该模型可以识别高度相似的氨基酸对 , 例如 (D,E) 和 (F,Y) 。
|自己挖坑自己填,谷歌大改Transformer注意力
本文插图

Performer 和 Transformer 在长度为 8192 的蛋白质序列上的性能 。
随着 Transformer 的频繁跨界 , 越来越多的研究者开始关注其内存占用和计算效率的问题 , 比如机器之心前段时间介绍的《抛弃注意力 , 比 EfficientNet 快 3.5 倍 , 类 Transformer 新模型跨界视觉任务实现新 SOTA》 。 在那篇文章中 , 研究者提出了一种名为「lambda」的层 , 这些层提供了一种捕获输入和一组结构化上下文元素之间长程交互的通用框架 。 类似的改进还在不断涌现 , 我们也将持续关注 。
参考链接:http://ai.googleblog.com/2020/10/rethinking-attention-with-performers.html


推荐阅读