|尤佳轩,何恺明等提新图表示法,新视角理解图结构如何影响预测性能( 二 )
假设 MLP 的第 r 层将 X^(r)作为输入 , 将 X^(r+1)作为输出 , 那么神经元的计算方式如下:
本文插图
下图给出了将 4 节点 relational 图转化为 4 层 65 维 MLP 的实例:
本文插图
此外 , 考虑一种特殊情况 , 所有层的输入和输出 x^(r), (1 ≤ r ≤ R)都有相同的特征维数 。 在这种情况下 , 一个固定宽度的全连接 MLP 层能用一张完全 relational 图表达 , 其中每个节点 x_i 和其他所有节点 {x_1,...,x_n} 都相连 。
另外 , 固定宽度的全连接 MLP 层有特殊的消息交换定义 , 其中消息函数是
本文插图
, 聚合函数是
本文插图
。
这些讨论表明 , 固定宽度的 MLP 可以被视为具有特殊消息交换函数的完全 relational 图 。 因此 , 固定宽度的 MLP 是一般模型族中的一种特例 , 它对应的消息函数、聚合函数以及 relation 图结构都有所不同 。
基于此 , 研究者能够使用完全 relational 图以及任何通用 relational 图 G 来泛化固定宽度的 MLP 。 基于公式 1 中消息交换的通用定义 , 得出以下公式 3:
本文插图
通用神经网络的 relational 图
上文公式 3 中的图视点奠定了将固定宽度的 MLP 表示为 relational 图的基础 。 接下来 , 研究者探讨了如何进一步将 relational 图泛化为通用神经网络 。
宽度可变的 MLP 作为 relational 图
通用神经网络有一个要考虑的关键点是整个网络中层的宽度不一 。 所以 , 为了用可变的层宽表示神经网络 , 研究者用 CONCAT 方法将节点特征从标量 x^(r)_i 扩展为向量 X^(r)_i , 即
本文插图
, 并且将消息函数 f_i(·) 从标量乘法泛化至矩阵乘法 。
卷积神经网络(CNN)的 relational 图
研究者进一步将 relational 图的应用泛化至卷积神经网络上 , 其中输入变成了图像张量 X^(r) 。 同样用到了 CONCAT 方法 , 并使用卷积运算符泛化了消息交换定义:
本文插图
其中 * 代表卷积运算符 , W^(r)_ij 表示卷积滤波器 。
现代神经架构的 relational 图
最后 , 研究者又将 relational 图泛化至设计更复杂的现代神经架构 。 比如 , 为了表示 ResNet , 他们保持层之间的残差连接不变 。
实验结果
在实验部分 , 研究者首先探讨了 CIFAR-10 数据集上 MLP 的图结构 , 然后又进一步研究了 ImageNet 数据集上更大更复杂的分类任务 。 对于所有的架构 , 该研究均使用上表 1 中概述的相应定义将每个采样的 relational 图实例化 。
具体而言 , 对于 CIFAR-10 MLP 实验 , 研究者研究了 3942 张 64 节点的采样 relational 图 。 而对于 ImageNet 实验 , 由于计算成本高 , 他们从 3942 张图中均匀地采集子样本 52 张图 。
对于不同任务和架构上所有采样的 relational 图 , 研究者收集 top-1 误差 , 记录每个样本图的图指标(graph measure) , 并将这些结果显示为图指标与预测性能的热图 , 如下图 4 所示:
