拓扑ECCV 2020 | 从一种拓扑视角来优化神经网络的连通性的解读( 二 )
本文插图
对于一个由个阶段组成的网络结构 , 个DAG被初始化为首尾相连 , 每个图通过输入或者输出节点与前序或者后续的图相连 。 对于输入和对应的标签 , 从样本到特征的表示可以被写作:
3
优化空间的定义
在定义了拓扑视角之后 , 现有的大部分网络可以被表示 。 其中由图1演变来的完全图可以被用来作为优化空间 。 不同于以往的连接是通过堆叠模块进行构建 , 完全图提供了所有可能的连接 。 对于一个具有个节点的图 , 其中包含的离散子图有
种可能 , 对于一个有个图组成的网络 , 总的搜索空间包含
种可能 , 比现有的基于模块的方法拥有更大的搜索空间 。 在对边添加了相应的权重之后 , 图变换为带权重的图(weighted graph) , 寻找最优的拓扑连通结构转换为在完全图下寻找最优的子图 , 并且可以通过优化连续的权重获得 。
4
拓扑连通性的优化方法
我们提出一种可微分的方式来优化网络的连通性 。 通过学习连续的边上权重组成的集合 , 优化过程可以和现有的梯度下降更新方式兼容 , 对应任务的损失函数可以定义为 。 不同于MaskConnect [1] , 我们没有将连接的权重进行二值化 , 这允许不同的特征拥有区分性的权重 。 不同于DARTS [2]选取概率最大的操作(operation) , 我们进行连续的特征融合方式 , 这能够保持训练和测试的一致性 。 优化目标可以表示为:
如果将对应的反传梯度表示为 , 对应的的梯度表示为 , 那么网络参数和拓扑连接对应的更新方式可以被表示为:
由于不同层产生的特征具有不同的语义信息 , 他们会对后续的节点贡献不同的权重 。 类似于生物中的神经连接机制 , 突触在幼儿的早期阶段会被创建 , 随着生长的过程重要程度被重新建立 , 成长为相对稀疏的连接 。 相同的稀疏特性也在哈希检索上验证了有效性 。 为了利用稀疏特性带来的优势 , 我们对拓扑的分布添加额外的L1稀疏约束 , 来惩罚非零的权重向零靠拢 。 这个稀疏约束让连接更关注重要的部分 , 移除不重要的连接 , 以此来增加网络的泛化能力 。 优化目标可以被重新定义为:
针对不同图的性质 , 我们提出两种稀疏优化方式 , 均匀稀疏和自适应稀疏 。 均匀稀疏对不同的边赋予相同的约束 , 边上权重的更新方式可以被表示为:
自适应稀疏会根据节点的输入边的数量决定 , 对于节点拥有较多输入边 , 这些边会受到较大的约束 。 这种约束保证了信息流的平滑同时避免拥有较少边的节点被关闭 , 这种更新方式可以表示为:
整体的优化过程可以总结为:
本文插图
5
对现有神经网络的优化实验
我们的优化方式可以和现有的网络结构很好地适应 , 通过将网络表示为拓扑视角下的DAG形式 , 我们对ResNet和MobileNet进行优化 , 优化结果在CIFAR100和ImageNet上取得了较好的提升 。 特别地 , 在Mobile Setting下 , 我们优化得到的结构在ImageNet上可以取得76.4%的Top-1准确度 。
本文插图
本文插图
6
更大优化空间下的对比实验
【拓扑ECCV 2020 | 从一种拓扑视角来优化神经网络的连通性的解读】
受限于现有网络较小的优化空间 , 拓扑结构只能在较小的范围内优化 , 限制了拓扑的表示能力 。 因此本节我们提出了一个更大的优化空间 , 并在这个优化空间下更严格的比较不同拓扑连接的性能差异 。 该优化空间的定义如表3所示 。 我们在相同的计算量下比较了随机、残差和完全图 。 随机图可以通过RandWire[3]中使用的ER、BA、WS生成器生成 。 实验结果如表4所示 。
推荐阅读
- 穿搭|2020秋季出门这样穿西装,你就是街上最亮的仔
- 基尔摩斯|2020年中报最有料的瓜,一文看尽
- 2020年底|加码非油业务中石化开跨境闪购店
- 在开放合作中共赢——跨国公司看2020年服贸会
- 文汇报|AI“神器”上岗无人车搬行李,同济大学迎2020级本科新生
- 科技日报|2020服贸会:一场超乎想象的科技盛景
- 2020年|德方纳米:松禾创投解除质押331万股
- 大河客户端|布局战队,导师各有妙招,《2020中国好声音》收视率蝉联第一
- 封面新闻|7年投入近7000万 鼓励8253人 阿里巴巴发布2020年度正能量报告
- 央视新闻|试卷自动批改、标注……在线教育企业成2020服贸会教育服务展主力军
