机器之心从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化( 三 )


通过对搜索空间求微分和训练更大的网络(通常称为「超级网络」) , 我们不再需要训练多个架构 , 并且可以使用标准梯度下降优化器 。 NAS 的可微性为未来发展开辟了许多可能性 。 其中一个例子是 NAS 中的可微分采样 [9] , 由于每个前向传播和反向传播在搜索中需要使用的操作减少 , 因此该方法将搜索时间缩短到只要 4 个小时 。
【机器之心从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化】 结语
NAS 训练时间如何从多天缩短到几个小时的故事先到此为止吧 。 在这篇文章中 , 我试图概述驱动 NAS 发展的最重要想法 。 现在 , NAS 技术已经足够高效 , 任何有 GPU 的人都可以使用它 , 你还在等什么?
参考文献:
[1] https://arxiv.org/pdf/1807.11626.pdf
[2] Self Organizing Neural Networks for the Identification Problem (https://papers.nips.cc/paper/149-self-organizing-neural-networks-for-the-identification-problem.pdf)
[3] https://arxiv.org/pdf/1611.01578.pdf
[4] https://arxiv.org/pdf/1512.03385.pdf
[5] https://arxiv.org/pdf/1707.07012.pdf
[6] https://arxiv.org/pdf/1802.03268.pdf
[7] https://arxiv.org/pdf/1604.02201.pdf
[8] https://arxiv.org/pdf/1806.09055.pdf
[9] https://arxiv.org/pdf/1910.04465.pdf
原文链接:https://medium.com/peltarion/how-nas-was-improved-from-days-to-hours-in-search-time-a238c330cd49
本文为机器之心编译 , 转载请联系本公众号获得授权 。
------------------------------------------------


推荐阅读