#米粒创意#GPU,靠的居然是哈希?,学习超大神经网络,CPU超越V100( 二 )
图1:局部敏感哈希的图示 。 对于一个输入 , 可以从对应的哈希桶中抽取哈希码 。
而最近在最大化内积搜索(maximuminnerproductsearch:MIPS)的研究也说明了这一点 , 在这里 , 可以使用非对称局部敏感哈希 , 使得采样大的内积变得可能 。 给定一个向量集合C和查询向量Q 。 使用(K,L)--参数化的LSH算法和MIPS哈希 , 可以获得一个候选集合S 。 在这里 , 只需要一次线性成本 , 对C进行哈希化的预处理 , 而对于Q则只需要少量哈希查表工作 。
SLIDE中的算法 , 包括框架(算法1)和哈希采样(算法2) 。
构建SLIDE系统
图2:SLIDE系统架构 。
在SLIDE架构中 , 其核心模块是网络 。 该神经网络由一些单层模块组成 。 对于每个层的模块 , 其都是由神经元和一些哈希表组成——即将神经元的ids转换成哈希 。
对于每个神经元来说 , 它都有多个批大小长度数组:1)一个二元数组 , 表示对于每个输入 , 该神经元是否激活;2)每个输入的激活;3)批数据中每个输入的累积梯度;4)该层和上一层连接权重;5)上一层神经元数量 , 由最后一个数组表示 。
初始化
每层对象包含一个神经元列表以及一组LSH采样哈希列表 。 每个哈希列表包含被散列至bucket中神经元的ids 。 在网络初始化过程中 , 网络的权重值是随机初始化的 。 随后 , 对每层使用L的哈希列表进行初始化K*LLSH函数 。
使用哈希表采样进行稀疏前向传播
在前向传播阶段 , 给定一个单独的训练实例 , 研究者会计算直到最后一层的网络激活 , 并给出输出 。 在SLIDE中 , 他们不会去计算每层的所有激活 , 而是将每层的输入xl输入到哈希函数中 , 得到hl(xl) , 哈希码作为查询 , 从对应匹配的buckets中获得激活(采样)的神经元的ids 。
稀疏反向传播/梯度更新
反向传播步骤紧接着前向传播进行 。 计算了神经网络的输出之后 , 研究者会将输出和标签进行比较 , 并将误差逐层进行反向传播 , 来计算梯度、更新权重 。 这里他们使用了经典的反向传播方法 。
权重更新后再更新哈希列表
权重值更新后 , 需要相应地调整哈希列表中神经元的位置 。 更新神经元通常涉及到从旧的哈希桶中删除 , 然后再从新的哈希桶中添加新的内容 , 这可能会非常耗时 。 在4.2节中 , 将讨论几种用于优化更新哈希列表所导致昂贵开销的设计技巧 。
OpenMP跨批量处理的并行化
对于任何给定的训练实例中 , 前馈以及反向传播操作都是按照顺序的 , 因为它们需要逐层的去执行 。 SLIDE使用常用的批量处理梯度的下降方法以及Adam优化器 , 批量处理大小通常在几百个左右 。 批量处理中的每个数据实例的运行都在单独的线程中 , 其梯度是按照并行方式计算的 。
梯度更新的极端稀疏性以及随机性使得我们可以在不导致大量重叠更新的情况下 , 在不同的训练数据上通过异步并行处理梯度累积的步骤 。 SLID大量地使用了HOGWILD的理论(Rechtetal.,2011) , 同时也表明少量的重叠是可控的 。
真→CPU比GPU快
研究者在论文后面附上了一系列实验结果 , 包括对比采用TeslaV100GPU的TensorFlow模型、对比采用两个IntelXeonE5-2699ACPU(单个22核心 , 总共44核心)的TensorFlow模型 , 对比SLIDE自适应采样与带采样的Softmax之间的性能等等 。 我们可以发现 , SLIDE在CPU上的训练速度 , 竟然惊人地高效 。
首先对于测试模型 , 研究者采用了具有一亿参数量的超大全连接模型 , 数据集也是Delicious200K和Amazon-670K这种大型工业级分类数据集 。 这两个数据集分别有78万+和13万+特征维度 , 20万+和67万+的类别数量 , 看着就恐怖 。 因为特征维度和分类类别太高 , 即使隐藏层单元不多 , 整体的参数量也会剧增 。
如下图所示展示了论文的主要结果 , CPU上的SLIDE从时间上要比V100快(采用TensorFlow框架) , 且能一直优于基于CPU的TF模型 。
推荐阅读
- 「Small人物大创意」为何九寨沟这么吸引人?还被誉为是人间仙境?,九寨归来不看水
- 『手机大魔王』推荐一个创意3用小风扇,夏天临近
- 决赛十强名单出炉!向微信小游戏创意大赛决赛进击!
- 【ONE科技创意园】不必紧盯P40!麒麟980旗舰跌至退场价,再用三年不会卡
- 『ONE科技创意园』华为最强5G旗舰!麒麟1020+120Hz,直接碾压苹果
- [ONE科技创意园]直接碾压苹果,华为最强5G旗舰!麒麟1020+120Hz
- #ONE科技创意园#再用三年不会卡,不必紧盯P40!麒麟980旗舰跌至退场价
- ONE科技创意园:看完让人想入手,苹果5G旗舰机!屏下设计+5nm处理器
- 『ONE科技创意园』卢伟冰发狠了!4500mAh+120Hz跌至1499,入手机会已到
- #ANICOGA#愚人节全球上线!,创意“戏精”游戏《风暴岛》
