『7点科技』端侧智能存算一体芯片的需求、现状与挑战( 二 )


因此 , 智能大数据处理的挑战实质是由硬件设施的处理能力与所处理问题的数据规模之间的矛盾引起的 。 构建高效的硬件设施与计算架构 , 尤其是在资源受限的AIoT边缘终端设备 , 来应对智能大数据应用背景下的冯·诺依曼计算架构瓶颈具有重要的科学意义与应用前景 。
为了打破冯·诺依曼计算架构瓶颈 , 降低数据搬移带来的开销 , 一种最直接的做法是增加数据总线带宽或者时钟频率 , 但必将带来更大的功耗与硬件成本开销 , 且其扩展性也严重受限 。 目前业界采用的主流方案是通过高速接口、光互联、3D堆叠、增加片上缓存等方式来实现高速高带宽数据通信 , 同时使存储器尽量靠近处理器 , 减小数据传输的距离 。 光互联技术还处于研发中试阶段 , 而3D堆叠技术与增加片上缓存等方法已经广泛用于实际产品当中 。
国内外很多高校与企业都在研发与应用这种技术 , 如谷歌、英特尔、AMD、英伟达、寒武纪科技等 。 例如 , 利用3D堆叠技术 , 在处理器芯片上集成大容量内存 , 可以把数据带宽从几十GB/s提升到几百GB/s;基于3D堆叠DRAM技术 , IBM于2015年发布了一款面向百亿亿次超级计算系统[6];英国Graphcore公司在芯片产品上集成了200~400MB的片上缓存 , 来提高性能 。
值得注意的是 , 上述方案不可避免地会带来功耗与成本开销 , 难以应用于边缘终端能耗与成本均受限的AIoT设备 , 且其并没有改变数据存储与数据处理分离的问题 , 因此只能在一定程度上缓解 , 但是并不能从根本上解决冯·诺依曼计算架构瓶颈 。
存算一体基本原理与国内外发展现状
存算一体芯片技术 , 旨在把传统以计算为中心的架构转变为以数据为中心的架构 , 其直接利用存储器进行数据处理 , 从而把数据存储与计算融合在同一个芯片当中 , 可以彻底消除冯·诺依曼计算架构瓶颈 , 特别适用于深度学习神经网络这种大数据量大规模并行的应用场景 。 需要说明的是 , 目前在学术界和产业界有不少类似的英文概念 , 例如Computing-in-Memory、In-Memory-Computing、Logic-in-Memory、In-Memory-Processing、Processing-in-Memory等 , 而且不同研究领域(器件、电路、体系架构、数据库软件等)的称呼也不统一 , 相应的中文翻译也不尽相同 , 例如内存处理、存内处理、内存计算、存算融合、存内计算、存算一体等 。 此外 , 在广义上 , 近存计算也被归纳为存算一体的技术路径之一 。
存算一体的基本概念最早可以追溯到20世纪70年代 , 斯坦福研究所的Kautz等[7-8]最早于1969年就提出了存算一体计算机的概念 。 后续相当多的研究工作在芯片电路、计算架构、操作系统、系统应用等层面展开 。 例如 , 加州大学伯克利分校的Patterson等[9]成功把处理器集成在DRAM内存芯片当中 , 实现一种智能存算一体计算架构 。 但是受限于芯片设计复杂度与制造成本问题 , 以及缺少杀手级大数据应用进行驱动 , 早期的存算一体仅仅停留在研究阶段 , 并未得到实际应用 。
近年来 , 随着数据量不断增大以及内存芯片技术的提高 , 存算一体的概念重新得到人们的关注 , 并开始应用于商业级DRAM主存当中 。 尤其在2015年左右 , 随着物联网、人工智能等大数据应用的兴起 , 存算一体技术得到国内外学术界与产业界的广泛研究与应用 。 在2017年微处理器顶级年会(Micro2017)上 , 包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了存算一体系统原型[10-12] 。
尤其是 , 近年来非易失性存储器技术 , 例如闪存(Flash)、忆阻器(阻变存储器RRAM)、相变存储器(PCM)与自旋磁存储器(MRAM)等[13-17] , 为存算一体芯片的高效实施带来了新的曙光 。 这些非易失性存储器的电阻式存储原理可以提供固有的计算能力 , 因此可以在同一个物理单元地址同时集成数据存储与数据处理功能 。 此外 , 非易失性可以让数据直接存储在片上系统中 , 实现即时开机/关机 , 而不需要额外的片外存储器 。 惠普实验室的Williams教授团队[18]在2010年就提出并验证利用忆阻器实现简单布尔逻辑功能 。


推荐阅读