『7点科技』端侧智能存算一体芯片的需求、现状与挑战( 三 )


随后 , 一大批相关研究工作不断涌现 。 2016年 , 美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME[19]) , 受到业界的广泛关注 。 测试结果表明 , 相比基于冯·诺依曼计算架构的传统方案 , PRIME可以实现功耗降低约20倍、速度提高约50倍[20] 。 这种方案可以高效地实现向量-矩阵乘法运算 , 在深度学习神经网络加速器领域具有巨大的应用前景 。 国际上杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学、惠普、英特尔、镁光等都开展了相关研究工作 , 并发布了相关测试芯片原型[21-24] 。
我国在这方面的研究也取得了一系列创新成果 , 如北京大学黄如教授与康晋锋教授团队、中国科学院微电子研究所刘明教授团队、清华大学杨华中教授与吴华强教授团队、中国科学院上海微系统与信息技术研究所宋志棠教授团队、华中科技大学缪向水教授团队等 , 都发布了相关器件/芯片原型 , 并通过图像/语音识别等应用进行了测试验证[25-27] 。 PCM具有与RRAM类似的多比特特性 , 可以基于类似的原理实现向量-矩阵乘法运算 。 对于MRAM而言 , 由于其二值存储物理特性 , 难以实现基于交叉点阵列的向量-矩阵乘法运算 , 因此基于MRAM的存算一体通常采用布尔逻辑的计算范式[28-30] 。 但由于技术/工艺的成熟度等问题 , 迄今基于相变存储器、阻变存储器与自旋存储器的存算一体芯片尚未实现产业化 。
与此同时 , 基于NorFlash的存算一体芯片技术近期受到产业界的格外关注 , 自2016年UCSB发布第一个样片以来 , 多家初创企业在进行研发 , 例如美国的Mythic、Syntiant , 国内的知存科技等 , 并受到国内外主流半导体企业与资本的产业投资 , 包括LamResearch、AppliedMaterials、Intel、Micron、ARM、Bosch、Amazon、Microsoft、Softbank、Walden、中芯国际等 。 相比较而言 , NorFlash在技术/工艺成熟度与成本方面在端侧AIoT领域具有优势 , 3大公司均宣布在2019年末实现量产 。
端侧智能应用特征与存算一体芯片需求
随着AIoT的快速发展 , 用户对时延、带宽、功耗、隐私/安全性等特殊应用需求 , 如图3(a)所示 , 驱动边缘端侧智能应用场景的爆发 。 首先 , 时延是用户体验最直观的感受 , 而且是某些应用场景的必需要求 , 例如自动驾驶、实时交互游戏、增强现实/虚拟现实技术(AR/VR)等 。 考虑到实时产生的数据量、实际传输带宽以及端侧设备的能耗 , 不可能所有运算都依赖云端来完成 。 例如 , 根据英特尔的估计 , 每辆自动驾驶汽车每天产生的数据量高达400GB[1];再如 , 每个高清安防监控摄像头每天产生的数据量高达40~200GB 。 如果所有车辆甚至所有摄像头产生的数据都发送到云端进行处理 , 那不仅仅是用户体验 , 即使对传输网络与云端设备都将是一个灾难 。 而且 , 通常边缘数据的半衰期都比较低 , 如此巨大的数据量 , 实际上真正有意义的数据可能非常少 , 所以并没有意义把全部数据发送到云端去处理 。
此外 , 同类设备产生的大部分数据通常具有极高的相同模式化特征 , 借助边缘端/终端有限的处理能力 , 即可以过滤掉大部分无用数据 , 从而大幅度提高用户体验与开销 。 增强用户体验的另一个参数是待机时间 , 这对便携式可穿戴设备尤为关键 。 例如智能眼镜与耳机 , 至少要保证满负荷待机时间在1天以上 。 因此终端设备的功耗/能效是一个极大的挑战 。
其次 , 用户对隐私/安全性要求越来越高 , 并不愿意把数据送到云端处理 , 促使本地处理成为终端设备的必备能力 。 例如 , 随着语音识别、人脸识别应用的普及 , 越来越多的人开始关心隐私泄露的问题 , 即使智能家居已经普及 , 但很多用户选择关闭语音处理功能 。 最后 , 在无网环境场景下 , 边缘终端处理将成为必需 。 相应地 , 不同于云端芯片 , 对于端侧智能芯片 , 其对成本、功耗的要求最高 , 而对通用性、算力、速度的要求次之 , 如图(3b)所示 。


推荐阅读