『7点科技』端侧智能存算一体芯片的需求、现状与挑战

端侧智能存算一体芯片的需求、现状与挑战
『7点科技』端侧智能存算一体芯片的需求、现状与挑战
文章图片
AI科技大本营
1583148663作者|郭昕婕、王绍迪
来源|《微纳电子与智能制造》期刊
摘要:现代电子设备朝着智能化、轻量化、便携化快速发展 , 但是智能大数据处理挑战与冯·诺依曼计算架构瓶颈成为当前电子信息领域的关键矛盾之一;同时 , 器件尺寸微缩(摩尔定律失效)带来的功耗与可靠性问题进一步加剧了该矛盾的快速恶化 。 近年来以数据为中心的新型计算架构 , 例如存算一体芯片技术 , 受到人们的广泛关注 , 尤其在端侧智能场景 。 但是 , 基于端侧设备在资源、时延、成本、功耗等诸多因素的考虑 , 业界对存算一体芯片提出了苛刻的要求 。 因此 , 存算一体介质与计算范式尤为重要 。 同时 , 器件—芯片—算法—应用跨层协同对存算一体芯片的产业化应用与生态构建非常关键 。 概述了端侧智能存算一体芯片的需求、现状、主流方向、应用前景与挑战等 。
引言
【『7点科技』端侧智能存算一体芯片的需求、现状与挑战】自第四次信息革命以来 , 现代电子设备朝着智能化、轻量化、便携化快速发展 。 尤其近年来 , 随着以深度学习神经网络为代表的人工智能算法的深入研究与普及 , 智能电子设备与相关应用场景已随处可见 , 例如人脸识别、语音识别、智能家居、安防监控、无人驾驶等 。 同时 , 随着5G通信与物联网(internetofthings , IoT)技术的成熟 , 可以预见 , 智能万物互联(artificialintelligentinternetofthings , AIoT)时代即将来临 。
如图1所示 , 在未来AIoT场景中 , 设备将主要分为3类:云端、边缘端与终端[1] , 其中边缘终端设备将呈现爆发式增长 。 众所周知 , 人工智能的3大要素是算力、数据与算法 。 互联网与5G通信的应用普及解决了大数据问题 , 深度学习神经网络的快速发展解决了算法问题 , 英伟达GPU/谷歌TPU等高性能硬件的大规模产业化解决了云端算力问题 。 但是 , 资源受限的边缘终端设备的算力问题目前仍然是缺失的一环 , 且因其对时延、功耗、成本、安全性等特殊要求(尤其考虑细分场景的特殊需求) , 将成为AIoT大规模产业化应用的核心关键 。 因此 , 在通往AIoT的道路上 , 需要解决的核心挑战是高能效、低成本和长待机的端侧智能芯片 。
冯·诺依曼计算架构瓶颈与大数据智能处理挑战
随着大数据、物联网、人工智能等应用的快速兴起 , 数据以爆发式的速度快速增长 。 相关研究报告指出 , 全世界每天产生的数据量约为2.5×1018字节 , 且该体量仍然以每40个月翻倍的速度在持续增长[2] 。 海量数据的高效存储、迁移与处理成为当前电子信息领域的重大挑战之一 。 但是 , 受限于经典的冯·诺依曼计算架构[3-4] , 数据存储与处理是分离的 , 存储器与处理器之间通过数据总线进行数据传输,如图2(a)所示 。 在面向大数据分析等应用场景中 , 这种计算架构已成为高性能低功耗计算系统的主要瓶颈之一 。 一方面 , 数据总线的有限带宽严重制约了处理器的性能与效率 , 同时 , 存储器与处理器之间存在严重性能不匹配问题 , 如图2(b)所示 。
不管处理器运行的多快、性能多好 , 数据依然存储在存储器里 , 每次执行运算时 , 需要把数据从存储器经过数据总线搬移到处理器当中 , 数据处理完之后再搬回到存储器当中 。 这就好比一个沙漏 , 沙漏两端分别代表存储器和处理器 , 沙子代表数据 , 连接沙漏两端的狭窄通道代表数据总线 。 因此 , 存储器的带宽在很大程度上限制了处理器的性能发挥 , 这称为存储墙挑战 。
与此同时 , 摩尔定律正逐渐失效 , 依靠器件尺寸微缩来继续提高芯片性能的技术路径在功耗与可靠性方面都面临巨大挑战 。 因此 , 传统冯·诺依曼计算架构难以满足智能大数据应用场景快、准、智的响应需求 。 另一方面 , 数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题 , 称为功耗墙挑战 。 英伟达的研究报告指出 , 数据迁移所需的功耗甚至远大于实际数据处理的功耗 。 例如 , 相关研究报告指出 , 在22nm工艺节点下 , 1bit浮点运算所需要的数据传输功耗是数据处理功耗的约200倍[5] 。 在电子信息领域 , 存储墙与功耗墙问题并称为冯·诺依曼计算架构瓶颈 。


推荐阅读