「电子工程世界」软件定义的硬件提供打开高性能数据加速大门的钥匙( 四 )
传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口 。 通常 , 一个独立系统是由连接到多个高速端口的多个加速器组成 。 例如 , 下图就说明了一种场景 , 其中有两个加速器连接到两个存储端口上 , 以共享一个存储空间 。 这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉(CDC) 。 此外 , FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压 。 在传统的FPGA中 , 这项功能会消耗大量的FPGA资源 , 并且其复杂程度足以降低系统性能并使时序收敛变得复杂 。
Achronix采用了由软件设计来实现硬件的方法 , 而这种硬件中的以太网和其他高速I / O端口可用二维片上网络(2D NoC)轻松地连接到定制的加速器功能上 。 Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口 。 通过简单地将这些功能连接到NoC , 就消除了连接方面的难题 , 从而简化了设计 , 减少了FPGA资源的消耗 , 提高了性能并简化了时序收敛 。
本文插图
图2:传统FPGA设计面临的挑战
本文插图
图3:Speedster7t二维片上网络支持软件友好型硬件
为了实现高性能的算术运算 , 每个Speedster7t器件都具有一个大型可编程计算单元阵列 , 它们被有序地放置在机器学习处理器(MLP)单元模块中 。 MLP是一个高度可配置的计算密集型单元模块 , 在每个周期内可支持多达32个乘法/累加(MAC)运算 。 在以加速器为中心的设计中 , MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源 。
尽管有些FPGA倾向于使用HBM2存储器 , 其中FPGA和存储器被组装成一个昂贵的2.5D封装 , 而Speedster7t系列却采用GDDR6内存标准接口 。 这种接口提供了当今片外存储器可实现的最高性能 , 并且成本显著降低 , 从而使团队更容易去实现带有高带宽存储阵列的加速器 。 一个GDDR6存储控制器可以支持512 Gbps的带宽 。 VectorPath S7t-VG6加速卡可提供八组存储器 , 总存储带宽可以达到4 Tbps 。 此外 , 板上还有一个DDR4接口 , 可用于访问频率较低或不需要GDDR6吞吐量的数据 。
VectorPath S7t-VG6加速卡提供了许多高性能接口 , 用来支持分布式架构和高速主机通信 。 现在 , 该加速卡提供了PCIe Gen 3.0的16通道合规性和认证 , 并提供获取Gen 4和Gen 5资质认证的途径 。 在以太网连接方面 , 该加速卡采用已获得广泛支持的光学接口模块 , 依据QSFP-DD和QSFP56标准 , 能够处理高达400 Gbps的超高线速 。
在加速卡的另一端还有一个OCuLink扩展端口 , 以支持很多其他的低延迟应用场景 。 例如 , OCuLink端口可用于将加速卡连接到各种外围设备上 , 比如用于计算存储或数据库加速应用的NVMe存储阵列 。 与采用连接到主处理器的PCIe接口相比 , OCuLink连接能够成为一个更好的选择 , 因为它提供了一种消除了系统级延迟和抖动的高确定性的连接 。 OCuLink端口还可以引入其他网络连接 , 从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格 。
本文插图
图4:VectorPath的网络和存储接口
在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入 , 它们是在将多个加速卡同步到一起时通常需要的 。 两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入 , 它们在进入FPGA之前 , 就已被连接到抖动清除器 。 一旦进入FPGA , 这些时钟就可以被倍频或分频成为特定应用所需的频率 。
推荐阅读
- 『老谭世界百态』西方不说话了,中国战胜新冠投入了多少资金?专家说出一组数字
- 刘宇宁 刘宇宁开启「暖·愈」篇章,《全世界最好的你》原声带将上线酷狗
- 「泱泱世界里」粮食概念股走一波,要开始屯粮了吗?
- 『小君带你看世界』趁我不留神去偷吃!,搞笑GIF:饿坏的新娘
- 「中国软件网」实现生产少人化,走向智能化,新朋联众探索工业互联
- 戮默科技■助力企业数字化升级,戮默科技深挖软件开发核心
- 世界那么大@直达一大波景点!,结棍!坐911路巴士游徐汇
- 汽车之家:非你首选,博瑞不留遗憾,在这个颜值当道的世界
- 瑞盼社会:拿走一块就成百万富翁,全世界最大的地下金库存放1.3万吨黄金
- 『小小天看世界』看起来布兰登·米多格正在筹集10亿美元的微软气候基金
