显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量( 二 )
推理性能也是大幅提升,像英伟达推出的5300亿 Megatron模型,在H100上推理时的吞吐量比A100直接高出30倍,响应延迟降低到1秒,可以说是完美hold住了 。
文章图片
不得不说,英伟达这波确实突入了Transformer阵营 。
在此之前,英伟达一系列GPU优化设计基本都是针对卷积架构进行的,接近要把“I love 卷积”这几个字印在脑门上 。
要怪只怪Transformer最近实在太受欢迎 。(手动狗头)
当然,H100的亮点不止如此,伴随着它以及英伟达一系列芯片,随后都会引入NVIDIA NVLink第四代互连技术 。
也就是说,芯片堆堆乐的效率更高了,I/O带宽更是扩展至900GB/s 。
文章图片
这次,老黄还着重提到了GPU的安全性,包括实例之间具有隔离保护、新GPU具有机密计算功能等 。
当然,数学计算能力也提升了 。
这次H100上新的DPX指令可以加速动态规划,在运算路径优化和基因组学在内的一系列动态规划算法时速度提升了7倍 。
据老黄介绍,H100会在今年第三季度开始供货,网友调侃“估计也便宜不了” 。
目前,H100有两个版本可选:
一个就是功率高达700W的SXM,用于高性能服务器;另一个是适用于更主流的服务器PCIe,功耗也比上一代A100的300W多了50W 。
4608块H100,打造全球最快AI超算
H100都发布了,老黄自然不会放过任何一个搭建超级计算机的机会 。
基于H100推出的最新DGX H100计算系统,与上一代“烤箱”一样,同样也是配备8块GPU 。
文章图片
不同的是,DGX H100系统在FP8精度下达到了32 Petaflop的AI性能,比上一代DGX A100系统整整高了6倍 。
各GPU之间的连接速度也变得更快,900GB/s的速度接近上一代的1.5倍 。
最关键的是,这次英伟达还在DGX H100基础上,搭建了一台Eos超级计算机,一举成为AI超算界的性能TOP 1——
光就18.4 Exaflops的AI计算性能,就比日本的“富岳”(Fugaku)超级计算机快了4倍 。
这台超算配备了576个DGX H100系统,直接用了4608块H100 。
即使是传统科学计算,算力也能达到275 Petaflops (富岳是442 Petaflops),跻身前5的超算是没什么问题 。
文章图片
“拼装”CPU,跑分成了TOP1
本次GTC大会,老黄仍然“提了几嘴”超级服务器芯片Grace 。
它在去年4月份的GTC大会就已经有所亮相,和当时一样,老黄表示:有望2023年可以开始供货,反正今年是不可能碰上了 。
不过,Grace的性能倒是值得一提,有了“惊人进展” 。
它被用在两个超级芯片中:
一个是Grace Hopper超级芯片,单MCM,由一个Grace CPU和一个Hopper架构的GPU组成 。
一个是Grace CPU超级芯片,由两个Grace CPU组成,通过NVIDIA NVLink-C2C技术互连,包括144个Arm核心,并有着高达1TB/s的内存带宽——带宽提升2倍的同时,能耗“只要”500w 。
文章图片
很难不让人联想到苹果刚发的M1 Ultra,看来片间互连技术的进展,让“拼装”成了芯片行业一大趋势 。
文章图片
Grace超级芯片在SPECrate?2017_int_base基准测试中的模拟性能达到了740分,是当前DGX A100 搭载的CPU的1.5倍(460分) 。
Grace超级芯片可以运行在所有的NVIDIA计算平台,既可作为独立的纯CPU系统,也可作为 GPU加速服务器,利用NVLink-C2C技术搭载一块至八块基于Hopper架构的GPU 。
文章图片
(嗯,刚说完,老黄的芯片堆堆乐就堆上了 。)
值得一提的是,英伟达对第三方定制芯片开放了NVLink-C2C 。
它是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC 和SOC之间实现一致的互连 。
推荐阅读
- 自动驾驶|英伟达开始炸圈:推出自动驾驶新平台 拿下比亚迪等多家企业
- 显卡电源线接法图解 显卡电源线怎么接
- AMD|NVIDIA、AMD显卡价格全体暴跌!不过还是贵的离谱
- 游戏本|9499元!满血显卡的ROG枪神、魔霸新锐2022游戏本价格真香
- 显卡|创史上最大跌幅!高端显卡报价雪崩:一天跌35%
- 宏碁|Intel Arc独立显卡笔记本全球首销!5月底才发货
- 显卡|显卡盲盒问世:妥妥的双智商税BUFF!
- gtx650显卡性能介绍 650显卡
- AMD|涨价三年的显卡崩盘在即:红利快到头了 显卡厂商即将降价
- CPU处理器|CPU失业前兆?英伟达显卡直连SSD技术了解下
