覆盖|英国AI芯片创企发力中国训练/推理赛道,7月新品覆盖“云边端”
智东西(公众号:zhidxcom)
文 | 董温淑
智东西7月28日消息,今天,英国AI芯片创企Graphcore的高级副总裁兼中国区总经理卢涛、Graphcore技术应用总负责人罗旭与智东西等媒体分享Graphcore产品的性能及Graphcore在中国的市场策略。
Graphcore成立于2016年,经过4年潜心研究,专为AI任务打造的第一代IPU(智能处理单元)于2019年落地。本月中旬,Graphcore发布其第二代IPU产品。卢涛称,在运行图像分类训练任务时,8个基于IPU的刀片机性能相当于16个NVIDIA DGX A100 GPU,且价格更为低廉。
卢涛称,中国市场作为AI芯片发展的一个重要市场,也是Graphcore布局的重点。Graphcore将通过寻求云合作伙伴、OEM合作伙伴、渠道合作伙伴布局中国市场。
据悉,今年7月份以来,Graphcore接连推出多款软硬件产品,致力于在计算、数据、通信三方面实现颠覆性技术突破。
回顾Graphcore 7月份在中国市场的动作。7月7日,软件开发工具Graphcore Poplar SDK 1.2发布、Graphcore Poplar计算图库源代码正式开源;7月8日,Graphcore推出基于IPU的开发者云;7月15日,专为AI任务设计的第二代IPU、机器智能刀片式计算单元IPU-M2000面世。
一、IPU MK2:比MK1系统性能提升8倍以上
Graphcore推出的IPU(智能处理单元)是一种专为AI训练、推理任务设计的新型处理器,采用大规模并行同构众核架构,卢涛将其描述为“世界上最复杂的处理器”。
文章图片
Graphcore第一代IPU MK1于2019年推出,据称相比NVIDIA V100 GPU,能将自然语言处理(NLP)处理速度可提升20%~50%,为图像分类带来6倍的吞吐量而且是更低的时延,在一些金融模型方面训练速度能够提高26倍以上。
第二代IPU MK2采用台积电7nm制程技术,在823平方毫米的面积上集成594亿个晶体管,算力可达250TFlops,具有900MB处理器内存储,采用1472个独立处理器内核、8832个单独的并行线程。
相比第一代IPU MK1,IPU MK2系统性能提升了8倍以上。相比MK1,MK2达到2倍以上的吞吐量峰值、6倍以上的处理器内有效存储,具有超过446GB的IPU-Machine流存储,支持用于大规模横向扩展的IPU-Fabric横向扩展结构。
文章图片
在数据传输方面,Graphcore IPU采用的Exchange-Memory通信技术相比NVIDIA采用的HBM技术,带宽提升100多倍,容量提升大于10倍。
据悉,NVIDIA HBM技术的带宽为1.6TB/秒,IPU-Exchange-Memory技术带宽为180TB/秒;NVIDIA HBM技术的容量为40GByte,IPU-Exchange-Memory技术容量为450GByte。
文章图片
为了优化通信效果,Grapgcore采用专为AI设计的横向扩展结构IPU-Fabric。该结构能达到2.8Tbps的超低时延,支持64000个IPU之间的横向扩展,可直接连接和/或通过以太网交换机连接,支持集合和全缩减操作。
卢涛称,在运行AI任务时,数据稀疏性越高,IPU的优势越明显。随着数据稀疏性升高,IPU性能可领先GPU 10倍~50倍。
文章图片
二、8个IPU-Machine M2000性能比肩16个NVIDIA A100
Graphcore IPU-Machine M2000是一款即插即用的机器智能刀片式计算单元,由Graphcore全新的7纳米Colossus第二代GC200 IPU提供动力,由Poplar软件栈提供支持。
文章图片
IPU-Machine M2000可提供1个PetaFlop的机器智能计算、450GB的Exchange-Memory,具备2.8Tbps的IPU-Fabric超低时延通信。
另外,M2000的配置具备“弹性”,从配置1个M2000到配置64个M2000均可。
文章图片
基于IPU-Machine M2000,Graphcore推出用于超大计算规模的模块化机架规模解决方案IPU-POD。IPU-POD基于IPU-POD64参考架构,每个机架最多部署两个IPU-POD64,最多可部署512个机架。
IPU-POD可无缝扩展多达64000个IPU,这些IPU作为一个整体或作为独立的细分分区,可以处理多个工作负载以及满足不同用户需求。
文章图片
IPU-POD64参考架构可进行大规模、分散的横向扩展,从而将高性能的机器智能计算扩展到超级计算规模。
文章图片
根据Graphcore官方数据,M2000性能优于NVIDIA A100 GPU。
用8个NVIDIA A100 GPU与8个Graphcore M2000进行比较,结果显示M2000解决方案的FP32算力超过A100解决方案12倍、AI计算算力超过A100解决方案3倍、AI存储能力大于A100解决方案10倍。
文章图片
在运行EfficientNet-B4图像分类训练任务时,8个IPU-M2000可达到与16个NVIDIA DGX A100相同的运行效果。
推荐阅读
- 马斯克|马斯克推脑机接口芯片:安装不到1小时,植入活猪现场遛
- Huawei|华为推出“二郎神”智能摄像机:加入手机技术 长焦广角全覆盖
- 麻薯|既“拯救胃”又赚钱 疫情带火英国华人生鲜配送业
- 张帆|汇顶科技董事长张帆:上半年超薄屏下光学指纹发货超千万,ECG、PPG芯片已量产
- 新浪财经:华为余承东:正在想办法应对美芯片封杀新浪财经2020-08-29 12:03:400阅
- 马斯克|马斯克展示脑机接口:硬币大小芯片植入猪脑,实时读取猪脑信息
- 【】马斯克活猪脑机接口试验成功:多芯片植入、硬币大小、实时读取脑电波 已获批人脑实验2020-08-29 09:56:140阅
- TSMC|台积电和Graphcore准备使用3纳米工艺制造AI加速芯片
- 覆盖面|扩大优质教育资源覆盖面
- IT|英国拟允许临时授权紧急使用新冠疫苗
