|龙芯之路虽辛苦 吹尽狂沙始到金( 四 )


正是因为吃过亏 , 加上龙芯觉得洋鬼子干得还不如自己干得好 , 所以就自己干 。
从实践上看 , 虽然nVidia帮Intel做配套GPU , Intel还是坚持自己做GPU;虽然Imagination帮ARM做配套GPU , ARM也坚持自己做GPU;虽然开源的火狐浏览器很不错 , 谷歌还是坚持自己做Chrome 。他山之石、可以攻玉 。只有技术上不受制于人 , 才有产业上的主动权 。
从实践上看 , 龙芯GS464E内核设计非常成功 , 就性能来说 , 已经优于同时期从境外厂商引进的X86和ARM CPU核 。虽然龙芯GS464E内核在性能上超越了技术引进的CPU核 , 但由于技术引进的X86和ARM CPU基本采用了台积电28nm工艺 , 优于龙芯采用的中芯国际40nm工艺 , 因而在主频上明显处于优势 。
为了在技术上超越技术引进CPU , 龙芯基于GS464E内核开发了龙芯3A3000 。3A3000主要通过工艺优化提升性能 , 对龙芯3A2000的CPU核略作修改:
一是结合3A2000的性能瓶颈分析把定点/浮点发射队列从16/24项增加到32/32项;
二是把最后一级Cache从4MB提高到8MB 。
因此 , CPU内核设计的工作量较小 , 很快就完成了RTL源代码修改 , 全面展开物理设计阶段 。
3A3000物理设计中继续需要定制包括HT-PHY、DDR-PHY、锁相环、多端口寄存器堆、CAM等全定制模块 。
3A3000物理设计中另一个难点是时序收敛 。3A3000使用的28nm FD SOI工艺晶体管确实比3A2000使用的40nm LL快60%左右 , 但连线延迟大 , 而且互相干扰也大 , 废了很多周折 。由杨梁率领物理组在2016年春节期间也没有休息 , 终于在2016年2月中旬交付流片 。
2016年9月 , 龙芯3A3000成功流片 , 很快就运行了SPEC CPU2000和SPEC CPU2006等大型程序 , 均未发现异常 。主频可以达到1.5GHz左右 。进一步的测试结果比想象的好:
一是内存频率可以达到750MHz以上 , 而且信号眼图还非常好 , STREAM测试带宽达到13GB/s;
二是虽然主频只提高了50% , 但综合SPEC CPU2006和SPEC CPU2000分值可以提高60% , 其中SPEC CPU2006单核分值为定点11分以上、浮点10分以上 , 四核分值为定点36分 , 浮点33分;
三是可以运行在很低电压下 , 例如运行在1.0V电压下主频1GHz时功耗还不到3A2000运行1GHz时的一半 。对于打开几十MB的大文件 , 3A3000的用户体验比3A2000有显著提高 。
3A3000研制成功对自主CPU来说具有里程碑意义 。3A3000的通用处理性能已经跨过了国际通用处理器性能的第一个门槛 , 其单核SPEC CPU2006性能已经不低于ARM用于服务器的高端处理器、Intel的低端系列(凌动系列)处理器以及威盛处理器 , 而且3A3000的访存带宽已经与AMD以及Intel的高端酷睿系列持平 。这样的性能玩复杂的3D游戏可能还有差距 , 但对于办公场景应用是足够了 。
|龙芯之路虽辛苦 吹尽狂沙始到金
文章图片

文章图片

第五部分:产业报国 , 未来可期
在2016年 , 使用申威处理器的“神威太湖之光”高性能机取得世界第一的好成绩 , 充分说明不论是通用CPU还是高性能机专用CPU , 自主研发的道路都是走得通的 , 不仅安全性好 , 性能也高 。尤其是通过自主研发形成持续改进能力后 , 未来的后劲更足 。
2019年4月 , 龙芯3A4000样片流片成功 , 同年12月正式发布 。同时还搭配龙芯自研的7A系列桥片 , 提高整机的自研水平 。龙芯3A4000/3B4000一如既往地强调“完全的”自主研发 。芯片中的所有功能模块均自主设计 , 所有电路设计源代码均为龙芯团队从零开始自已编写 。同样的 , 整个芯片的电路版图均为龙芯团队自主设计 。
龙芯设计团队严格遵循“实际应用需求牵引CPU发展”原则 , 未来方向是在龙芯3A4000/3B4000基础上继续提升处理器主频、提升内存控制器频率、降低功耗、提高核数 。


推荐阅读