机器之心矩阵相乘在GPU上的终极优化:深度解析Maxas汇编器工作原理( 十 )


总的来说 , maxas 所用的优化思路还是比较清晰的 , 按其说法之前已经有文献提出了 , 其最困难的地方在于 nVidia 不愿意透露其硬件的实现细节 , 以至于都需要其作者经过艰苦的反向工程猜测出来的才能达到硬件性能的极限 。 可能作者自己搭建了一个测试平台来快速验证某些指令的细微差别所带来的性能的影响 。 无论如何这是一个伟大的工作 , 值得任何一位有志于冲击硬件性能极限的工程师深入研究 。
原文链接:https://www.jianshu.com/p/e01024892afb
本文为机器之心发布 , 转载请联系本公众号获得授权 。
------------------------------------------------
加入机器之心(全职采访人员 / 实习生): hr@jiqizhixin.com
投稿或寻求报道:content @jiqizhixin.com
广告 & 商务合作: bd@jiqizhixin.com


推荐阅读