『』腾讯开源TurboTransformers,推理加速性能超TensorRT主流优化引擎( 二 )

类似于 NVIDIA FasterTransformers 方案， TurboTransformers 将所有 GEMM 运算之间的计算融合成一个调用核心。这样有两个好处，一是减少了内存访问开销，二是减少多线程启动开销。
对于这些核心， TurboTransformers 在 CPU 上采用 openmp 进行并行，在 GPU 上使用 CUDA 进行优化实现。对于比较复杂的 LayerNorm 和 Softmax 算子，它们包含了不适合 GPU 上并行的规约操作， TurboTransformers 为它们设计了创新并行算法，极大降低了这些算子的延迟。
框架层优化
由于 NLP 的采用变长输入特性，每次运算中间结果的大小其实并不相同。为了避免每次都分配释放内存， TurboTransformers 通过 Caching 方式管理显存。
此外，团队为 TurboTransformers 提供了一些脚本，将二者的预训练模型转化为 npz 格式供其读入，以无缝支持 pytorch/tensorflow 训练好的序列化模型。考虑到 pytorch huggingface/transformers 是目前最流行的 transformer 训练方法， TurboTransformers 支持直接读入 huggingface/transformers 预训练模型。
应用部署
为了减少用户开发难度， TurboTransformers 提供了 C++和 Python 调用接口，可以嵌入到 C++多线程后台服务流程中，也可加入到 pytorch 服务流程中，增加几行代码即可获得端到端 BERT 加速。现阶段更建议通过 docker 部署 TurboTransformers ，一方面保证了编译的可移植性，另一方面也可以无缝应用于 K8S 等线上部署平台。
性能测试
【『』腾讯开源TurboTransformers,推理加速性能超TensorRT主流优化引擎】团队首先在三个 CPU 硬件平台上测试了 TurboTransformers 的性能，下图显示了在 Intel Xeon 6133 CPU 上的性能测试结果（150 次迭代的均值）：

本文插图

接下来在四个 GPU 硬件平台上进行测试，下图显示了在 NVIDIA RTX 2060 GPU 和 NVIDIA V100 GPU 上的性能测试结果（150 次迭代的均值）：

本文插图

NVIDIA RTX 2060 GPU 测试结果。

本文插图

NVIDIA V100 GPU 测试结果。
此外，团队还在多个CPU和GPU等平台上测试了 TurboTransformers ，更多性能测试结果可见项目主页。
目前， TurboTransformers 暂时只支持 FP32 的计算，未来腾讯将对其进一步改进，包括对 GPU FP16 的支持等能力等。

『』腾讯开源TurboTransformers,推理加速性能超TensorRT主流优化引擎( 二 )

推荐阅读

娱乐圈里生粉是什么意思生粉是什么粉

金钩拜什么意思金钩拜金钩拜什么歌

「渝北交巡警」在路上不遵守这些标志标线小心有生命危险！，【微讲堂】@行人

广告垃圾箱有哪些优势呢

神舟|发射在即！神舟十二号载人飞行任务标识正式发布

sky网络电话官网——sky网络电话怎么样啊？

LOL|LOL版本真正的混子之王，怎么针对都没用，14级后又是一条好汉

柳州圣元医药|【养生】身体最“燥”的季节来了！5个食疗方滋润整个秋天

45所高校将招收超三千名本科临床医学专业来华留学生

俯卧撑仰卧起坐正确做法

食疗食补|降温了，吃牛羊肉不如吃花菜，维C是白菜的3倍，常吃预防感冒

章子怡|陈凯歌推开章子怡，让张颂文站C位，撕开娱乐圈的世态炎凉

爱豆|今天《爱就是陪伴》营业的是85 终于有机会下赛道的孩子很开心，201006

第一财经|参展企业数量与面积两位数增长，日本企业成进博会“忠粉”

汪小菲|吴宗宪被问大S家事，表示理解汪小菲的做法，会教育女儿安分守己

上京|什么是辽上京？地球知识局

擦隔离霜只用洗面奶洗脸可以吗隔离霜只用洗面奶能洗干净吗

呆匠货|只需要坚持做到这10个好习惯！，女生想要提升个人气质和魅力

[美好，一直在身边]惊雷！新科园社区被“黑科技”加持

不规则|不规则打底衫搭配“双拉链”牛仔裤，简约又时尚