linux内核|CUDA 6中的统一内存模型( 三 )

本文插图

链表是一种非常常见的数据结构，但是由于它们本质上是由指针组成的嵌套数据结构，因此在内存空间之间传递它们非常复杂。如果没有统一内存模型，则无法在CPU和GPU之间分享链表。唯一的选择是在零拷贝内存（被pin住的主机内存）中分配链表，这意味着GPU的访问受限于PCI-express性能。通过在统一内存模型中分配链表数据，设备代码可以正常使用GPU上的指针，从而发挥设备内存的全部性能。程序可以维护单链表，并且无论在主机或设备中都可以添加和删除链表元素。
将具有复杂数据结构的代码移植到GPU上曾经是一项艰巨的任务，但是统一内存模型使此操作变得非常容易。我希望统一内存模型能够为CUDA程序员带来巨大的生产力提升。 Unified Memory with C++
【linux内核|CUDA 6中的统一内存模型】统一内存模型确实在C++数据结构中大放异彩。 C++通过带有拷贝构造函数（copy constructors）的类来简化深度复制问题。拷贝构造函数是一个知道如何创建类所对应对象的函数，拷贝构造函数为对象的成员分配空间并从其他对象复制值过来。 C++还允许 new和 delete这俩个内存管理运算符被重载。这意味着我们可以创建一个基类，我们将其称为 Managed ，它在重载的 new运算符内部使用 cudaMallocManaged() ，如以下代码所示。 class Managed {public:void *operator new(size_t len) {void *ptr;cudaMallocManaged(&ptr, len);cudaDeviceSynchronize();return ptr;}void operator delete(void *ptr) {cudaDeviceSynchronize();cudaFree(ptr);}};
然后，我们可以让 String类继承 Managed类，并实现一个拷贝构造函数，该拷贝构造函数为需要拷贝的字符串分配统一内存。 // Deriving from “Managed” allows pass-by-referenceclass String : public Managed {int length;char *data;public:// Unified memory copy constructor allows pass-by-valueString (const String &s) {length = s.length;cudaMallocManaged(&data, length);memcpy(data, s.data, length);}// ...};
同样，我们使我们的 dataElem类也继承 Managed 。 // Note “managed” on this class, too.// C++ now handles our deep copiesclass dataElem : public Managed {public:int prop1;int prop2;String name;};
通过这些更改， C++的类将在统一内存中分配空间，并自动处理深度复制。我们可以像分配任何C++的对象那样在统一内存中分配一个 dataElem 。 dataElem *data = http://news.hoteastday.com/a/new dataElem;
请注意，您需要确保树中的每个类都继承自 Managed ，否则您的内存映射中会有一个漏洞。实际上，任何你想在CPU和GPU之间分享的内容都应该继承 Managed 。如果你倾向于对所有程序都简单地使用统一内存模型，你可以在全局重载 new和 delete ，但这只在这种情况下有作用——你的程序中没有仅被CPU访问的数据（即程序中的所有数据都被GPU访问），因为只有CPU数据时没有必要迁移数据。
现在，我们可以选择将对象传递给内核函数了。如在C++中一样，我们可以按值传递或按引用传递，如以下示例代码所示。 // Pass-by-reference version__global__ void kernel_by_ref(dataElem &data) { ... }// Pass-by-value version__global__ void kernel_by_val(dataElem data) { ... }int main(void) {dataElem *data = http://news.hoteastday.com/a/new dataElem;...// pass data to kernel by referencekernel_by_ref<<
>>(*data);// pass data to kernel by value -- this will create a copykernel_by_val<<
>>(*data);}
多亏了统一内存模型，深度复制、按值传递和按引用传递都可以正常工作。统一内存模型为在GPU上运行C++代码提供了巨大帮助。

linux内核|CUDA 6中的统一内存模型( 三 )

推荐阅读

吃黑鱼为什么不能要头

橙汁的味道|5连败青岛难挡九冠王，CCTV5现场直播！广东冲22连胜+常规赛冠军

古镇|拥有悠久历史的古镇，令人惊讶的样子，被称作“千年古城堡”

秋天到了推荐七种适合糖友的水果

『第五大道』让你美艳四季，做一个时尚女孩，时尚又休闲的搭配

[林心如]女明星曝出富商陪睡价位表，林心如竟是头牌？本人机智回应显情商

怎么样开口要回借出去的钱

穿搭|法式优雅连衣裙分享~

一本大学和重点大学有哪些区别？重本和一本有什么区别？

苏联|中国防盗最成功古墓，千年来珍宝一件未丢，还多了80具盗墓者尸首

人间小团圆蔡洁人间·小团圆

「毛阿敏」57岁毛阿敏走机场真洋气，穿挂挡开叉裤，这电线腿女生酸到不行

【吃货小胖爱美食】开胃又好吃，家常凉菜做法

手机中国：国内2020年3月手机总体出货量2175.6万部，5G手机24款

香片蒸鱼的做法

疫病|脂肪肝是肥胖引起的？除了肥胖，还有这5大诱因要警惕

今日油价查询|涨幅超100元/吨，油价预计【上涨1毛/升】，今日油价上涨

百度网盘下载慢怎么办百度网盘下载慢怎么解决

央行|美国开始“耍无赖”？借钱给美国还要倒贴，中国央行再次出手了

江苏银行|江苏银行宣布采纳负责任银行原则积极参与“碳中和”行动