兰博随笔 | CUDA

cuda中的异步并行执行

21 12 月, 2022 5:23 下午 by rambo dong

cuda可以让不互相依赖的任务进行并行操作，主要任务包括如下：主机端的计算设备端的计算主机到设备端的内存数据传输设备到主机端的内存数据传输设备内的内存之间的数据传输设备到设备之间的数据传输在主机和设备间可以并行执行的操作有：内核函数执行单个设备内存间的数据拷贝主机到设备的内存拷贝，内存块的大小，小于64KB。以async为前缀的内存拷贝函数 memory set function calls 并行执行的特性，可以查询设备的属性，查看是否支持。 cudaDeviceProp.asyncEngineCount > 0 // 支持c […]

cuda 纹理(texture)和表面(surface)的使用

21 12 月, 2022 5:22 下午 by rambo dong

cuda纹理和表面内存是一种特殊的全局内存，主要针对二维空间的局部性访问进行了优化。纹理内存是只读的，而表面内存是可读可写的。纹理和表面内存都支持一维、二维和三维。纹理内存的属性： read mode用来指定返回值是归一化模式，还是原始值模式。如果是cudaReadModeNormalizedFloat，则返回[0.0 1.0]之间的浮点数；如果是cudaReadModeElementType，则返回原始值。 addressing mode指定寻址模式，也就是超出坐标范围值如果取值。有 […]

在visual studio中添加cuda编译选项

21 12 月, 2022 5:17 下午 by rambo dong

1. 创建存放cuda代码的筛选器， 2. 在筛选器中添加cuda源码文件 3. 右击项目—->“生成自定义”，在弹出的窗口中勾选cuda的对应版本。 4. 修改cuda文件的编译链接设置，右击cuda源文件—–>“属性”，在弹出窗口中—->“常规”—->”项类型“的下拉列表中选择点击”应用“后，”常规“下方会出现一个”cuda c/c++”的设置。 5. 修改工程设置，“链接器”—>”输入”—>”附加依赖项&#82 […]

cuda 统一内存模式

21 12 月, 2022 5:08 下午 by rambo dong

在cuda基本编程步骤这一篇文章中，可以看到cuda编程中需要在两个地方分配内存（主机和设备之间），还需要手动拷贝数据，这样使用起来非常的不方便。从cuda 6.0开始，提供了统一内存的模式，可以方便cuda的编程。要利用统一内存模式，需要SM的架构大于3.0，而且操作系统必须时64位的。在统一内存模式中，内存分配的方式是： int *value; cudaMallocManaged(&value, sizeof(int)); 还可以结合std中的allocator进行高效的内存分配: #include <cstdio> #include <cstddef> […]

CUDA编程的基本步骤

21 12 月, 2022 5:06 下午 by rambo dong

CUDA编程的基本步骤： 1. 编写Kernel函数 2. 为主机和设备需要使用的数据分配内存 3. 拷贝主机内存的数据到设备内存 4. 调用kernel函数执行计算 5. 把计算后的数据结果从设备内存拷贝回主机内存 6. 释放为主机和设备分配的内存举一个最简单的例子： #include <stdio.h> #include <cuda_runtime.h> #include “helper_cuda.h” //声明一个kernel 函数 __global__ void vectprAdd(const float *A, const float *B, […]

cuda中的异步并行执行

cuda 纹理(texture)和表面(surface)的使用

在visual studio中添加cuda编译选项

cuda 统一内存模式

CUDA编程的基本步骤

分类

标签