资源列表
[并行运算] transpose.cpp.tar
说明:parallel traspose of matrix using mpi<othello> 在 2025-06-15 上传 | 大小:1kb | 下载:0
[并行运算] matrix_mul_cuda_2.cu
说明:矩阵相乘的cuda实现 矩阵分块且使用shared memory-parallel version of matrix multiply<cc> 在 2025-06-15 上传 | 大小:2kb | 下载:0
[并行运算] mpi-bitonic-sort-master
说明:Bitonic order implementation code with mpi usage<pippo90 > 在 2025-06-15 上传 | 大小:38kb | 下载:0
[并行运算] startParaller
说明:并行运算,matlab函数,开始并行运算程序,很好用(Parallel operation, matlab function, start parallel computing program, very easy to use)<zyf123 > 在 2025-06-15 上传 | 大小:4kb | 下载:0
[并行运算] Hands-on CUDA codes
说明:用于CUDA方案的程序码说明,提供的练习有: cudaMallocAndMemcpy myFirstKernel reverseArray_singleblock reverseArray_multiblock reverseArray_multiblock_fast(Skeletons and solutions for hands-on CUDA codes, they are listed as the followings: cudaMallocAndMemcpy myFi<p-yang > 在 2025-06-15 上传 | 大小:2.32mb | 下载:0
[并行运算] cudaMallocAndMemcpy
说明:在主机和设备之间复制--从“cudaMallocAndMemcpy”模板开始。 第1部分:为设备上的指标 d_a 和 d_b 分配内存。 第2部分:将主机上的h_a复制到设备上的 d_a。 第3部分:将设备从 d_a复制到 d_b。 第4部分:将设备上的 d_b 复制回主机上的 h_a。 第5部分:在主机上释放 d_a 和 d_b。 额外部分:用cudaMallocHost代替malloc来分配h_a。(Copy between host and device -- start<p-yang > 在 2025-06-15 上传 | 大小:6kb | 下载:0
[并行运算] myFirstKernel
说明:启动内核--从“myFirstKernel”模板开始。 Part1:使用指针d_a为内核的结果分配设备内存。 Part2:使用1-D的1-D网格来配置和启动内核 线程块。 Part3:让每个线程设置一个d_a的元素,如下所示: idx = blockIdx.x * blockDim.x + threadIdx.x d_a [idx] = 1000 * blockIdx.x + threadIdx.x Part4:将d_a中的结果复制回主机指针h_a。 Part5:验证结果是否正<p-yang > 在 2025-06-15 上传 | 大小:6kb | 下载:0