memcpy cuda (nvvp/nvprof)

Setup:

ssh santis01
git clone https://github.com/eth-cscs/SciComp.git   SciComp.git
cd SciComp.git/Training/cuda/mpicuda/C

module swap PrgEnv-cray PrgEnv-gnu
module load craype-accel-nvidia35
module swap cudatoolkit/6.5.14-1.0502.9613.6.1
export LD_LIBRARY_PATH=$CRAY_LD_LIBRARY_PATH:$LD_LIBRARY_PATH

Compile:

make
ldd GNU.SANTIS |grep cuda

2:  libcudart.so.6.5 => 
/opt/nvidia/cudatoolkit6.5/6.5.14-1.0502.9613.6.1/lib64/libcudart.so.6.5 
(0x00002acbbbb38000)
3:  libcuda.so.1 => 
/opt/cray/nvidia/default/lib64/libcuda.so.1 
(0x00002acbbbe05000)
18: libcublas.so.6.5 => 
/opt/nvidia/cudatoolkit6.5/6.5.14-1.0502.9613.6.1/lib64/libcublas.so.6.5 
(0x00002acbc3278000)

Run:

salloc
aprun -n1 ./GNU.SANTIS 128

=== get_gpu_info ===
Process 0 on nid00012 out of 1 Device 0 (Tesla K20X)

=== /proc/driver/nvidia/version ===
NVRM version: NVIDIA UNIX x86_64 Kernel Module  340.81  
Wed Feb 18 16:28:19 PST 2015

=== cudaGetDeviceProperties ===
Device 0: "Tesla K20X"
  CUDA Driver Version / Runtime Version     6.5 / 6.5
  CUDA Capability Major/Minor version number:    3.5
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Maximum sizes of each dimension of a block:    1024 x 1024 x 64
  Maximum sizes of each dimension of a grid:     2147483647 x 65535 x 65535
  More infos with : aprun -n1 nvidia-smi  -q

0 64 127
0 0 0

Profile:

unset COMPUTE_PROFILE
export PMI_NO_FORK=1
aprun -n1 nvprof -o nvprof.output.%h.%p   ./GNU.SANTIS 128

Error:

======== Error: unable to locate profiling library libcuinj64.so.
======== Make sure the CUDA toolkit is properly installed.

memcpy cuda (nvvp/nvprof)

Setup:

Compile:

Run:

Profile:

Error:

Comments (4)

Workaround: aprun -b

memcopy3

Setup

Compile

Run

No overlap

Overlap (split into 10 chunks)