0% found this document useful (0 votes)

126 views74 pages

A Jump Start To Opencl: March 15, 2009 Cis 565/665 - Gpu Computing and Architecture

The document provides an overview of OpenCL, a parallel programming language for heterogeneous computing devices like CPUs and GPUs. It discusses OpenCL's language specification, platform layer API, and runtime API. It also compares OpenCL to CUDA, NVIDIA's proprietary parallel programming model, noting differences in naming conventions, memory models, kernel execution, and programming interfaces. The document aims to provide developers a jump start into OpenCL programming.

Uploaded by

kaoutar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

126 views74 pages

A Jump Start To Opencl: March 15, 2009 Cis 565/665 - Gpu Computing and Architecture

Uploaded by

kaoutar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 74

A Jump Start to OpenCL

Another Language to Program Parallel Computing Devices

March 15, 2009

CIS 565/665 – GPU Computing
and Architecture
Sources
• OpenCL Tutorial - Introduction to OpenCL
• OpenCL for NVIDIA GPUs – Chris Lamb
• OpenCL – Parallel Computing for
Heterogeneous Devices (SIGGASIA) –
Kronos Group
• NVIDIA OpenCL Jump Start Guide
• OpenCL – Making Use of What You’ve Got
• OpenCL Basics and Advanced (PPAM
2009) – Domink Behr
Sources
• OpenCL Tutorial - Introduction to OpenCL
• OpenCL for NVIDIA GPUs – Chris Lamb
• OpenCL – Parallel Computing for
Heterogeneous Devices (SIGGASIA) –
Kronos Group
• NVIDIA OpenCL Jump Start Guide
• OpenCL – Making Use of What You’ve Got
• OpenCL Basics and Advanced (PPAM
2009) – Domink Behr
CUDA Working Group

• Because of Nexus and

Visual Studio Integration….
Anatomy of OpenCL
• Language Specification
• C-based cross-platform programming interface
• Subset of ISO C99 with language extensions - familiar
to developers
• Well-defined numerical accuracy (IEEE 754 rounding
with specified max error)
• Online or offline compilation and build of compute
kernel executables
• Includes a rich set of built-in functions

• Platform Layer API

• A hardware abstraction layer over diverse
computational resources
• Query, select and initialize compute devices
• Create compute contexts and work-queues

• Runtime API
• Execute compute kernels
• Manage scheduling, compute, and memory resources
CUDA
Memory Model Comparison

OpenCL CUDA
CUDA vs OpenCL
Architecture – Execution Model

• Kernel – Smallest unit of execution, like a C

function
• Host program – A collection of kernels
• Work item, an instance of kernel at run time
• Work group, a collection of work items
Command Queues
CUDA vs OpenCL API
Differences
• Naming Schemes
• How data gets passes to the API
• C for CUDA programs are compiled
with an external tool (NVCC
compiler)
• OpenCL compiler it typically invoked
at runtime (you can offline compile
too)
CUDA OpenCL
cuInit(0); cl_context hContext;
cuDeviceGet(&hContext, 0); hContext = clCreateContextFromType(0,
cuCtxCreate(&hContext, 0, hDevice)); CL_DEVICE_DEVICE_TYPE_GPU, 0,0,0);

CUdeviceptr pDeviceMemA, pDeviceMemB, cl_mem hDeviceMemA, hDeviceMemB,

pDeviceMemC; hDeviceMemC;
cuMemAlloc(&pDeviceMemA, cnDimension * hDeviceMemA = clCreateBuffer(hContext,
sizeof(float)); CL_MEM_READ_ONLY |
cuMemAlloc(&pDeviceMemB, cnDimension * CL_MEM_COPY_HOST_PTR,
sizeof(float)); cnDimension * sizeof(cl_float), pA, 0);
cuMemAlloc(&pDeviceMemC, cnDimension * hDeviceMemB = clCreateBuffer(hContext,
sizeof(float)); CL_MEM_READ_ONLY |
// copy host vectors to device CL_MEM_COPY_HOST_PTR,
cuMemcpyHtoD(pDeviceMemA, pA, cnDimension cnDimension * sizeof(cl_float), pA, 0);
* sizeof(float)); hDeviceMemC = clCreateBuffer(hContext,
cuMemcpyHtoD(pDeviceMemB, pB, cnDimension CL_MEM_WRITE_ONLY,
* sizeof(float)); cnDimension * sizeof(cl_float) 0, 0);

cuFuncSetBlockShape(cuFunction, cnBlockSize, clEnqueueNDRangeKernel(hCmdQueue,

1, 1); hKernel, 1, 0,
cuLaunchGrid (cuFunction, cnBlocks, 1); &cnDimension, &cnBlockSize, 0, 0, 0);
CUDA Pointer Traversal
struct Node { Node* next; }
n = n->next; // undefined operation in OpenCL,
// since ‘n’ here is a kernel input
OpenCL Pointer Traversal

struct Node { unsigned int next; }

…
n = bufBase + n; // pointer arithmetic is fine, bufBase is
// a kernel input param to the buffer’s beginning
CUDA Kernel code:
__global__ void
vectorAdd(const float * a, const float * b, float * c)
{
// Vector element index
int nIndex = blockIdx.x * blockDim.x + threadIdx.x;
c[nIndex] = a[nIndex] + b[nIndex];
}
OpenCL Kernel code:
__kernel void
vectorAdd(__global const float * a,
__global const float * b,
__global float * c)
{
// Vector element index
int nIndex = get_global_id(0);
c[nIndex] = a[nIndex] + b[nIndex];
}

CUDA kernel functions are declared using the “global”

function modifier

OpenCL kernel functions are declared using “__kernel”.

CUDA Driver API Host code:
const unsigned int cnBlockSize = 512;
const unsigned int cnBlocks = 3;
const unsigned int cnDimension = cnBlocks * cnBlockSize;
CUdevice hDevice;
CUcontext hContext;
CUmodule hModule;
CUfunction hFunction;
// create CUDA device & context
cuInit(0);
cuDeviceGet(&hContext, 0); // pick first device
cuCtxCreate(&hContext, 0, hDevice));
cuModuleLoad(&hModule, “vectorAdd.cubin”);
cuModuleGetFunction(&hFunction, hModule, "vectorAdd");
// allocate host vectors
float * pA = new float[cnDimension];
float * pB = new float[cnDimension];
float * pC = new float[cnDimension];
// initialize host memory
randomInit(pA, cnDimension);
randomInit(pB, cnDimension);
// allocate memory on the device
CUdeviceptr pDeviceMemA, pDeviceMemB, pDeviceMemC;
cuMemAlloc(&pDeviceMemA, cnDimension * sizeof(float));
cuMemAlloc(&pDeviceMemB, cnDimension * sizeof(float));
cuMemAlloc(&pDeviceMemC, cnDimension * sizeof(float));
// copy host vectors to device
cuMemcpyHtoD(pDeviceMemA, pA, cnDimension * sizeof(float));
cuMemcpyHtoD(pDeviceMemB, pB, cnDimension * sizeof(float));
// setup parameter values
cuFuncSetBlockShape(cuFunction, cnBlockSize, 1, 1);
cuParamSeti(cuFunction, 0, pDeviceMemA);
cuParamSeti(cuFunction, 4, pDeviceMemB);
cuParamSeti(cuFunction, 8, pDeviceMemC);
cuParamSetSize(cuFunction, 12);
// execute kernel
cuLaunchGrid(cuFunction, cnBlocks, 1);
// copy the result from device back to host
cuMemcpyDtoH((void *) pC, pDeviceMemC, cnDimension * sizeof(float));
delete[] pA; delete[] pB; delete[] pC;
cuMemFree(pDeviceMemA); cuMemFree(pDeviceMemB); cuMemFree(pDeviceMemC);
OpenCL Host Code:
const unsigned int cnBlockSize = 512;
const unsigned int cnBlocks = 3;
const unsigned int cnDimension = cnBlocks * cnBlockSize;
// create OpenCL device & context
cl_context hContext;
hContext = clCreateContextFromType(0, CL_DEVICE_TYPE_GPU,
0, 0, 0);
// query all devices available to the context
size_t nContextDescriptorSize;
clGetContextInfo(hContext, CL_CONTEXT_DEVICES,
0, 0, &nContextDescriptorSize);
cl_device_id * aDevices = malloc(nContextDescriptorSize);
clGetContextInfo(hContext, CL_CONTEXT_DEVICES,
nContextDescriptorSize, aDevices, 0);
// create a command queue for first device the context reported
cl_command_queue hCmdQueue;
hCmdQueue = clCreateCommandQueue(hContext, aDevices[0], 0, 0);
// create & compile program
cl_program hProgram;
hProgram = clCreateProgramWithSource(hContext, 1,
sProgramSource, 0, 0);
clBuildProgram(hProgram, 0, 0, 0, 0, 0);
// create kernel
cl_kernel hKernel;
hKernel = clCreateKernel(hProgram, “vectorAdd”, 0);
// allocate host vectors
float * pA = new float[cnDimension];
float * pB = new float[cnDimension];
float * pC = new float[cnDimension];
// initialize host memory
randomInit(pA, cnDimension);
randomInit(pB, cnDimension);
// allocate device memory
cl_mem hDeviceMemA, hDeviceMemB, hDeviceMemC;
hDeviceMemA = clCreateBuffer(hContext,
CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, cnDimension * sizeof(cl_float), pA, 0);
hDeviceMemB = clCreateBuffer(hContext, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, cnDimension *
sizeof(cl_float), pA, 0);
hDeviceMemC = clCreateBuffer(hContext, CL_MEM_WRITE_ONLY, cnDimension * sizeof(cl_float), 0, 0);
// setup parameter values
clSetKernelArg(hKernel, 0, sizeof(cl_mem), (void *)&hDeviceMemA);
Personal Aside…
• I’m a bit skeptical…
• 1) slower Source: Matt Harvey Porting CUDA to OpenCL

• 2) NVIDIA has to fully commit…

More Performance notes…

Source: Matt Harvey Porting CUDA to OpenCL

OpenCL for Programmers
No ratings yet
OpenCL for Programmers
13 pages
Cuda C/C++ Basics: NVIDIA Corporation
No ratings yet
Cuda C/C++ Basics: NVIDIA Corporation
67 pages
Vulkan Tutorial PDF
No ratings yet
Vulkan Tutorial PDF
293 pages
GPU Basics
No ratings yet
GPU Basics
93 pages
A Brief Introduction To 3d
100% (1)
A Brief Introduction To 3d
84 pages
Graphics Programming in C
No ratings yet
Graphics Programming in C
2 pages
1 Vulkan Tutorial - English
No ratings yet
1 Vulkan Tutorial - English
210 pages
GPUProgramming Talk
No ratings yet
GPUProgramming Talk
18 pages
Lecture 3: Animation & Graphics
No ratings yet
Lecture 3: Animation & Graphics
32 pages
Java Notes U1
No ratings yet
Java Notes U1
39 pages
Guide To Web Development With Java - Understanding Website Creation 2nd Edition Tim Downey Instant Download
No ratings yet
Guide To Web Development With Java - Understanding Website Creation 2nd Edition Tim Downey Instant Download
103 pages
Linux Ada Programming
No ratings yet
Linux Ada Programming
360 pages
Gpu Parallel Program Development Cuda
100% (2)
Gpu Parallel Program Development Cuda
477 pages
Linux Graphics Systems Guide
100% (1)
Linux Graphics Systems Guide
49 pages
Designing and Building Parallel Programs
No ratings yet
Designing and Building Parallel Programs
371 pages
GPU Programming On Windows 11
No ratings yet
GPU Programming On Windows 11
176 pages
AMD OpenCL Programming User Guide
No ratings yet
AMD OpenCL Programming User Guide
180 pages
Crash N' Burn: Writing Linux Application Fault Handlers
100% (4)
Crash N' Burn: Writing Linux Application Fault Handlers
25 pages
SFML Classlist
No ratings yet
SFML Classlist
3 pages
Unity Graphics Programming Vol.4
No ratings yet
Unity Graphics Programming Vol.4
141 pages
Design of Parallel Algorithm'S: Faculty Guide: Group Members
No ratings yet
Design of Parallel Algorithm'S: Faculty Guide: Group Members
49 pages
Vulkan Tutorial
No ratings yet
Vulkan Tutorial
239 pages
OpenGL & Qt for Developers
No ratings yet
OpenGL & Qt for Developers
39 pages
Vulkan Overview
100% (1)
Vulkan Overview
25 pages
Windows Graphics Overview: David Blythe Architect Windows Graphics & Gaming Technologies Microsoft Corporation
No ratings yet
Windows Graphics Overview: David Blythe Architect Windows Graphics & Gaming Technologies Microsoft Corporation
34 pages
Ray Tracing: 3D Rendering Thesis
No ratings yet
Ray Tracing: 3D Rendering Thesis
48 pages
Manual de Referencia de MASM PDF
No ratings yet
Manual de Referencia de MASM PDF
545 pages
Computer Graphics CSE 306
No ratings yet
Computer Graphics CSE 306
119 pages
(Ebook) ActionScript 3.0 Cookbook: Solutions For Flash Platform and Flex Application Developers by Joey Lott, Darron Schall, Keith Peters ISBN 9780596526955, 0596526954 Online PDF
No ratings yet
(Ebook) ActionScript 3.0 Cookbook: Solutions For Flash Platform and Flex Application Developers by Joey Lott, Darron Schall, Keith Peters ISBN 9780596526955, 0596526954 Online PDF
161 pages
Kubernetes Basic To Advanced
No ratings yet
Kubernetes Basic To Advanced
4 pages
Introduction To Saturn Assembly Language 3e - Fernandes & Rechlin 2005
No ratings yet
Introduction To Saturn Assembly Language 3e - Fernandes & Rechlin 2005
189 pages
Game Programming Genesis
No ratings yet
Game Programming Genesis
120 pages
Rust Programming For Your First Finance Job - A Comprehensive - Publishing, Reactive & Van Der Post, Hayden - 2024 - Reactive Publishing - Anna's Archive
No ratings yet
Rust Programming For Your First Finance Job - A Comprehensive - Publishing, Reactive & Van Der Post, Hayden - 2024 - Reactive Publishing - Anna's Archive
537 pages
Graphics Programming
75% (4)
Graphics Programming
42 pages
MIT Computer Graphics: Ray Casting Basics
No ratings yet
MIT Computer Graphics: Ray Casting Basics
14 pages
Quick Start Guide FFmpeg 2023
No ratings yet
Quick Start Guide FFmpeg 2023
288 pages
CMake
No ratings yet
CMake
18 pages
Symfony Cookbook 2.5
No ratings yet
Symfony Cookbook 2.5
442 pages
Introduction To Gpu Programming With Cuda and Openacc
100% (1)
Introduction To Gpu Programming With Cuda and Openacc
40 pages
Dylan Programming
No ratings yet
Dylan Programming
267 pages
Lighting vs. Shading Explained
No ratings yet
Lighting vs. Shading Explained
26 pages
CUDA Programming Within Mathematica
No ratings yet
CUDA Programming Within Mathematica
17 pages
Midterm Solution
No ratings yet
Midterm Solution
11 pages
Game Engine Architecture Second Edition Jason Gregory Download
100% (1)
Game Engine Architecture Second Edition Jason Gregory Download
60 pages
SIMD For C++ Developers © 2019 Konstantin, Http://const - Me Page 1 of 21
No ratings yet
SIMD For C++ Developers © 2019 Konstantin, Http://const - Me Page 1 of 21
21 pages
Vulkan in C++ (By Nvidia)
100% (1)
Vulkan in C++ (By Nvidia)
32 pages
OpenGL 3D Rendering Tutorial
No ratings yet
OpenGL 3D Rendering Tutorial
30 pages
Glade Tutorial
No ratings yet
Glade Tutorial
36 pages
Michael J. Folk, Bill Zoellick, Greg Riccardi - File Structures - An Object-Oriented Approach With C++-Addison-Wesley (1998)
No ratings yet
Michael J. Folk, Bill Zoellick, Greg Riccardi - File Structures - An Object-Oriented Approach With C++-Addison-Wesley (1998)
749 pages
Real-Time 3D Graphics on FPGA
No ratings yet
Real-Time 3D Graphics on FPGA
4 pages
The String Class: Templates Tutorial
100% (1)
The String Class: Templates Tutorial
14 pages
OpenCL Guide
No ratings yet
OpenCL Guide
19 pages
Opencl: These Notes Will Introduce Opencl
No ratings yet
Opencl: These Notes Will Introduce Opencl
34 pages
Introduction To OpenCL With Examples
No ratings yet
Introduction To OpenCL With Examples
128 pages
NVIDIA OpenCL JumpStart Guide
No ratings yet
NVIDIA OpenCL JumpStart Guide
15 pages
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
No ratings yet
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
121 pages
Upcrc Opencl Lec1
No ratings yet
Upcrc Opencl Lec1
38 pages
CS-3006 7 UsingOpenCL DataParallelProgramming
No ratings yet
CS-3006 7 UsingOpenCL DataParallelProgramming
80 pages
1 PB 1
No ratings yet
1 PB 1
13 pages
Performance Enhancement of Shunt Active Power Filter Application Using Adaptive Neural Network
No ratings yet
Performance Enhancement of Shunt Active Power Filter Application Using Adaptive Neural Network
8 pages
Dynamic Clustering Equivalent Model of Wind Turbin
No ratings yet
Dynamic Clustering Equivalent Model of Wind Turbin
17 pages
Implementation and Validation of An Adaptive Fuzzy
No ratings yet
Implementation and Validation of An Adaptive Fuzzy
19 pages
Buildings 12 01003 v2 1
No ratings yet
Buildings 12 01003 v2 1
16 pages
Energies 13 04152
No ratings yet
Energies 13 04152
39 pages
Research On The Current Situation of Data Governance in The Wind Power Industry
No ratings yet
Research On The Current Situation of Data Governance in The Wind Power Industry
8 pages
Real Time Eeg Signal Processing Based On Ti S tms320c6713 DSK
No ratings yet
Real Time Eeg Signal Processing Based On Ti S tms320c6713 DSK
9 pages
Mpsoc Architectures Openmp
No ratings yet
Mpsoc Architectures Openmp
35 pages
Median Filter Using Nios Ii Processor With Sort Hardware Accelerator
No ratings yet
Median Filter Using Nios Ii Processor With Sort Hardware Accelerator
87 pages
Voltage Sag Mitigation With Repetitive Controlled Dynamic Voltage Restorer
No ratings yet
Voltage Sag Mitigation With Repetitive Controlled Dynamic Voltage Restorer
69 pages
Opencl 2pp
No ratings yet
Opencl 2pp
28 pages
Empirical Mode Decomposition: Applications On Signal and Image Processing
No ratings yet
Empirical Mode Decomposition: Applications On Signal and Image Processing
52 pages
Citation 221305915
No ratings yet
Citation 221305915
1 page
XII Practical File New-1
No ratings yet
XII Practical File New-1
29 pages
S.4 Computer Studies Exam 2023
No ratings yet
S.4 Computer Studies Exam 2023
11 pages
Attract-Mode Translation Template
No ratings yet
Attract-Mode Translation Template
9 pages
Xerox V4 Print Driver Xerox V4 Applications Overview v4.1
No ratings yet
Xerox V4 Print Driver Xerox V4 Applications Overview v4.1
19 pages
Compiler Lab: Name of The Department: Computer Science & Engg
No ratings yet
Compiler Lab: Name of The Department: Computer Science & Engg
18 pages
Pcs Should Allow To Remove A Dead Node From A Cluster
No ratings yet
Pcs Should Allow To Remove A Dead Node From A Cluster
5 pages
Jatin Choudhary Devops HashedIn Resume (Update)
No ratings yet
Jatin Choudhary Devops HashedIn Resume (Update)
1 page
Cooper Caruso Resume 2023
No ratings yet
Cooper Caruso Resume 2023
1 page
Group Assignment - DDW
No ratings yet
Group Assignment - DDW
2 pages
Az 900
No ratings yet
Az 900
7 pages
Course Outline - Operating Systems
No ratings yet
Course Outline - Operating Systems
5 pages
Company Interview Question
No ratings yet
Company Interview Question
21 pages
Riscv V Spec 1.0 Rc2
No ratings yet
Riscv V Spec 1.0 Rc2
112 pages
File Handling in Python
No ratings yet
File Handling in Python
5 pages
Nested Loop Multiple Choice Worksheet 1
No ratings yet
Nested Loop Multiple Choice Worksheet 1
4 pages
Format of Project Proposal
No ratings yet
Format of Project Proposal
3 pages
Understanding OO vs. Procedural Programming
No ratings yet
Understanding OO vs. Procedural Programming
2 pages
C C++ Interview Questions Answers
No ratings yet
C C++ Interview Questions Answers
14 pages
GC 2024 05 07
No ratings yet
GC 2024 05 07
40 pages
SAP SuccessFactors Tutorial
No ratings yet
SAP SuccessFactors Tutorial
3 pages
Devops B.tech R22 Mid Question Bank
No ratings yet
Devops B.tech R22 Mid Question Bank
2 pages
Ge8151 Python Programming Question Bank
No ratings yet
Ge8151 Python Programming Question Bank
5 pages
Project #1 - Buffer Pool After - 04
No ratings yet
Project #1 - Buffer Pool After - 04
7 pages
XI CS Types of Software Notes
No ratings yet
XI CS Types of Software Notes
4 pages
CS 2400: Binary Bomb Lab Guide
No ratings yet
CS 2400: Binary Bomb Lab Guide
5 pages
Java Programming Masterclass Covering Java 11 & Java 17
No ratings yet
Java Programming Masterclass Covering Java 11 & Java 17
235 pages
Lecture 9 Website Attacks
No ratings yet
Lecture 9 Website Attacks
10 pages
Software Development Techniques 05 March 2020 Examination Paper
No ratings yet
Software Development Techniques 05 March 2020 Examination Paper
8 pages
Parameterized Pipelined MapReduce Optimization
No ratings yet
Parameterized Pipelined MapReduce Optimization
5 pages
Unit-1 Notes
No ratings yet
Unit-1 Notes
18 pages

A Jump Start To Opencl: March 15, 2009 Cis 565/665 - Gpu Computing and Architecture

Uploaded by

A Jump Start To Opencl: March 15, 2009 Cis 565/665 - Gpu Computing and Architecture

Uploaded by

A Jump Start to OpenCL

Another Language to Program Parallel Computing Devices

March 15, 2009

• Because of Nexus and

• Platform Layer API

• Kernel – Smallest unit of execution, like a C

CUdeviceptr pDeviceMemA, pDeviceMemB, cl_mem hDeviceMemA, hDeviceMemB,

cuFuncSetBlockShape(cuFunction, cnBlockSize, clEnqueueNDRangeKernel(hCmdQueue,

struct Node { unsigned int next; }

CUDA kernel functions are declared using the “__global__”

OpenCL kernel functions are declared using “__kernel”.

• 2) NVIDIA has to fully commit…

Source: Matt Harvey Porting CUDA to OpenCL

You might also like

CUDA kernel functions are declared using the “global”