OpenCL 学习(1)---- OpenCL 基本概念
OpenCL 学习(1)---- OpenCL 基本概念
OpenCL(Open Computing Language)是一种为异构平台编写程序的工业标准,支持在CPU、GPU、DSP和FPGA等设备上进行并行计算。本文将详细介绍OpenCL的基本概念、架构模型和关键技术细节,帮助读者全面了解这一重要的并行计算框架。
Overview
OpenCL(Open Computing Language)最早由苹果公司提交草案,并于AMD、IBM、Intel和NVIDIA等公司逐渐完善。其主要版本发布历程如下:
- 2008年 OpenCL 1.0 技术规范发布
- 2010年 OpenCL 1.1 发布
- 2011年 OpenCL 1.2 发布
- 2013年 OpenCL 2.0 发布
- 2020年 OpenCL 3.0 发布
异构并行计算
过去,利用GPU对图像渲染进行加速的技术已经十分成熟。我们知道GPU的结构适合大规模的并行计算,而CPU则适合逻辑控制。因此,人们希望将这种计算能力扩展到更多领域。
2007年,NVIDIA推出GTX8800 GPU(采用统一的渲染架构)和CUDA(Computing Unified Device Architecture)计算环境,异构并行计算逐渐得到认可。异构并行计算包含两个子概念:
- 异构:指的是需要同时处理不同架构的计算平台的问题,比如目前主流的异构并行计算平台 x86+GPU、x86+FPGA,以及正在研发的 ARM+GPU
- 并行:指的是并行计算主要采用并行的编程方式,无论是x86处理器,还是ARM和GPU处理器,这里的处理器都是多核向量处理器,要发挥多种处理器混合平台的性能,也必须采用并行的编程方式
OpenCL是一个为异构并行计算平台编写程序的工业标准,此异构计算平台可映射到CPU、GPU、DSP和FPGA等计算设备。
OpenCL提供了底层硬件结构的抽象模型,旨在提供一个通用的开放API,既减轻开发人员的编程难度,又让开发人员能够写出高效可移植代码。
OpenCL 架构
为了描述OpenCL设计的核心,khronos Group将OpenCL异构计算架构划分为平台模型、存储器模型、执行模型和编程模型,这些模型既相互独立,又相互联系,组成了OpenCL的有机整体。
平台模型
平台模型是关于OpenCL如何看待硬件的一个抽象描述:
- OpenCL平台模型由主机及其相连的一个或者多个OpenCL设备组成,通常主机包含x86和ARM处理器的计算平台。
- OpenCL的平台是OpenCL设备和OpenCL框架的组合,不同的OpenCL厂商属于不同的平台
- OpenCL设计可以是CPU(也可以将主机端的CPU作为设备)、GPU、DSP、或者专门的硬件,OpenCL开发商支持的任何处理器。
- 每个OpenCL设备有一个或者多个计算单元,而每个计算单元又是由一个或者多个处理单元组成,处理单元是设备上执行数据计算的最小单元
- OpenCL通常包含Host和Device两种处理器,如何连接这两种处理器就和在这两种处理器之间传输信息的性能密切相关,比如如果设备是GPU显卡,主机与其连接的方式就是PCI-E
执行模型
OpenCL程序包含主机端程序和设备端内核(kernel)程序,主机端程序运行在主机处理器上,主机端程序以命令的方式将内核程序从主机提交到OpenCL设备,OpenCL设备在处理单元上执行计算,OpenCL没有定义主机代码如何工作的细节,只是定义了它通过命令队列和OpenCL设备进行交互
对于OpenCL来说,最重要的是上下文、命令队列和内核三个概念
OpenCL 上下文
主机使用OpenCL API创建和管理上下文,内核在此上下文中执行,上下文定义了内核执行的环境,包含了:
- 设备:OpenCL平台包含一个或者多个设备
- 内核对象:OpenCL设备上运行的OpenCL内核函数
- 程序对象:实现整个内核程序的源代码和目标二进制代码
- 存储器对象:对主机和OpenCL设备可见的对象,内核执行时操作这些对象的实例
OpenCL提供了两种方式从代码中构建对象,一种是从源代码中构建,另一种是从源代码中已经编译好的代码上构建
OpenCL支持了很多种平台,不同的平台有不同的存储器体系,为了处理这种情况,OpenCL引入了存储器对象的概念。
存储器对象在主机上明确定义,并在主机和OpenCL设备之间交换数据
OpenCL 命令队列
命令队列由主机或者运行在设备中的内核提交,命令会在命令队列中等待,直到被调度到OpenCL设备上运行,OpenCL命令队列在上下文中关联到一个OpenCL设备
命令队列中命令分为下面三种类型:
- 内核入队命令
- 存储器入队命令
- 同步命令
内核执行
主机发出一个命令,提交一个内核到OpenCL设备上执行,OpenCL执行时会创建一个整数索引空间。
索引空间是OpenCL支持一个N维的网格,称为NDRange,其中的 N 为 1,2,3 三个长度为N的数据确定了NDRange的下面特征:
- 每个维度索引空间的范围
- 一个偏移指数 F 表示每个维度的初始索引值
- 一个工作组(局部大小) 每个维度大小
内核,关联内核参数的参数值和定义索引空间的参数,这三个定义了一个内核实例,对应这个索引空间的各个点将分别指向内核的一个实例
我们将指向内核的各个实例称为一个工作项(work-item),工作项将由它在索引空间的坐标来识别,这个坐标就是工作组的全局ID,值从 F 到 F 加上该维度的元素个数减 1,每个工作组使用内核定义的同样的指令序列,尽管指令序列是相同的,但是由于代码中通过全局ID选择的数据不同。因此每个工作项的行为也不同,工作项提供了对索引空间细粒度的分解
多个工作项组织为工作组(work-group),工作组中的工作项的数量由内核入队的参数决定,工作组横跨了整个全局索引空间,提供了对索引空间粗粒度的分解。
同样,每个工作组被指定了一个唯一的ID,值从0开始,到该维度中工作组个数减1
对于分配到一个工作组内的每个工作项,除了有一个全局ID,也赋予了一个局部ID来表示它在所属工作组中的位置,这个局部ID的值从0开始,到工作组内该维度元素个数减1
通过结合工作组ID和工作组中的局部ID可以唯一地定义一个工作项
例如: 下面定义了一个二维索引空间
阴影方块的全局ID(6,5),工作组ID(1,1),工作项局部ID(2,1)
编程模型
定义了并行模型如何映射到实际的物理硬件
存储器模型
- 主机内存(Host Memory): 主机直接可用的内存,OpenCL并未定义主机内存的具体行为,通过OpenCL API或者共享虚拟存储器接口,实际存储器对象可以在主机和设备之间传输
- 全局存储器(global Memory): 这个存储器区域允许上下文设备中的所有工作组的所有工作项的读写,工作项可以读写存储器对象中的任何元素,全局存储器的读写可能被缓存,这个取决于设备能力
- 常量存储器(constant Memory): 全局存储器的一块区域,在内核实例执行期间其保存的数据保持不变,对于工作项而言这个存储器对象是只读的,主机负责对该存储器对象的分配和初始化
- 局部存储器(local Memory): 这存储器区域对工作组是局部可见的,它可以用来分配由该工作组的所有工作项共享的变量
- 私有存储器(private Memory): 这个存储器区域是一个工作项的私有区域,一个工作项的私有存储器定义的变量对其他工作项是不可见的
全局存储器和常量存储器可以在一个上下文内的一个或者多个设备间共享,一个OpenCL设备关联局部存储器和私有存储器
存储器对象
全局存储器中的数据内容可以通过存储器对象来表示,一个存储器对象就是对全局存储器区域的一个引用,在OpenCL中,存储器对象分为三种不同的类型:
- 缓冲(buffer): 内核可用的一个连续的存储器区域,内核通过指针来访问缓冲区
- 图像(image): 图像对象用于存储基于标准格式的图像
- 管道(pipe): 管道存储器是数据项的有序的队列
共享虚拟存储器
通过映射,可以将设备全局存储器映射到主机可以访问的地址空间,除了这种方式,在OpenCL 2.0通过共享虚拟存储器(Shader Virtual Memory, SVM)机制扩展了全局存储器区域到主机内存区域的方式