采用OpenCL标准实现FPGA设计

OpenCL标准简介

OpenCL应用程序含有两部分。OpenCL主程序是纯软件例程，以标准C/C++编写，可以运行在任何类型的微处理器上。例如，这类处理器可以是FPGA中的嵌入式软核处理器、硬核ARM处理器或者外置x86处理器，如图4所示。

在这一主软件例程执行期间的某一点，某一功能有可能需要很大的计算量，这就可以受益于并行器件的高度并行加速功能，例如CPU、GPU、FPGA等器件。要加速的功能被称为OpenCL内核。采用标准C编写这些内核；但是，采用结构对其进行注释，以设定并行处理操作和存储器等级。图5中的例子对两个数组a和b进行矢量加法，将结果写回输出数组应答中。矢量的每一元素都采用了并行线程，当采用像FPGA这类具有大量精细粒度并行单元的器件进行加速时，能够很快的计算出结果。主程序使用标准OpenCL应用程序接口(API)，支持将数据传送至FPGA，调用FPGA内核，传回得到的数据。

1Khronos集团网站对OpenCL标准进行了详细的介绍。

与CPU和GPU不同，其并行线程可以在不同的内核中执行，而FPGA能够提供不同的策略。可以把内核功能传送到专用深度流水线硬件电路中，它使用了流水线并行处理概念，在本质上就是多线程的。这些流水线的每一条都可以复制多次，与一条流水线相比，提供更强的并行处理功能。如图5所示，可以通过级联功能单元实现矢量加法内核，在OpenCL描述中实现每一操作，进行复制以满足实际应用的吞吐量和延时要求。

虽然所显示的只是一个简单表征，但每个功能单元都可以是深度流水线，以保证最终电路的工作频率足够高。此外，编译器可以建立电路来管理与外部系统的通信。在这个例子中，DDRx控制器和PHY连接至内核，使其能够高效访问片外阵列。类似的，PCI Express?(PCIe?)IP自动例化，连接至内核，这样，x86主机能够通过OpenCLAPI与FPGA加速器进行通信。

在FPGA上实现OpenCL标准的优势

使用OpenCL描述来开发FPGA设计，与基于HDL设计的传统方法相比，具有很多优势。最显著的优势如图6所示。开发软件可编程器件的流程一般包括进行构思、在C等高级语言中对算法编程，然后使用自动编译器来建立指令流。

这一方法可以与传统基于FPGA的设计方法相比。这里，设计人员的主要工作是对硬件按照每个周期进行描述，用于实现其算法。传统流程涉及到建立数据通路，如图7所示，通过状态机来控制这些数据通路，使用系统级工具(例如，SOPCBuilder、PlatformStudio)连接至底层IP内核，由于必须要满足外部接口带来的约束，因此，需要处理时序收敛问题。OpenCL编译器的目的是帮助设计人员自动完成所有这些步骤，使他们能够集中精力定义算法，而不是重点关注乏味的硬件设计。以这种方式进行设计，设计人员很容易移植到新FPGA，性能更好，功能更强，这是因为OpenCL编译器将相同的高级描述转换为流水线，从而发挥了FPGA新器件的优势。

案例：MonteCarloBlack-Scholes方法

在金融市场上最重要的一个基准测试方法是通过Monte Carlo Black-Scholes方法计算期权价格。该方法基于对底层股票价格的随机仿真，以及数百万不同路径上的平均预期收益。图8以图形化的方式显示了这类仿真的一个例子。

图9显示了进行这一计算的高级算法结构。首先采用Mersenne旋转随机数发生器来创建均匀分布的数值。将随机数序列送入逆正态累积密度函数，以产生正态分布序列。然后，使用几何布朗运动，这些随机数用于仿真股票价格的变化。在每一仿真通路的最后，记录看涨期权的收益，进行平均来产生收益预期值。整个算法通过大约300行的OpenCL代码来实现，可以从FPGA移植到CPU、GPU。

利用针对Altera FPGA开发的OpenCL工作台，可以产生很好的基准测试结果，如表1所示。与相应的GPU相比，面向Stratix? IV FPGA EP4SGX530的OpenCL工作台在吞吐量上超过了CPU和GPU。与相应的GPU相比，在执行相同的代码时，FPGA解决方案不但提高了吞吐量，保守估计，功耗也只有其五分之一。速率和高功效相结合，降低了大计算量应用的功耗需求。

结论

利用FPGA上的OpenCL标准，与目前的硬件体系结构(CPU、GPU，等)相比，能够大幅度提高性能，同时降低了功耗。此外，与使用Verilog或者VHDL等底层硬件描述语言(HDL)的传统FPGA开发方法相比，使用OpenCL标准、基于FPGA的混合系统(CPU+FPGA)具有明显的产品及时面市优势。Altera于2010年加入Khronos集团，为标准建设做出了积极贡献。

原文转自：http://www.ednchina.com/ART_8800501745_19_35499_AN_a996b8f4.HTM

posted on 2012-11-22 22:00 jackdong 阅读(528) 评论(0) 编辑收藏引用所属分类: OpenCL

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 浅谈多节点CPU+GPU协同计算负载均衡性设计 VLIW on Cypress and vector addition Low ALUBusy and low FetchUnitBusy Understanding performance counters ALUBusy question 适用于ATI卡的GPU计算MD5的小程序源码，基于AMD APP SDK开发 Test latency for clEnqueueNDRangeKernel 采用OpenCL标准实现FPGA设计

网站导航: 博客园 IT新闻 BlogJava 知识库博问管理

C++ Coder

公告

常用链接

留言簿(2)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜