基于GPU图像去噪总变分对偶模型的并行计算

　　【论文摘要】研究基于总变分（TV）的图像去噪问题，针对中央处理器（CPU）计算速度较慢的问题，提出了在图像处理器（GPU）上并行计算的方法。考虑总变分最小问题的对偶模型，建立原始变量与对偶变量的关系，采用梯度投影算法求解对偶变量。数值实验分别在GPU与CPU上进行。实验结果表明，总变分去噪模型对偶算法在GPU设备上执行的效率高于在CPU上执行的效率，并且随着图像尺寸的增大，GPU并行计算的优势更加突出。
　　【论文关键词】并行计算；总变分；图像去噪；图像处理器
　　Abstract： The problem of Total Variation （TV）based image denoising was considered. Since the traditional serial computation speed based on Central Processing Unit （CPU） was low， a parallel computation based on Graphics Processing Unit （GPU） was proposed. The dual model of the total variationbased image denoising was derived and the relationship between the primal variable and the dual variable was considered. The projected gradient method was applied to solve the dual model. Numerical results obtained by CPU and GPU show that the algorithm implemented by GPU is more efficient than that by CPU， and with the increasing of image size， the advantage of GPU parallel computing is more outstanding.
　　Key words：parallel computation； Total Variation （TV）； denoising； Graphics Processing Unit （GPU）
　　0 引言
　　在物理成像系统以及传输过程中，图像常常被噪声污染而退化，从而造成视觉损伤，故图像去噪是图像处理过程中的一项重要操作。图像去噪经过几十年的研究，已取得重大成果，但它仍然是充满活力的领域[1]。随着科技的发展，图像尺寸持续增加，要求新算法提出的同时也需要计算硬件设备的更新。由过去单纯提高单核时钟频率来提升设备计算性能的技术达到瓶颈后，利用多核并行计算提升设备计算性能已成为研究的热点。
　　图像处理器（Graphics Processing Unit， GPU）是早期为实现图形实时渲染着色而开发的图形处理设备，它拥有众多计算核心和高带宽，因此具有很高的计算吞吐量[2]。实验表明，它是大规模并行计算得以实现的合适硬件设备。经过数十年的开发研究，一种基于统一计算设备单元（Compute Unified Device Architecture， CUDA）新架构构建的GPU可以方便地使用C语言的扩展语言实现并行化计算[3]。CUDA C一经面世，它便成为人们主要关注的对象。许多重要领域都积极研究开发基于GPU的应用程序，例如，模式识别、基因（DeoxyriboNucleic Acid，DNA）序列校对、计算流体力学、量子力学和环境科学等。随着CUDA技术的逐渐成熟，图像处理领域的研究者也正在积极地将其引入到该领域中，特别是医学图像TechniScan的基于CUDA架构的超声波成像系统，使得医生可在20min内获得患者高清三维图像。
　　在图像处理过程中，一幅灰度图像可以对应一个二维矩阵或一个列向量，列向量是由二维矩阵转化来的。由Rudin，Osher和Fatemi提出的总变分去噪模型（RudinOsherFatemi， ROF）[4]，可以高效去除图像噪声，保留图像的边缘信息。ROF模型是根据式（1）得出：
　　近年来，研究者提出了许多关于总变分模型的算法，例如原对偶算法[6]、对偶算法[7-8]和Chambolle 算法[9]。这些算法包含相当的计算量，随着图片像素的不断提高以及图片尺寸的增大，给实时图像处理带来巨大的挑战。尽管GPU的新架构CUDA可以实现并行计算，但并不是所有的算法可以不加更改地进行并行计算。一个好的并行算法，可以将费时的计算划分为一系列独立的统一操作的计算，同时需要考虑数据之间的切换，因为GPU的存储空间有限，数据间的交换同样会花费大量的时间，那么在设计并行计算时，需要尽可能地将数据传输降到最低。
　　随着总变分模型应用于不同的图像恢复任务，该模型也在不断变换，以适应新的环境，如文献[8，10]。而在文献[11]中，研究的是在GPU上实现TVL1正则模型的原始与对偶方法；文献[12]探究了TV模型在医学领域核磁共振图像去噪的应用，并且提出了解决TV正则化参数估计问题的方法。本文主要研究TVL2正则模型对偶算法的并行计算问题，将其在GPU的CUDA架构上实现，并与TVL2正则化模型对偶算法在CPU上的执行进行对比。
　　2 GPU实现
　　对偶算法是在GPU的新架构CUDA上实现的。在CUDA上运行的函数称为Kernel（内核函数）。Kernel以线程网格的形式组织，每个线程网格由若干个块组成，每个线程块又由若干线程组成。对于给定型号的GPU，一个块中可开辟最大线程数量是固定的。CUDA将计算任务映射为大量可以并行执行的程序，并由硬件动态调度和执行这些线程。只要声明了执行参数（设备的限制内），GPU设备会自动将数据分配到相应的处理单元上。

　　核心期刊网（www.hexinqk.com）秉承“诚以为基，信以为本”的宗旨，为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。
　　核心期刊网专业期刊发表机构，为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。

　　投稿辅导咨询电话：18915033935
　　投稿辅导客服QQ：论文投稿

1002080872、论文投稿

1003158336
　　投稿辅导投稿邮箱：1003158336@qq.com