利用GPU提高多模医学图像配准速度(2)

　　Gauss．Jordan消元是一个多次迭代的过程，即：GPU需要不断地执行新的渲染过程，而且要将上一次渲染过程所使用的输出纹理转换为下一个渲染过程的输入纹理．
　　根据前述内容，已知参考图像和浮动图像n组对应点的情况下，需要建立(n+4)×(n+4)大小的纹理。迭代了n+4次后，就可以求出x方向上的变换参数．同理，求出y方向上的变换参数．
　　3实验对比分析
　　本实验中，硬件采用的是INTEL(R)Pentium(R)42．26GHz，256MDDR400和NvidiaGeForce5950Ultrra。
　　3.1配准精度
　　实验选取了同一断层平面，相同模态和不同模态的2套图像数据分别进行实验，图片的大小均为256×256。
　　在同模态实验中，以互相关系数作为子区域的相似性测度，实验分别选取了16、25、36和49个标记点，其配准结果如图3所示，并以NMI作为配准精度的评价标准．配准前后的精度比较如表l所示．多模态实验中所选取的二幅图像，整体上没有较大旋转和平移，但是图像若干局部(例如边缘轮廓)有明显的差异，为此实验以互信息作为子区域的相似性测度，分别选取了25、64、8l和100个标记点，其配准结果如图4所示，并仍以NMI作为配准精度的评价标准．配准前后的精度比较如表2所示．
　　实验结果分析：
　　（1）需要选取的标记点数目与图像本身密切相关。
　　（2）当浮动图像有整体变形时，不需要选择很多标记点。
　　（3）当浮动图像有明显局部差异时，只有在局部选取标记点，才能得到较好的配准效果．
　　3.2配准速度
　　对GPU和CPU配准速度的比较，有以下几个前提条件：
　　（1）本实验以多模态的二幅图像为对象，分别选取16、32、64、128、256和512个标记点。
　　（2）计算变换参数的时间近似等于建
　　图3同模态配准结果
　　图4多模态配准结果
　　表1同模态配准精度
　　表2多模态配准精度
　　立系数矩阵的时间。由于计算变换参数的时间包括建立系数矩阵的时间和求解系数矩阵的时间，而求解系数矩阵是一个多次迭代的过程，其时间远远大于建立系数矩阵的时间。因此，计算变换参数的时间近似等于建立系数矩阵的时间。
　　（3）本实验分为含数据传输时间和不含数据传输时间两种情况的对比。GPU工作时，要与内存之间进行读写数据的操作。而这种读写数据的操作所花费的时间是相当可观的。
　　基于以上前提条件，GPU和CPU运算速度的比较结果如表3所示。
　　表3GPU与CPU计算时间比较
　　实验结果分析：
　　（1）不含数据传输时间时，无论标记点数目多或少，GPU比CPU的速度都要快。
　　（2）含数据传输时间时，随着标记点个数的增加，GPU的速度远远大于CPU的速度，而且是量级的差距。由于GPU与内存间读写数据的时间不能忽略不计，当标记点个数较少时，由于GPU与内存间传输数据占用了大部分时间，在这样的情况下，GPU的全部运算时间反而更长．但是，当标记点个数逐渐增加时，GPU的优势充分地体现出来。也就是说，对于大尺寸、高分辨率或者具有较多局部形变的图像，利用GPU进行配准，将获得更为突出的加速比．
　　4结论
　　多模医学图像的快速配准问题，分为：利用矩主轴法进行粗配准、利用层次B样条自适应自由变形法实现细配准以及运用GPU提高对应点的配准速度三个方面。本文以薄板样条插值作为变换模型，充分利用GPU具有可编程片断处理器的特点，快速获得变换参数。实验结果表明，与CPU相比较，对于大尺寸、高分辨率图像的配准速度，GPU具有绝对的优势。至于如何解决GPU与主存间数据传输的限制问题，将是今后工作的重点。
　　【参考文献】
　　[1]张红颖;张加万;孙济洲基于层次B样条的医学图像弹性配准方法[期刊论文]-天津大学学报2007(01)
　　[2]秦安.徐建.冯前进.孟晓林.陈武凡基于GPU的快速三维医学图像刚性配准技术[期刊论文]-计算机应用研究2010(3)
　　[3]童欣等,基于空间跳跃的三维纹理硬件体绘制算法,计算机学报,Vol.21(9),1999:807-812.
　　[4]冯煌.GPU图像处理的FFT和卷积算法性能分析.计算机工程与运用.2008,44(2):120-122

　　核心期刊网（www.hexinqk.com）秉承“诚以为基，信以为本”的宗旨，为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。
　　核心期刊网专业期刊发表机构，为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。

　　投稿辅导咨询电话：18915033935
　　投稿辅导客服QQ：论文投稿

1002080872、论文投稿

1003158336
　　投稿辅导投稿邮箱：1003158336@qq.com