学位论文 > 优秀研究生学位论文题录展示
基于YHFT-Matrix的FFT向量化设计与实现
作 者: 黄君辉
导 师: 刘仲
学 校: 国防科学技术大学
专 业: 软件工程
关键词: FFT 向量化 并行 多核处理器 YHFT-Matrix
分类号: TP332
类 型: 硕士论文
年 份: 2012年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
随着LTE、4G无线通信、高清视频编解码、图像匹配、雷达信号处理等高性能计算应用的不断涌现,标量单核处理器难以满足这类应用的高密度实时计算需求,向量多核体系结构成为当前处理器设计的主流。但是,基于向量多核处理器的算法实现在并行编程、存储管理等方面面临巨大挑战,如何高效地开发向量多核处理器的多级并行性成为当前的研究热点。YHFT-Matrix是国防科学技术大学自主研发的一款面向软件无线电的高性能向量多核处理器;而FFT/IFFT是LTE、4G无线通信技术中OFDM调制解调、MIMO信道估计等应用的核心算法,因此,面向YHFT-Matrix的向量多核体系结构特点,研究高效的FFT/IFFT向量化设计与实现方法具有重要的理论意义和应用价值。本文的主要工作包括:(1)针对单核YHFT-Matrix的向量数据访问、处理和混洗网络等体系结构特点,分别提出高效的基2、基3、基4和基5FFT的向量化方法,该方法利用FFT算法的内在并行性,能够充分挖掘YHFT-Matrix的指令级、数据级和多核多级并行性。实验结果表明,这些算法均取得了较高的计算性能和加速比,其中2K点基2FFT计算时间为2985拍,相对同频率下的TIC62xx,加速比为15.3;64K点基4FFT计算时间为91643拍,相对同频率下的TIC62xx,加速比为14.48;(2)在上述的基础上,进一步提出一种实现混合基FFT的向量化方法,实验结果表明,1200点混合基FFT计算时间为1982拍,取得了较高的计算性能;(3)针对四核YHFT-Matrix的SDP硬件同步和Qlink大块数据传输的多核数据通信特点,提出一种实现四核并行的基2FFT的向量化方法,实验结果表明,64K点四核并行基2FFT的计算时间为46953拍,与YHFT-Matrix单核相比,加速比为2.58,取得了较高的性能加速比;(4)综合实现了一个包含FFT、位反序、信道估计、MIMO均衡和IFFT核心算法的OFDM接收端应用系统,实验结果表明,该系统取得了较高的计算性能,每个子帧的计算时间为234us,完全满足LTE所要求的1ms的时间需求。
|
全文目录
摘要 10-11 Abstract 11-12 第一章 绪论 12-27 1.1 课题研究背景和意义 12-20 1.1.1 FFT 的研究背景 12-13 1.1.2 FFT 在 LTE/4G 无线通信中的应用 13-16 1.1.3 国内外 FFT 实现的研究现状 16-20 1.2 YHFT-Matrix 体系结构 20-25 1.2.1 YHFT-Matrix 的总体结构 20-22 1.2.2 YHFT-Matrix 的指令集结构 22-24 1.2.3 影响算法性能的因素分析 24-25 1.3 本文所做的工作 25-26 1.4 论文的组织结构 26-27 第二章 基 2 FFT 的向量化设计与实现 27-38 2.1 基 2 FFT 算法原理 27-31 2.1.1 基 2 FFT 算法原理 27-29 2.1.2 IFFT 算法原理 29-31 2.2 基 2 FFT 算法的设计与实现 31-36 2.2.1 基 2 FFT 实现流程 31-32 2.2.2 输入数据的存储 32 2.2.3 蝶形因子的存储 32-33 2.2.4 混洗模式设计 33-35 2.2.5 软件流水设计 35-36 2.3 性能分析 36-37 2.4 本章小结 37-38 第三章 基 4 FFT 的向量化设计与实现 38-50 3.1 基 4 FFT 算法原理 38-42 3.1.1 基 4 FFT 算法结构一 38-40 3.1.2 基 4 FFT 算法结构二 40-42 3.2 基 4 FFT 算法的设计与实现 42-47 3.2.1 基 4 FFT 实现流程 42-43 3.2.2 输入数据的存储 43 3.2.3 蝶形因子的存储 43-44 3.2.4 混洗模式设计 44-46 3.2.5 复数乘以 j 操作的简化 46-47 3.3 性能分析 47-49 3.3.1 YHFT-Matrix 基 4 与 TIC62xx 基 4 比较 47-48 3.3.2 YHFT-Matrix 基 4 与 YHFT-Matrix 基 2 比较 48-49 3.4 本章小结 49-50 第四章 混合基 FFT 的向量化设计与实现 50-60 4.1 混合基 FFT 算法原理 50-55 4.1.1 基 3 FFT 算法原理 50-52 4.1.2 基 5 FFT 算法原理 52-55 4.2 混合基 FFT 算法的设计与实现 55-58 4.2.1 混合基 FFT 实现流程 56-57 4.2.2 输入数据的存储 57 4.2.3 蝶形因子的存储 57-58 4.2.4 混洗模式设计 58 4.3 性能分析 58-59 4.4 本章小结 59-60 第五章 多核并行 FFT 的设计与实现 60-70 5.1 多核并行 FFT 算法原理 60-61 5.2 多核并行 FFT 算法的设计与实现 61-68 5.2.1 四核并行基 2 FFT 实现流程 61-62 5.2.2 蝶形因子的存储 62-64 5.2.3 SDP 同步 64-67 5.2.4 QLINK 核间通信 67-68 5.3 性能分析 68-69 5.4 本章小结 69-70 第六章 OFDM 接收端应用系统的实现 70-74 6.1 OFDM 接收端模型 70 6.2 OFDM 接收端数据流程 70-72 6.3 试验结果 72-73 6.4 本章小结 73-74 第七章 总结及工作展望 74-76 7.1 论文总结 74 7.2 展望及后续工作 74-76 致谢 76-77 参考文献 77-80 作者在学期间取得的学术成果 80
|
相似论文
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 大规模计算环境下网络模拟任务划分研究,TP393.01
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
- 啤酒瓶在线检测相关技术的研究,TS262.5
- CN100汽车车身冲压模具开发并行工程研究,U468.2
- “先刑后民”审判方式的法律分析,D925.2
- 机载激光雷达测量系统及点云数据快速处理技术,TN959.73
- 形态学联想记忆抗噪声的研究,TN911.4
- 多核系统下并行节点复制垃圾收集算法研究,TP332
- 蛋白质结构柔性的计算建模研究,Q51
- 基于FPGA的电台接口设计,TN791
- 电力系统谐波分析算法研究,TM711
- 基于虚拟仪器技术的失真度测量系统的设计与实现,TP274
- 基于多核的数据并行编程平台的研究与实现,TP332
- 并行工程在新产品开发导入工期管理中的应用研究,TB47
- 手持式低频振动信号采集系统与技术的研究,TP274.2
- 基于DSP与FPGA的谐波分析系统研究,TM711
- 大规模水的动画和实时渲染技术,TP391.41
- 基于部分K空间数据的并行磁共振成像,R445.2
- 短波ALE信号检测设备设计,TN911.23
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|