学位论文 > 优秀研究生学位论文题录展示
基于Hadoop云平台的分布式支持向量机研究
作 者: 牛科
导 师: 贾郭军
学 校: 山西师范大学
专 业: 计算机应用技术
关键词: Hadoop云平台 海量数据挖掘 遗传算法 支持向量机
分类号: TP181
类 型: 硕士论文
年 份: 2014年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
支持向量机(Support Vector Machine, SVM)是Vapnik等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的VC维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。然而,随着数据集规模的逐渐增大,SVM算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。云计算的提出为海量数据挖掘技术的发展带来了曙光。凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。本文从Hadoop云平台的分布式文件系统(HadoopDistributed File System,HDFS)和分布式编程框架MapReduce两个方面对当前最流行的开源云计算平台Hadoop进行了阐述,同时,对MapReduce计算框架的内部运行机制进行了深入剖析,并在Linux环境下基于Hadoop-1.0.0版本搭建了完全分布式的Hadoop云平台。Hadoop云平台依靠HDFS实现了对大规模数据集的分块存储。本文通过读取hdfs-site.xml配置文件中的dfs.block.size属性,将数据集按照容量大小进行了划分,然后,对分配在datanode节点上的每个block采用基于MapReduce编程框架的并行SVM算法进行并行化训练。传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行SVM算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统SVM算法相比,采用遗传算法进行参数组合优化的SVM算法的预测精度得到了比较显著的提高。在UCI标准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能进行了的一系列实验分析,结果表明,并行化的SVM算法与传统的SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。同时,本文使用加速比分析了并行算法所需的训练时间与Hadoop集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。
|
全文目录
摘要 3-5 Abstract 5-8 目录 8-10 1 绪论 10-14 1.1 研究背景 10-11 1.2 分布式支持向量机的研究现状分析 11-12 1.3 主要研究内容 12-13 1.4 本文组织结构 13 1.5 本章小结 13-14 2 云计算平台-Hadoop 14-18 2.1 Hadoop 技术背景 14-15 2.2 分布式文件系统-HDFS 15-16 2.3 Hadoop MapReduce 编程框架 16-17 2.3.1 Hadoop MapReduce 编程框架的原理 16 2.3.2 Hadoop MapReduce 编程框架的执行过程 16-17 2.4 本章小结 17-18 3 支持向量机(SVM) 18-32 3.1 SVM 概述 18-23 3.1.1 线性可分 SVM 18-20 3.1.2 不完全线性可分 SVM 20-21 3.1.3 非线性 SVM 21-23 3.2 SVM 多分类 23-24 3.2.1 SVM 一对一分类 23-24 3.2.2 SVM 一类对余类分类 24 3.3 SVM 处理大规模数据的局限性 24-25 3.4 SVM 参数组合优化 25-29 3.4.1 遗传算法基本理论 25-27 3.4.2 使用遗传算法进行 SVM 组合参数优化 27-29 3.5 SVM 参数组合优化实验结果分析 29-30 3.6 本章小结 30-32 4 基于 Hadoop 的分布式 SVM 32-38 4.1 基于 Hadoop 的分布式 SVM 算法描述 32-34 4.1.1 单机 SVM 与分布式 SVM 32-33 4.1.2 自定义 MapReduce 过程 33-34 4.2 基于 Hadoop 的分布式 SVM 算法的实现 34-36 4.3 本章小结 36-38 5 实验与结果分析 38-50 5.1 实验环境搭建 38-43 5.1.1 硬件描述 38 5.1.2 软件描述 38 5.1.3 Hadoop 云平台搭建 38-43 5.2 实验结果分析 43-48 5.2.1 实验数据集简介 43 5.2.2 实验 1 43-44 5.2.3 实验 2 44-45 5.2.4 实验 3 45-47 5.2.5 实验 4 47-48 5.3 本章小结 48-50 6 总结与展望 50-52 6.1 总结 50 6.2 进一步的工作展望 50-52 致谢 52-54 参考文献 54-58 攻读学位期间参与项目和发表的学术论文 58
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 不匹配信道下耳语音说话人识别研究,TN912.34
- 基于文本挖掘的学者简历自动生成,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|