学位论文 > 优秀研究生学位论文题录展示
支持向量机在大规模数据中的应用研究
作 者: 杨雯斌
导 师: 鲁习文
学 校: 华东理工大学
专 业: 数学
关键词: 支持向量机 聚类 核技巧 数据挖掘 大数据
分类号: TP18
类 型: 硕士论文
年 份: 2013年
下 载: 354次
引 用: 1次
阅 读: 论文下载
内容摘要
支持向量机(Support Vector Machine, SVM)是当今机器学习中解决分类问题的重要方法之一。基于统计学习理论、最优化算法和核方法的支持向量机具有全局优化、泛化能力强、避免“维数灾难”等优点。目前已成功应用于人脸识别、生物信息、故障诊断、网络安全、文本分类等领域中。支持向量机的优势在于小样本、高维数据的模式识别,面对现今普遍的海量数据,由于占用内存大、训练时间长等缺陷,还有待完善与拓展。本文立足于SVM的理论基础、分析了其几何特点,对在大规模数据中的应用进行了初步的研究。论文通过分析分类超曲面关于支持向量(Support Vectors, SVs)的几何位置结构,提出了分步训练的策略。首先用网格的形式将样本较多的原始数据聚类为较少的数据,同时根据数据分布情况选择核函数及参数,对归类后的数据使用SVM训练得到潜在的支持向量和初步的决策函数,进一步对以上结果再次训练,从而得出最终的决策函数。对于初步训练得出的潜在支持向量或原数据集的标称属性(Nominal Attribute)较多的情况,提出了分段处理的思想,综合局部训练得到的结果给出最终的决策函数。最后通过常用的测试数据,将本文的策略与原有SVM算法在训练速度、准确度和泛化能力方面进行比较,验证了其学习速度和有效性。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-14 1.1 支持向量机模型的研究现状与进展 9-11 1.2 现有的支持向量机软件或程序 11-12 1.3 本文研究内容与组织结构 12-14 1.3.1 本文的研究内容 12 1.3.2 本文结构的安排 12-14 第2章 支持向量机理论基础和模型 14-28 2.1 统计学习理论 14-16 2.1.1 分类问题的统计学提法和经验风险最小化 14-15 2.1.2 Vapnik-Chervonenkis维 15 2.1.3 结构风险最小化原则 15-16 2.2 支持向量机 16-26 2.2.1 SVM中的数学优化模型 16-18 2.2.2 最大间隔超平面 18-21 2.2.3 非线性支持向量机 21-22 2.2.4 SVM是SRM的一个算法实现 22-24 2.2.5 核理论 24-26 2.2.6 支持向量 26 2.3 本章小结 26-28 第3章 核技巧与模型参数的选择 28-39 3.1 核技巧 28-29 3.2 核函数的选择 29-32 3.2.1 常用的核函数介绍 29-30 3.2.2 核函数的构造 30-32 3.3 分类器性能评估指标 32-34 3.3.1 单个分类器的评价 32-33 3.3.2 两个分类器的比较 33-34 3.4 参数的选择 34-35 3.5 实验结果及分析 35-38 3.5.1 实验平台和数据 35-36 3.5.2 实验结果分析 36-38 3.6 本章小结 38-39 第4章 数据预处理和聚类分析 39-53 4.1 数据质量和预处理方法 39-41 4.1.1 数据清洗 39-40 4.1.2 数据归约 40 4.1.3 数据变换 40-41 4.2 聚类算法 41-43 4.2.1 划分法 42 4.2.2 层次法 42 4.2.3 密度法 42 4.2.4 网格法 42-43 4.2.5 模型法 43 4.3 大规模数据集支持向量机 43-45 4.3.1 选块算法 44 4.3.2 聚类算法与SVM结合 44-45 4.4 网格化聚类的支持向量机 45-48 4.4.1 网格化支持向量机算法 46-47 4.4.2 网格化支持向量机流程 47-48 4.5 分段支持向量机 48-50 4.5.1 分段支持向量机算法 48-49 4.5.2 分段支持向量机流程 49-50 4.6 实验结果及分析 50-52 4.6.1 实验平台和数据 50-51 4.6.2 实验结果分析 51-52 4.7 本章小结 52-53 第5章 总结与展望 53-54 5.1 本文总结 53 5.2 未来工作展望 53-54 参考文献 54-58 致谢 58
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|