学位论文 > 优秀研究生学位论文题录展示

数据分布对支持向量机学习的影响

作 者: 朱发
导 师: 业宁
学 校: 南京林业大学
专 业: 计算机应用技术
关键词: SVM 样本选择 余弦和 one-Class SVM 增量学习 KTT条件
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 48次
引 用: 0次
阅 读: 论文下载
 

内容摘要


对于大数据集的学习问题,需要对训练集进行约简选择训练集的一个子集来表示原训练集,以减小问题的规模。这就需要我们研究样本的分布规律,找出那些对学习问题有较大影响的样本。本文以机器学习领域里的支持向量机为切入点,通过样本分布规律寻找对支持向量机学习至关重要的样本,以提高算法的效率。该研究可以化解支持向量机由于求解二次规划带来的内存和训练时间压力。与现有的样本选择算法相比,本课题提出的一些方法不仅适用于二分类和多分类情况,而且还能适用于一分类情况。对于增量学习,可以仅保留历史样本可能转变为支持向量的部分样本,这样可以避免有新样本加入对所有样本进行重新训练。本文所做的工作如下:1.训练集中可能成为支持向量的样本分布在不同类别样本的重叠区域里。而这样的重叠区域对于有的数据集来说未必存在。本文根据样本近邻的分布规律,提出了用样本与近邻均值(邻域球质心)差和样本与近邻差之间角度的余弦和。通过余弦和可以找到位于数据分布边缘的样本。而支持向量只可能位于数据分布的边缘。这样的方法与用聚类算法来寻找可能成为支持向量的样本相比,不需要依赖于聚类算法的性能。与Shin&Cho提出的NPPS算法、Navneet Panda提出的CBD算法相比,不需要假设训练集存在重叠区域,并且本文的算法不仅可以用于二分类问题,也可以用于一分类问题。2.对于支持向量机增量学习算法,希望找到在学习过程中可能转变为支持向量的历史样本,舍弃其他样本,以避免重新训练所有的样本。本文引入了历史样本与新增样本差和原分类面之间的角度信息,这样的角度越小,越有可能在增量学习过程中成为支持向量。与Syed提出的算法相比,本文的算法有更好的精度;与Liva Ralaivola和Florence提出的算法相比有更好的速度。对于这样的角度可以用利用历史样本与原分类面之间的距离来代替,距离越小的样本越有可能在增量学习过程中转换为支持向量。3.通过支持向量的松弛变量的大小将支持向量分为线性可分支持向量(广义线性可分支持向量)和非线性支持向量。线性可分支持向量包含有更多的信息。在增量学习中仅保留历史数据集的部分支持向量(广义线性可分支持向量)可以得到Syed提出的算法相近的精度和更快的训练速度。

全文目录


致谢  3-4
摘要  4-5
Abstract  5-9
第一章 绪论  9-13
  1.1 国内外研究概况  9-10
  1.2 选择该研究课题的重要意义  10-11
  1.3 本文工作任务  11-12
  1.4 本文的内容安排  12-13
第二章 样本近邻性质与支持向量机中的样本预处理  13-29
  2.1 支持向量机数据集预处理介绍  13-15
  2.2 样本近邻分布性质与NDPSR(Neighbors’Distribution Properties SampleReduction)算法  15-20
  2.3 实验  20-27
    2.3.1 实验一:算法精度比较  20-21
    2.3.2 实验二:算法训练时间比较  21-23
    2.3.3 实验三:NDPSR算法与CBD算法的比较  23-24
    2.3.4 实验四:人工仿真数据—分类SVM样本剪辑  24-26
    2.3.5 实验五:真实数据集—分类SVM样本剪辑  26-27
  2.4 本章小结  27-29
第三章 增量学习支持向量机影响因素分析  29-41
  3.1 增量学习支持向量机研究现状  29-30
  3.2 基于最小角度增量支持向量机增量算法(MAISVM,Minimum Angle Incrementa #1Support Vector Machines  30-34
    3.2.1 增量学习支持向量机中的角度因素  30-33
    3.2.2 MAISVM(Minimum Angle Incremental Support Vector Machines)算法  33-34
  3.3 基于基于最小样本平面距离的增量支持向量机算法(MSPDISVM,MinimumSample Plane Distance Incremental Support Vector Machine  34-35
  3.4 实验  35-40
    3.4.1 实验一:MAISVM与其它几种增量算法的比较  35-39
    3.4.2 实验二:MSPDISVM算法与其它增量学习算法的比较  39-40
  3.5 本章小结  40-41
第四章 基于支持向量子集的增量学习算法  41-49
  4.1 松弛变量与支持向量分类  41-43
    4.1.1 松弛变量与KTT条件的关系  41-43
    4.1.2 支持向量的分类  43
  4.2 Simple ISVM(Simple Incremental Support Vector Machines)算法  43-44
  4.3 实验  44-48
    4.3.1 实验一:去除松弛变量大于0的样本对算法的影响  44-45
    4.3.2 实验二:Simple ISVM算法与SVM Inc.算法的比较  45-48
  4.4 本章小结  48-49
第五章 结束语  49-50
参考文献  50-54
攻读硕士学位期间的研究成果和发表的论文  54

相似论文

  1. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  2. 基于战略采购的供应商选择研究,F426.31
  3. 软测量技术在氯甲烷回收中的应用研究,TQ222.214
  4. 耦合“图—谱”特征的遥感影像自动分类方法研究,TP751
  5. 面向三网融合的故障管理系统的研究及实现,TP315
  6. 高校数字化校园Web信息过滤的研究,TP393.09
  7. 基于小波和神经网络理论的电力系统负荷预测研究,TM715
  8. 上位作用特征基因的选择与分类方法研究,Q78
  9. 求解约束优化问题的Filter型算法研究,O221.2
  10. 基于支持向量机的X线图像分割技术研究,TP391.41
  11. 模式分类中数据选择方法的研究,TP391.4
  12. 基于支持向量机的烟气成分建模研究,TK224.11
  13. 一种新的基于Reachable和Coverage的样本挑选算法,TP301.6
  14. 基于2D-FrFT多阶次特征融合的人脸表情识别技术,TP391.41
  15. 基于SVM分类算法的主题爬虫研究,TP391.3
  16. 文本分类的特征选择和分类方法研究,TP391.1
  17. 支持向量机应用于数字水印的算法研究,TP309.7
  18. 可识别交叠细胞的红、白细胞图像自动分类技术研究,TP391.41
  19. 基于像素级多特征的图像分割方法研究,TP391.41
  20. 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
  21. 针对特征缺省数据集的模式识别方法与应用研究,TP391.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com