学位论文 > 优秀研究生学位论文题录展示

数据分布对支持向量机学习的影响

作　者: 朱发
导　师: 业宁
学　校: 南京林业大学
专　业: 计算机应用技术
关键词: SVM 样本选择余弦和 one-Class SVM 增量学习 KTT条件
分类号: TP181
类　型: 硕士论文
年　份: 2012年
下　载: 48次
引　用: 0次
阅　读: 论文下载

内容摘要

对于大数据集的学习问题，需要对训练集进行约简选择训练集的一个子集来表示原训练集，以减小问题的规模。这就需要我们研究样本的分布规律，找出那些对学习问题有较大影响的样本。本文以机器学习领域里的支持向量机为切入点，通过样本分布规律寻找对支持向量机学习至关重要的样本，以提高算法的效率。该研究可以化解支持向量机由于求解二次规划带来的内存和训练时间压力。与现有的样本选择算法相比，本课题提出的一些方法不仅适用于二分类和多分类情况，而且还能适用于一分类情况。对于增量学习，可以仅保留历史样本可能转变为支持向量的部分样本，这样可以避免有新样本加入对所有样本进行重新训练。本文所做的工作如下：1.训练集中可能成为支持向量的样本分布在不同类别样本的重叠区域里。而这样的重叠区域对于有的数据集来说未必存在。本文根据样本近邻的分布规律，提出了用样本与近邻均值（邻域球质心）差和样本与近邻差之间角度的余弦和。通过余弦和可以找到位于数据分布边缘的样本。而支持向量只可能位于数据分布的边缘。这样的方法与用聚类算法来寻找可能成为支持向量的样本相比，不需要依赖于聚类算法的性能。与Shin&Cho提出的NPPS算法、Navneet Panda提出的CBD算法相比，不需要假设训练集存在重叠区域，并且本文的算法不仅可以用于二分类问题，也可以用于一分类问题。2.对于支持向量机增量学习算法，希望找到在学习过程中可能转变为支持向量的历史样本，舍弃其他样本，以避免重新训练所有的样本。本文引入了历史样本与新增样本差和原分类面之间的角度信息，这样的角度越小，越有可能在增量学习过程中成为支持向量。与Syed提出的算法相比，本文的算法有更好的精度；与Liva Ralaivola和Florence提出的算法相比有更好的速度。对于这样的角度可以用利用历史样本与原分类面之间的距离来代替，距离越小的样本越有可能在增量学习过程中转换为支持向量。3.通过支持向量的松弛变量的大小将支持向量分为线性可分支持向量(广义线性可分支持向量）和非线性支持向量。线性可分支持向量包含有更多的信息。在增量学习中仅保留历史数据集的部分支持向量（广义线性可分支持向量）可以得到Syed提出的算法相近的精度和更快的训练速度。

全文目录

致谢  3-4
摘要  4-5
Abstract  5-9
第一章绪论  9-13
  1.1 国内外研究概况  9-10
  1.2 选择该研究课题的重要意义  10-11
  1.3 本文工作任务  11-12
  1.4 本文的内容安排  12-13
第二章样本近邻性质与支持向量机中的样本预处理  13-29
  2.1 支持向量机数据集预处理介绍  13-15
  2.2 样本近邻分布性质与NDPSR(Neighbors’Distribution Properties SampleReduction)算法  15-20
  2.3 实验  20-27
    2.3.1 实验一：算法精度比较  20-21
    2.3.2 实验二：算法训练时间比较  21-23
    2.3.3 实验三：NDPSR算法与CBD算法的比较  23-24
    2.3.4 实验四：人工仿真数据—分类SVM样本剪辑  24-26
    2.3.5 实验五：真实数据集—分类SVM样本剪辑  26-27
  2.4 本章小结  27-29
第三章增量学习支持向量机影响因素分析  29-41
  3.1 增量学习支持向量机研究现状  29-30
  3.2 基于最小角度增量支持向量机增量算法(MAISVM,Minimum Angle Incrementa #1Support Vector Machines  30-34
    3.2.1 增量学习支持向量机中的角度因素  30-33
    3.2.2 MAISVM(Minimum Angle Incremental Support Vector Machines)算法  33-34
  3.3 基于基于最小样本平面距离的增量支持向量机算法(MSPDISVM,MinimumSample Plane Distance Incremental Support Vector Machine  34-35
  3.4 实验  35-40
    3.4.1 实验一：MAISVM与其它几种增量算法的比较  35-39
    3.4.2 实验二：MSPDISVM算法与其它增量学习算法的比较  39-40
  3.5 本章小结  40-41
第四章基于支持向量子集的增量学习算法  41-49
  4.1 松弛变量与支持向量分类  41-43
    4.1.1 松弛变量与KTT条件的关系  41-43
    4.1.2 支持向量的分类  43
  4.2 Simple ISVM(Simple Incremental Support Vector Machines)算法  43-44
  4.3 实验  44-48
    4.3.1 实验一：去除松弛变量大于0的样本对算法的影响  44-45
    4.3.2 实验二：Simple ISVM算法与SVM Inc.算法的比较  45-48
  4.4 本章小结  48-49
第五章结束语  49-50
参考文献  50-54
攻读硕士学位期间的研究成果和发表的论文  54

数据分布对支持向量机学习的影响

内容摘要

全文目录

相似论文