学位论文 > 优秀研究生学位论文题录展示

基于支持向量机的文本分类问题的研究

作 者: 邸锦
导 师: 杨晓晖
学 校: 北京交通大学
专 业: 信号与信息处理
关键词: 支持向量机 文本分类 密度聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 373次
引 用: 6次
阅 读: 论文下载
 

内容摘要


我们生活在信息爆炸的时代。从海量信息中迅速查找资源需要对信息进行分类,因此文本分类技术应运而生。文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本点作为新的训练集进行分类器训练。如果将常见的密度聚类算法直接拿来使用,效果并不理想,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低、实际应用效果不佳的弊端。本文的主要工作情况如下:一、论文系统的介绍了文本分类的相关理论。研究对比了国内外研究较多、性能较好的分类方法(朴素贝叶斯、KNN、SVM),同时采用了文档型和词频型两种概率估计方法进行了对比实验。结果显示SVM是进行文本分类相对较好的方法。二、针对文本分类前期处理中的特征选择技术,分析了四种常用方法的缺点,并提出了基于类内频率的特征选择方法,通过实验对比说明该方法是一种性能比较好的特征选择方法,并且适用于以SVM作为分类器进行分类的方法。三、讨论了为何选取基于密度聚类算法应用到文本分类系统中,采用改进的密度聚类算法提取边缘点的方法,提出了在高维数据环境下对改进的密度聚类算法中两个初始参数进行动态调整的方法。四、采用改进的密度聚类算法提取边缘点,具体实现了基于支持向量机的分类方法。实验结果表明系统采用上述方法后,在不损失查全率及查准率的前提下提高了文本分类训练过程的速度。

全文目录


致谢  5-6
中文摘要  6-7
ABSTRACT  7-8
序  8-12
1 引言  12-19
  1.1 课题背景  12-14
  1.2 国内外研究现状  14-17
    1.2.1 文本分类  14-16
    1.2.2 支持向量机在文本分类中的应用  16-17
  1.3 本文的研究内容  17-19
2 文本表示与特征选择方法对比  19-38
  2.1 文本分类概述  19-20
  2.2 基于统计的中文文本自动分类  20-21
  2.3 向量空间模型(VSM)  21-23
  2.4 文本特征词的表示  23-25
    2.4.1 停用词对文本分类的影响  23-24
    2.4.2 性能和可扩展性特征词的权重  24-25
  2.5 分词  25-30
    2.5.1 基于字符串匹配的分词方法  26-28
    2.5.2 基于理解的分词方法  28
    2.5.3 基于统计的分词方法  28-30
  2.6 特征选择  30-37
    2.6.1 文档频率  30
    2.6.2 信息增益  30-31
    2.6.3 互信息  31
    2.6.4 x~2统计  31-32
    2.6.5 基于类内频率的特征选择函数  32
    2.6.6 实验结果与分析  32-37
  2.7 本章小结  37-38
3 文本分类方法对比研究  38-50
  3.1 朴素贝叶斯法(Na(?)ve Bayes)  38-39
  3.2 KNN方法  39-40
  3.3 支持向量机方法  40-48
    3.3.1 最优分类面  41-43
    3.3.2 广义最优分类面  43
    3.3.3 规范化超平面集的子集结构  43-44
    3.3.4 支持向量机  44-46
    3.3.5 内积函数  46-47
    3.3.6 实现技术  47-48
  3.4 实验结果与分析  48-49
  3.5 本章小结  49-50
4 密度聚类在支持向量机中的应用  50-62
  4.1 常用聚类算法介绍  50-52
    4.1.1 模糊 C均值聚类算法(FCM)  51
    4.1.2 CURE算法  51-52
    4.1.3 DBSCAN算法  52
  4.2 密度聚类方法在支持向量机中的应用  52-53
    4.2.1 支持向量对SVM分类的影响  52-53
    4.2.2 各种聚类算法的比较  53
  4.3 利用密度聚类算法求取边缘点  53-62
    4.3.1 密度聚类方法的定义  54-55
    4.3.2 DBSCAN算法的不足  55-56
    4.3.3 改进的快速密度聚类算法  56-57
    4.3.4 参考点数据结构  57
    4.3.5 寻找参考点  57-59
    4.3.6 提取边缘点  59
    4.3.7 算法初始参数的设定  59-61
    4.3.8 算法时空复杂度分析  61-62
5 文本分类系统的设计与实现  62-83
  5.1 系统结构  62-63
  5.2 系统功能  63-75
  5.3 实验结果与分析  75-83
6 结束语  83-84
参考文献  84-88
附录 A  88-89
索引  89-90
作者简历  90-92
学位论文数据集  92

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  4. 音乐结构自动分析研究,TN912.3
  5. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  6. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  7. 基于仿生模式识别的文本分类技术研究,TP391.1
  8. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  9. 基于图像的路面破损识别,TP391.41
  10. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  11. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  12. 结合蚁群算法与基于划分的DBSCAN聚类算法的研究,TP311.13
  13. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  14. 遗传算法的若干改进及其在支持向量机中的应用研究,TP18
  15. 面向三网融合的故障管理系统的研究及实现,TP315
  16. 数字通信信号调制识别研究,TN914.3
  17. P2P流量识别系统的设计与研究,TP393.02
  18. 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
  19. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  20. 基于样本学习的有限元网格模型优化研究,TB114
  21. 基于支持向量机的规则零件机器视觉检测技术研究,TP274

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com