学位论文 > 优秀研究生学位论文题录展示

基于支持向量机的文本自动分类器的研究与应用

作 者: 黄瑜青
导 师: 王勇
学 校: 广东工业大学
专 业: 计算机技术
关键词: 文本自动分类 支持向量机 特征选择 核函数 分类器
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本自动分类是指根据文本分类体系,通过对文本进行挖掘与分析,自动地决策文本归属类别的过程。随着数字信息量的迅速增长,越来越多的领域需要应用到文本自动分类技术,如数字图书馆、电子会议、信息检索与过滤、文本分类等,如何构建有效的文本自动分类器是机器学习领域的一个研究热点。支持向量机是基于统计学习理论的结构风险最小化原理和VC维理论基础上发展起来的一种机器学习方法,通过转化为二次规划问题求得一个全局最优解,能够有效解决小样本、非线性及高维模式识别的问题,有效克服了“维数灾难”问题,具有很好的学习能力和泛化能力。文本分类具有样本向量稀疏、维数高,训练集越大,存在的“噪音”样本相对越多,一般不能在低维特征空间中线性可分的特点,本文提出将支持向量机与文本自动分类器相结合,以解决文本自动分类中维数庞大、线性不可分和分类性能不高的问题。本文在研究了文本分类技术和支持向量机算法的基础上,根据文本分类过程,首先对输入文本进行分词,去掉文本中的无用词条,然后统计词条在文本集中的相关数据,利用卡方统计量方法进行特征选择,TF-IDF方法计算特征项的权重,再根据文本的特征项和权重数据,把文本表示成向量模型,最后,结合不同核函数的优势和特点,选择具有强大内推能力和局部性强的Gauss核函数,设定参数σ为0.4,C为100,在特征向量空间中利用支持向量机算法求解训练样本的分类函数,得到文本的分类模型。同时,本文构建了一种SVM分类器的优化训练方法:根据训练集文本与测试集文本之间的互补性,通过召回训练集的支持向量样本及测试集中被错分的文本,组成-个被学习能力和泛化能力相对更强的训练集对SVM分类器进行再训练,通过实验表明该方法提高了文本分类的查全率和查准率,验证了该方法有一定的可行性及实践意义。本文在算法研究的基础上开发了一个支持向量机的文本自动分类器原型,并从搜狗的文本分类语料库上采集的语料集,组成了实验文本集。通过实验测试和分析比较,取得了较高的查全率和查准率,验证了算法设计的有效性。

全文目录


摘要  4-5
ABSTRACT  5-7
目录  7-9
CONTENTS  9-11
第一章 绪论  11-15
  1.1 研究背景与意义  11-12
  1.2 国内外研究现状  12-14
  1.3 论文研究内容和架构  14-15
第二章 基础理论  15-30
  2.1 文本自动分类  15-22
    2.1.1 文本预处理  15-17
    2.1.2 文本特征选择  17-19
    2.1.3 特征加权方法  19-21
    2.1.4 文本表示  21-22
    2.1.5 分类算法  22
  2.2 支持向量机  22-30
    2.2.1 支持向量机基本原理  22-23
    2.2.2 线性可分支持向量机  23-24
    2.2.3 线性不可分支持向量机  24-29
    2.2.4 多类支持向量机  29-30
第三章 总体设计  30-35
  3.1 支持向量机与文本分类的结合  30-31
  3.2 分类器模型  31-32
  3.3 软件结构  32-33
  3.4 评价指标  33-35
第四章 文本自动分类器的构建  35-50
  4.1 文本分词  35-37
  4.2 特征选择  37-39
  4.3 权重计算  39-40
  4.4 向量表示文本  40-42
  4.5 SVM分类器构造  42-45
    4.5.1 核函数及参数设置  42-43
    4.5.2 SVM分类器学习算法  43-44
    4.5.3 构造多类SVM分类器  44-45
  4.6 SVM分类器的优化训练算法  45-48
  4.7 文本分类器输出  48-50
第五章 实验与结果分析  50-53
  5.1 实验文本集选择  50
  5.2 分类器性能测试  50-51
  5.3 训练SVM分类器的优化方法实验  51-53
总结与展望  53-55
参考文献  55-58
攻读学位期间发表的论文  58-60
致谢  60

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 地波辐射源的调制类型识别与参数估计,TN957.51
  5. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  6. 音乐结构自动分析研究,TN912.3
  7. 基于三维重建的焊点质量分类方法研究,TP391.41
  8. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  9. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  10. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  11. 基于仿生模式识别的文本分类技术研究,TP391.1
  12. 唇读中的特征提取、选择与融合,TP391.41
  13. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  14. 基于图像的路面破损识别,TP391.41
  15. 基于支持向量机的故障诊断方法研究,TP18
  16. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  17. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  18. 语音情感识别的特征选择与特征产生,TP18
  19. 基于车载3D加速传感器的路况监测研究,TP274
  20. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  21. 不匹配信道下耳语音说话人识别研究,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com