学位论文 > 优秀研究生学位论文题录展示

基于支持向量机与聚类算法的中文文本分类研究

作　者: 吴惠雄
导　师: 谭骏珊
学　校: 中南林业科技大学
专　业: 计算机应用技术
关键词: 支持向量机中文文本分类聚类削减
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 91次
引　用: 0次
阅　读: 论文下载

内容摘要

随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们的普遍关注。文本自动分类是指由计算机自动判别文本类别的过程,文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点。支持向量机对于特征相关性和稀疏性不敏感,且在处理高维数问题时较其它方法具有较大优势,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题,目前应用支持向量进行文本分类主要存在着训练分类模型速度较慢等显著的缺陷。本文针对支持向量进行文本分类时存在着的训练分类模型速度较慢的缺陷,尝试对支持向量机的训练样本进行某种预处理,以便尽量克服支持向量机的此类缺陷,更好地应用于文本分类。已有的研究表明支持向量机的建立只取决于训练样本中的支持向量而与非支持向量无关,因此本文从降低文本分类过程中文本向量数目的角度出发,削减文本向量集中的非支持向量来加快训练支持向量机分类的速度。本文采用了一种基于密度概念的k-均值聚类算法,充分利用训练文本类别信息已知的条件,以两两聚类的方式在训练样本预处理阶段尽可能地削减训练样本中的非支持向量保留支持向量,使得最终参与训练支持向量机的样本数大大减少,从而生成了一个既具与传统的支持向量机分类方法分类精度相当,又在时间复杂度方面有较大改进的中文文本分类模型。同时本文对于k-均值聚类算法存在的某些缺陷进行了针对性的改进,通过对参与聚类的数据进行了规范化的处理,使参与聚类数据由无规则分布转变为团簇状分布,从而便于聚类处理,引入密度来确定聚类的初始中心,引入纯度度量来确定合适的聚类中心的密度半径,从而最终达到最有效削减支持向量机训练样本的目的。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-14
  1.1 问题的提出及意义  9-10
  1.2 研究现状及主要成果  10-11
  1.3 本文的主要研究内容  11-14
2 中文文本分类的相关技术  14-28
  2.1 汉语分词词典  15
  2.2 汉语分词  15-17
    2.2.1 正向最大匹配分词  16
    2.2.2 反向最大匹配分词  16
    2.2.3 基于统计的词网格分词  16-17
  2.3 文档表示模型  17-20
    2.3.1 文档特征  17-18
    2.3.2 文档表示  18-19
    2.3.3 常用的特征词赋权方法  19-20
  2.4 特征降维  20-25
    2.4.1 特征词选择  21-23
    2.4.2 特征词析取  23-25
  2.5 常用的文本分类方法  25-28
    2.5.1 Rocchio方法——相似度计算方法  25
    2.5.2 K近邻方法  25-26
    2.5.3 贝叶斯方法  26-27
    2.5.4 支持向量机方法  27-28
3 统计学习理论与支持向量机  28-40
  3.1 机器学习的基本问题  28-30
    3.1.1 机器学习问题的表示  28-29
    3.1.2 经验风险最小化  29
    3.1.3 复杂性与推广能力  29-30
  3.2 统计学习理论的核心内容  30-32
    3.2.1 VC维定义  30
    3.2.2 推广性的界  30-31
    3.2.3 结构风险最小化  31-32
  3.3 支持向量机  32-37
    3.3.1 最优分类超平面  32-33
    3.3.2 线性支持向量机  33-36
    3.3.3 非线性支持向量机  36-37
  3.4 用于多类分类的支持向量机  37-40
    3.4.1 一类对余类分类方法  37-38
    3.4.2 成对分类  38-40
4 聚类算法在支持向量机中的应用  40-52
  4.1 聚类算法的概念与分类  40-42
    4.1.1 聚类的概念  40-41
    4.1.2 常用的聚类算法  41-42
  4.2 传统的K-均值聚类算法与基于密度概念的K-均值聚类算法  42-45
    4.2.1 传统K-均值算法  42-43
    4.2.2 基于密度概念的K-均值算法  43-45
  4.3 聚类算法在支持向量选取中的应用  45-52
    4.3.1 文本向量的规范化处理  46-47
    4.3.2 基于类别信息的两两聚类的支持向量预选取  47-52
5 实验及结果分析  52-61
  5.1 文本分类器常用性能评价指标介绍  52-53
    5.1.1 查准率、查全率和F_1值  52
    5.1.2 微平均和宏平均  52-53
  5.2 实验分析  53-61
    5.2.1 中文文本语料预处理  54-56
    5.2.2 文本分类的实现  56-61
结论  61-63
参考文献  63-69
攻读学位期间的主要学术成果  69-70
致谢  70

相似论文

基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
音乐结构自动分析研究,TN912.3
基于三维重建的焊点质量分类方法研究,TP391.41
胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
直推式支持向量机研究及其在图像检索中的应用,TP391.41
隐式用户兴趣挖掘的研究与实现,TP311.13
图像分割中阴影去除算法的研究,TP391.41
基于图分割的文本提取方法研究,TP391.41
基于SVM的中医舌色苔色分类方法研究,TP391.41
基于图像的路面破损识别,TP391.41
基于支持向量机的故障诊断方法研究,TP18
过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
高血压前期证候特征研究,R259
高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
K-均值聚类算法的研究与改进,TP311.13
大学生综合素质测评研究,G645.5
大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2