学位论文 > 优秀研究生学位论文题录展示

基于特征聚类的文本分类算法研究

作 者: 赵娟娟
导 师: 张平健
学 校: 华南理工大学
专 业: 计算机软件与理论
关键词: 文本分类 特征选择 词共现矩阵 中文分词 聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


Internet容纳的原始信息类型繁多、数量巨大,如何在浩若烟海的数据中快速准确的找到用户需要的信息是信息处理的一大目标。文本分类是一个有效的解决办法,它能够处理大量的文本,可以有效的解决信息紊乱的现状。如何从高维的特征空间中选取对文本分类最有效的特征是目前文本分类面临的主要问题之一,由于文本数据具有半结构化甚至于无结构化的特点,特征向量能达到几万维甚至于几十万维,如此高维的特征集不仅导致分类算法的代价过高,而且导致提取文档的类别信息不准确,造成分类效果不佳。因此,特征集的降维操作是提高文本分类精度和效率的关键,是文本分类过程中重要环节和目前重点研究的技术之一。特征选择是从高维的文本特征空间中把与学习目标无关的特征、噪声特征和冗余特征去除,达到降维的目的。有效的特征选择方法不仅能够降低文本特征空间的维数,提高文本分类的效率,而且能够通过去除文本分类的无关特征,提高文本分类的分类精度和分类效果,本文以特征选择为研究内容,提出了一种基于特征聚类的特征选择的方法,主要思想是考虑了词之间的语义关联关系,通过特征聚类的方法把特征项降到一百多维甚至几十维。具体步骤是:利用中文分词技术,对文档进行分词,去除停用词和低信息量的词后,统计词在文档集中的分布,构造词共现矩阵,再采用聚类方法对文本特征空间进行降维,为了验证本文提出的基于特征聚类的特征选择方法的有效性和可行性,分别采用基于特征聚类的特征选择方法和传统的文档频率特征选择方法,对搜狗语料库和网易语料库,用NavieBayes和SVM两种算法进行对比实验,并对实验结果所得的各项性能指标查全率、查准率、F1值进行了对比分析,实验结果表明,本文提出的基于特征聚类的特征选择方法在各项性能指标上比传统的文档频率的特征选择方法都高,可以得出结论,本文提出的特征选择方法不但极大地降低了特征空间的维度,提高了分类效率,而且分类的效果也得到了进一步改善,是有效和可行的。

全文目录


摘要  5-6
Abstract  6-10
第一章 绪论  10-14
  1.1 课题的研究背景及意义  10
  1.2 国内外研究现状  10-12
  1.3 本文的主要内容  12-13
  1.4 本文的组织与结构  13-14
第二章 文本分类概述  14-29
  2.1 文本分类的相关概念  14-16
    2.1.1 文本分类的定义  14
    2.1.2 文本分类的一般过程  14-16
  2.2 文本分类相关技术  16-25
    2.2.1 中文分词方法  16-18
    2.2.2 特征选择技术  18-21
    2.2.3 文本分类方法  21-25
  2.3 文本分类的评价指标  25-28
    2.3.1 查全率与查准率  26
    2.3.2 宏平均与微平均  26-27
    2.3.3 Fβ测量值  27-28
  2.4 本章小结  28-29
第三章 文本聚类算法  29-36
  3.1 聚类的基本概念  29-30
  3.2 主要聚类算法的分类  30-32
  3.3 常用的聚类算法  32-34
  3.4 本章小结  34-36
第四章 基于特征聚类的文本预处理  36-48
  4.1 中文分词模块  36-39
  4.2 词共现矩阵构造模块  39-42
  4.3 特征聚类模块  42-45
  4.4 扩展TF-IDF模块  45-47
  4.5 本章小结  47-48
第五章 基于特征聚类的文本分类实验  48-58
  5.1 基于特征聚类的文本分类系统  48
  5.2 实验数据  48-49
    5.2.1 搜狗语料库  48-49
    5.2.2 网易语料库  49
  5.3 实验结果与分析  49-57
  5.4 本章小结  57-58
结论与展望  58-60
  一、结论  58
  二、展望  58-60
参考文献  60-63
攻读硕士学位期间取得的研究成果  63-64
致谢  64

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 图像分割中阴影去除算法的研究,TP391.41
  5. 唇读中的特征提取、选择与融合,TP391.41
  6. 基于图分割的文本提取方法研究,TP391.41
  7. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  8. 高血压前期证候特征研究,R259
  9. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  10. K-均值聚类算法的研究与改进,TP311.13
  11. 大学生综合素质测评研究,G645.5
  12. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  13. 21个荷花品种遗传多样性的ISSR分析,S682.32
  14. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  15. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  16. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  17. 南通市农业面源污染负荷研究与综合评价,X592
  18. 土壤环境功能区划研究,X321
  19. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  20. 大豆杂种优势及其遗传基础研究,S565.1
  21. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com