学位论文 > 优秀研究生学位论文题录展示

基于类核心词的文本分类技术研究

作 者: 张国萍
导 师: 任克强
学 校: 江西理工大学
专 业: 计算机应用技术
关键词: 文本分类 特征降维 信息增益 相对文档频 类核心词
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 61次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究,介绍了文本分类的总体结构和各个组成部分,重点研究了特征降维方法和文本分类算法。本文主要做了以下两方面的工作:⑴由于文本集中都存在着样本不均衡问题,使得某些大类中含有的文本数多,而有些小类中含有的文本数少,这样在特征选择时就容易选取大类中的特征。为了消除不同类别之间语料规模对文本分类的影响,针对信息增益中特征出现与否对信息熵的不平衡问题给予了改进,本文提出了一种基于相对文档频的平衡信息增益(Relative Document Frequency Balance Information Gain :RDFBIG)降维方法。实验结果表明,RDFBIG在某些分类界限不太明确的类以及文档规模较大的类中取得了较好的分类效果,并使整体的分类性能有所提高。⑵现在一般用向量空间模型来表示文本,但向量空间模型的高维特征空间、稀疏文档向量以及高度的冗余性,使得基于向量空间模型分类算法的效率不太理想。本文提出了一种基于类核心词的文本分类算法(the Text Categorization Algorithm based on Class Kernel Word:CKW),它不用向量空间模型表示文本,只计算各个类别的类核心词以及它们在类中的权重。先用RDFBIG方法计算特征的分类信息量,再通过计算各个特征在类中相对文档频,利用两者来计算特征在类别中的权重。对于待分类的文本,计算文本中含有的类中核心词的比重,把文本归类到比重最高的类中。实验结果表明,此分类算法具有较好的分类效果,较高的分类效率。

全文目录


摘要  2-3
ABSTRACT  3-6
第一章 绪论  6-11
  1.1 研究背景及意义  6-7
  1.2 自动文本分类的典型应用  7-8
  1.3 文本分类的研究状况  8-9
  1.4 本文研究的主要内容  9-10
  1.5 本文结构  10-11
第二章 文本分类概述  11-24
  2.1 文本分类定义  11
  2.2 文本分类系统的组成  11-12
  2.3 文本预处理  12-16
    2.3.1 去除文档中的格式标记  13
    2.3.2 过滤非法字符  13
    2.3.3 去除停用词和稀有词  13
    2.3.4 中文分词处理  13-16
  2.4 文本表示  16-19
  2.5 特征降维  19-20
  2.6 文本分类模式  20-21
  2.7 文本分类的评价标准  21-23
    2.7.1 文本分类效果的影响因素  21-22
    2.7.2 文本分类的评价指标  22-23
  2.8 本章小结  23-24
第三章 特征降维技术  24-35
  3.1 特征选择  25-30
    3.1.1 特征频度  25
    3.1.2 文档频率  25-26
    3.1.3 特征熵  26
    3.1.4 互信息  26-27
    3.1.5 信息增益  27-28
    3.1.6 期望交叉熵  28
    3.1.7 X~2统计量  28-29
    3.1.8 相关系数  29
    3.1.9 文本证据权  29-30
    3.1.10 几率比  30
  3.2 特征抽取  30-34
    3.2.1 主成分分析  30-31
    3.2.2 潜在语义索引  31-33
    3.2.3 非负矩阵分解  33-34
  3.3 本章小结  34-35
第四章 文本分类算法  35-41
  4.1 Rocchio 分类算法  35-36
  4.2 KNN 分类算法  36-37
  4.3 朴素贝叶斯分类算法  37-38
  4.4 支持向量机  38-40
  4.5 本章小结  40-41
第五章 基于相对文档频的平衡信息增益降维方法  41-52
  5.1 信息增益降维方法分析  41-42
  5.2 相对文档频平衡信息增益  42-44
    5.2.1 相对文档频  42-43
    5.2.2 平衡因子  43-44
  5.3 实验及结果分析  44-51
    5.3.1 实验数据  44
    5.3.2 实验环境及步骤  44-45
    5.3.3 实验结果及分析  45-51
  5.4 本章小结  51-52
第六章 基于类核心词的文本分类算法  52-58
  6.1 类核心词  52-53
  6.2 基于类核心词的文本分类  53-54
  6.3 实验及结果分析  54-57
  6.4 本章小结  57-58
第七章 总结与展望  58-59
参考文献  59-62
致谢  62-63
附录A 文本分类实验平台使用说明  63-74
作者简介及发表的学术论文  74

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  5. 基于改进遗传算法的神经网络输入约简,TP18
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 网络教育新闻文本分类系统的设计与实现,TP391.1
  8. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  9. 跨语言文本分类的研究,TP391.1
  10. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  11. 基于语义分析的文本挖掘研究,TP391.1
  12. 基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098
  13. 网络舆情分析关键技术研究与实现,TP393.09
  14. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  15. 基于关联技术的中文文本分类研究,TP391.1
  16. 软件缺陷自动分派研究,TP311.52
  17. 基于决策树分类算法的Web文本分类研究,TP391.1
  18. 结合本体HowNet的中文文本分类研究,TP391.1
  19. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  20. 膜蛋白分类的特征提取算法和数据集构建技术研究,Q51
  21. 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com