学位论文 > 优秀研究生学位论文题录展示

基于改进哈希算法的快速KNN文本分类方法

作 者: 夏青松
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 文本分类 KNN 特征加权 词性标注 提示词
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 112次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-16
  1.1 研究背景  8-9
  1.2 研究现状  9-10
  1.3 分类结果的评估  10-13
  1.4 基准测试数据集  13-14
  1.5 本文主要研究内容  14-15
  1.6 本文的组织  15-16
第二章 文本预处理  16-30
  2.1 引言  16
  2.2 分词  16-17
  2.3 词性标注  17-18
  2.4 词干抽取  18
  2.5 去停用词  18-19
  2.6 特征选择  19-24
  2.7 本文选用的特征选取算法  24-26
  2.8 特征加权  26-27
  2.9 向量空间模型  27-29
  2.10 本章小结  29-30
第三章 常见的文本分类算法  30-42
  3.1 引言  30-31
  3.2 决策树归纳文本分类法  31-33
    3.2.1 方法描述  31-32
    3.2.2 决策树的剪枝过程  32-33
    3.2.3 可伸缩性  33
  3.3 贝叶斯文本分类法  33-35
    3.3.1 朴素贝叶斯文本分类方法  33-35
    3.3.2 贝叶斯信念网络文本分类方法  35
  3.4 基于SVM的文本分类方法  35-36
    3.4.1 数据线性划分的情况  35-36
    3.4.2 数据线性不可划分的情况  36
  3.5 神经网络文本分类方法  36-37
  3.6 KNN文本分类方法  37-42
    3.6.1 传统的KNN文本分类方法  37-38
    3.6.2 国内外改进的KNN文本分类方法  38-42
第四章 本文改进的KNN方法  42-52
  4.1 引言  42
  4.2 二次分词  42
  4.3 特征降维  42-43
  4.4 特征加权  43-47
  4.5 文本距离计算的方法  47-49
  4.6 近邻文本的搜索策略  49-52
第五章 实验与结果分析  52-55
第六章 总结与展望  55-57
参考文献  57-60
致谢  60-61
在学期间发表论文和参加科研情况  61

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于本体的食品投诉文档文本分类研究,TP391.1
  4. 基于粗糙集理论的文本分类研究,TP18
  5. 近红外光谱技术对于掺假原奶判别的可行性研究,TS252.7
  6. 基于特征加权连续隐马尔可夫模型的故障诊断方法研究,TH165.3
  7. 基于支持向量机的MR图像颅内组织识别的研究,R310
  8. 基于CT影像的肺裂计算机辅助检测方法研究,TP391.41
  9. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  10. 基于本体的医学命名实体识别技术研究,TP391.1
  11. 基于语义分析的文本挖掘研究,TP391.1
  12. 新闻网页中人物实体关系提取技术研究,TP393.092
  13. 中文文本分类算法研究,TP391.1
  14. 贝叶斯网络与基于特征加权的聚类研究,TP311.13
  15. 基于语素的汉语词法分析方法研究,TP391.1
  16. 基于子空间的人脸识别算法研究,TP391.41
  17. 大型数据集中离群数据挖掘算法研究及应用,TP311.13
  18. 有监督的模糊聚类算法研究,TP18
  19. 基于概念集合的网页内容过滤方法的研究,TP393.092
  20. 基于内容的垃圾邮件过滤技术的研究,TP393.098
  21. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com