学位论文 > 优秀研究生学位论文题录展示

基于改进哈希算法的快速KNN文本分类方法

作　者: 夏青松
导　师: 郑诚
学　校: 安徽大学
专　业: 计算机软件与理论
关键词: 文本分类 KNN 特征加权词性标注提示词
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 112次
引　用: 0次
阅　读: 论文下载

内容摘要

网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈：需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-16
  1.1 研究背景  8-9
  1.2 研究现状  9-10
  1.3 分类结果的评估  10-13
  1.4 基准测试数据集  13-14
  1.5 本文主要研究内容  14-15
  1.6 本文的组织  15-16
第二章文本预处理  16-30
  2.1 引言  16
  2.2 分词  16-17
  2.3 词性标注  17-18
  2.4 词干抽取  18
  2.5 去停用词  18-19
  2.6 特征选择  19-24
  2.7 本文选用的特征选取算法  24-26
  2.8 特征加权  26-27
  2.9 向量空间模型  27-29
  2.10 本章小结  29-30
第三章常见的文本分类算法  30-42
  3.1 引言  30-31
  3.2 决策树归纳文本分类法  31-33
    3.2.1 方法描述  31-32
    3.2.2 决策树的剪枝过程  32-33
    3.2.3 可伸缩性  33
  3.3 贝叶斯文本分类法  33-35
    3.3.1 朴素贝叶斯文本分类方法  33-35
    3.3.2 贝叶斯信念网络文本分类方法  35
  3.4 基于SVM的文本分类方法  35-36
    3.4.1 数据线性划分的情况  35-36
    3.4.2 数据线性不可划分的情况  36
  3.5 神经网络文本分类方法  36-37
  3.6 KNN文本分类方法  37-42
    3.6.1 传统的KNN文本分类方法  37-38
    3.6.2 国内外改进的KNN文本分类方法  38-42
第四章本文改进的KNN方法  42-52
  4.1 引言  42
  4.2 二次分词  42
  4.3 特征降维  42-43
  4.4 特征加权  43-47
  4.5 文本距离计算的方法  47-49
  4.6 近邻文本的搜索策略  49-52
第五章实验与结果分析  52-55
第六章总结与展望  55-57
参考文献  57-60
致谢  60-61
在学期间发表论文和参加科研情况  61

基于改进哈希算法的快速KNN文本分类方法

内容摘要

全文目录

相似论文