学位论文 > 优秀研究生学位论文题录展示
基于改进哈希算法的快速KNN文本分类方法
作 者: 夏青松
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 文本分类 KNN 特征加权 词性标注 提示词
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 112次
引 用: 0次
阅 读: 论文下载
内容摘要
网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-16 1.1 研究背景 8-9 1.2 研究现状 9-10 1.3 分类结果的评估 10-13 1.4 基准测试数据集 13-14 1.5 本文主要研究内容 14-15 1.6 本文的组织 15-16 第二章 文本预处理 16-30 2.1 引言 16 2.2 分词 16-17 2.3 词性标注 17-18 2.4 词干抽取 18 2.5 去停用词 18-19 2.6 特征选择 19-24 2.7 本文选用的特征选取算法 24-26 2.8 特征加权 26-27 2.9 向量空间模型 27-29 2.10 本章小结 29-30 第三章 常见的文本分类算法 30-42 3.1 引言 30-31 3.2 决策树归纳文本分类法 31-33 3.2.1 方法描述 31-32 3.2.2 决策树的剪枝过程 32-33 3.2.3 可伸缩性 33 3.3 贝叶斯文本分类法 33-35 3.3.1 朴素贝叶斯文本分类方法 33-35 3.3.2 贝叶斯信念网络文本分类方法 35 3.4 基于SVM的文本分类方法 35-36 3.4.1 数据线性划分的情况 35-36 3.4.2 数据线性不可划分的情况 36 3.5 神经网络文本分类方法 36-37 3.6 KNN文本分类方法 37-42 3.6.1 传统的KNN文本分类方法 37-38 3.6.2 国内外改进的KNN文本分类方法 38-42 第四章 本文改进的KNN方法 42-52 4.1 引言 42 4.2 二次分词 42 4.3 特征降维 42-43 4.4 特征加权 43-47 4.5 文本距离计算的方法 47-49 4.6 近邻文本的搜索策略 49-52 第五章 实验与结果分析 52-55 第六章 总结与展望 55-57 参考文献 57-60 致谢 60-61 在学期间发表论文和参加科研情况 61
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于粗糙集理论的文本分类研究,TP18
- 近红外光谱技术对于掺假原奶判别的可行性研究,TS252.7
- 基于特征加权连续隐马尔可夫模型的故障诊断方法研究,TH165.3
- 基于支持向量机的MR图像颅内组织识别的研究,R310
- 基于CT影像的肺裂计算机辅助检测方法研究,TP391.41
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于语义分析的文本挖掘研究,TP391.1
- 新闻网页中人物实体关系提取技术研究,TP393.092
- 中文文本分类算法研究,TP391.1
- 贝叶斯网络与基于特征加权的聚类研究,TP311.13
- 基于语素的汉语词法分析方法研究,TP391.1
- 基于子空间的人脸识别算法研究,TP391.41
- 大型数据集中离群数据挖掘算法研究及应用,TP311.13
- 有监督的模糊聚类算法研究,TP18
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 基于内容的垃圾邮件过滤技术的研究,TP393.098
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|