学位论文 > 优秀研究生学位论文题录展示

基于改进KNN的文本分类算法的设计与实现

作　者: 杜尔斌
导　师: 李翔
学　校: 上海交通大学
专　业: 通信与信息系统
关键词: 文本分类 KNN算法权重分配
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 243次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网上信息量的爆炸式增长,电子文本信息也随之大量增加。如何有效地管理电子文本信息也成为了当今信息科学技术日益重要的一大课题。而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。目前比较常用的文本分类技术主要有:向量空间模型(VSM)、K个最近邻法(KNN)、神经网络(NNet)、支持向量机(SVMs)和贝叶斯算法(Bayes)等。而KNN算法是一种简单,但是非常有效的文本分类算法,有着广泛的应用。论文首先介绍文本分类技术的历史与现状,然后详细介绍了KNN算法作为一种非常简单有效的文本分类算法,在文本分类技术中的广泛运用。传统KNN算法往往运用非监督的权重分配方法对特征项的特征项分配权重,一定程度上影响了距离测度计算的精确性。文章针对传统权重分配算法的不足,采取x 2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。随后,论文针对传统KNN算法计算量过大的缺点,引入了生成代表样本集的方法,对原始训练集进行裁剪并予以取代,从而减少了分类系统的计算量,有效地提高了系统的效率。最后,论文采用了Reuters-21578文档集作为训练集和测试集,分别应用了传统的非监督权重分配方法(布尔权重,TF-IDF),以及改进的监督权重分配方法(x 2统计量方法和信息增益)进行KNN分类算法精确度的比较,验证了监督权重分配方法对于提高文本分类算法精确度的作用。另外,还对基于传统KNN算法的分类器与基于改进的使用代表样本集方法的KNN算法分类器进行比较,证明了代表样本集方法有效地提高了分类器的效率。

全文目录

摘要  5-7
ABSTRACT  7-11
第一章绪论  11-17
  1.1 研究背景和意义  11-12
  1.2 研究现状  12-15
    1.2.1 国外研究现状  12-13
    1.2.2 国内研究现状  13-14
    1.2.3 当前研究重点  14-15
  1.3 本文研究内容  15-17
第二章文本分类技术概述  17-32
  2.1 文本分类的基本概念  17
  2.2 文本分类的发展过程  17-18
  2.3 文本分类的一般过程  18-30
    2.3.1 文本预处理  19-23
    2.3.2 文本表示  23-25
    2.3.3 特征提取  25-27
    2.3.4 权重分配  27
    2.3.5 分类算法  27-30
  2.4 评价文本分类系统的方法  30-31
  2.5 本章小结  31-32
第三章对传统权重分配算法的改进  32-38
  3.1 引言  32
  3.2 传统的非监督的权重分配算法  32-35
    3.2.1 布尔权重(Boolean Weighting)  33
    3.2.2 TF-IDF 权重(TF-IDF Weighting)  33-35
  3.3 监督的权重分配方法  35
    3.3.1 x~2 统计量方法(CHI-Square)  35
    3.3.2 信息增益(Information Gain)  35
  3.4 监督权重分配的应用  35-36
  3.5 监督权重分配与KNN 算法的结合  36-37
  3.6 本章小结  37-38
第四章改进的KNN 算法与实现  38-50
  4.1 KNN 分类算法  38-39
  4.2 KNN 分类算法的优缺点  39-40
  4.3 本文提出的改进的KNN 分类算法  40-48
    4.3.1 代表样本的概念  40-42
    4.3.2 改进的代表样本生成策略  42-45
    4.3.3 改进的算法  45-47
    4.3.4 改进的KNN 算法流程  47-48
  4.4 本章小结  48-50
第五章实验测试及结果分析  50-58
  5.1 实验的训练集和测试集  50
  5.2 系统实验各模块功能与设计  50-52
    5.2.1 训练模块设计及功能  50-51
    5.2.2 分类模块设计及功能  51-52
  5.3 算法评估方法  52-54
  5.4 实验结果  54-57
  5.5 本章小结  57-58
第六章全文总结与展望  58-60
  6.1 主要工作与结论  58-59
  6.2 未来研究展望  59-60
参考文献  60-62
致谢  62-63
攻读硕士学位期间已录用的论文  63

相似论文

基于仿生模式识别的文本分类技术研究,TP391.1
互联网上旅游评论的情感分析及其有用性研究,TP391.1
基于数据分布特征的文本分类研究,TP391.1
面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
基于树型条件随场的特定域事件提取方法研究,TP391.1
网络教育新闻文本分类系统的设计与实现,TP391.1
一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
跨语言文本分类的研究,TP391.1
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
基于语义分析的文本挖掘研究,TP391.1
网络舆情分析关键技术研究与实现,TP393.09
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于关联技术的中文文本分类研究,TP391.1
软件缺陷自动分派研究,TP311.52
基于决策树分类算法的Web文本分类研究,TP391.1
结合本体HowNet的中文文本分类研究,TP391.1
基于集成学习的垃圾短信多级分类技术研究,TN929.53
基于NMF垃圾邮件过滤系统研究,TP393.098
互联网新闻热点挖掘系统的研究与实现,TP393.09
面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1