学位论文 > 优秀研究生学位论文题录展示
一种基于特征选择的层次化文本分类算法
作 者: 史良
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 文本分类 层次结构 rrHTC 不均衡数据集 SVM-KNN算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-13 1.1 研究背景及意义 9-10 1.2 国内外研究现状与热点 10-11 1.3 论文主要研究内容 11-12 1.4 论文组织结构 12-13 第2章 相关理论与技术 13-28 2.1 层次化文本分类描述 13-18 2.1.1 文本分类的定义和过程 13-15 2.1.2 文本分类过程的难点 15-16 2.1.3 层次化文本分类的定义和方法 16-18 2.2 特征选择算法 18-23 2.2.1 特征选择的概述 18-20 2.2.2 特征选择的方法及分析 20-22 2.2.3 层次化特征选择算法 22-23 2.3 SVM 理论 23-27 2.3.1 SVM 简介及描述 23-26 2.3.2 KNN 算法的描述 26 2.3.3 SVM-KNN 算法的描述 26-27 2.4 本章小结 27-28 第3章 基于特征选择的层次化文本分类 28-44 3.1 文本的相关度和冗余度的描述及定义 28-32 3.1.1 互信息描述 28-29 3.1.2 层次文本相关度描述 29-30 3.1.3 层次文本冗余度描述 30-32 3.2 特征选择算法 rrHTC 描述及分析 32-38 3.2.1 问题的提出 32-33 3.2.2 层次化文本分类特征选择算法 rrHTC 33-38 3.3 SVM 算法改进及分析 38-43 3.3.1 SVM-KNN 算法改进 38-41 3.3.2 SVM-KNN 改进算法流程、实现及分析 41-43 3.4 本章小结 43-44 第4章 实验验证与结果分析 44-55 4.1 分类效果评价体系 44-46 4.1.1 影响分类系统性能的主要因素 44-45 4.1.2 分类性能评估方法 45 4.1.3 分类性能评估指标 45-46 4.2 实验环境及内容介绍 46-49 4.2.1 实验环境 46-47 4.2.2 数据集 47-48 4.2.3 实验内容及方案 48-49 4.3 实验验证及结果分析 49-54 4.3.1 rrHTC 特征选择算法验证及结果分析 49-51 4.3.2 改进的 SVM-KNN 算法验证及结果分析 51-54 4.4 本章小结 54-55 结论 55-56 参考文献 56-60 攻读硕士学位期间发表的论文和取得的科研成果 60-61 致谢 61
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 小型移动机器人系统平台的模块化设计与实现,TP242
- 基于DBUS的嵌入式系统应用程序接口的研究,TP368.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于Hadoop的文本分类研究,TP391.1
- 国网下属水力发电企业的发展战略研究,F426.61
- 森林资源信息层次对象数据模型的研究,P208
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 中文文本分类方法研究,TP391.1
- 石家庄市民营科技企业成长路径与核心竞争力评价研究,F276.44
- WEB文本自动分类的设计与实现,TP391.1
- 基于内容分析的专利挖掘技术研究,TP391.1
- 针对特征缺省数据集的模式识别方法与应用研究,TP391.4
- 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
- 基于Android的垃圾短信处理系统的研究与设计,TP391.1
- 奥巴马竞选2008年美国总统演讲言语行为探究,H313
- 基于产业结构优化的四川省高等教育结构调整研究,G649.2
- 1978年-2007年我国普通高等教育层次结构变化分析,G649.2
- 文本的特征提取及KNN分类优化问题研究,TP181
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|