学位论文 > 优秀研究生学位论文题录展示
基于综合比率因子的互信息特征选择方法的改进
作 者: 路凯
导 师: 陈利
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 文本分类 特征选择 互信息 综合比率因子 语义信息
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
文本分类现阶段仍是信息处理领域中一个开放的、重要的研究方向,并得到了普遍广泛地应用。文本分类中包括许多环节,其中包括有:文本预处理,特征选择,文本空间向量模型的表示,文本分类器的训练,文本分类等。其中,特征选择是文本分类中最重要的阶段之一,能否利用特征选择挑选出适合的特征词对文本分类的效果有着重要的影响。本文主要针对互信息特征选择方法存在的不足,提出了改进互信息特征选择方法的思路和方法。论文的主要研究工作如下。1.首先本文对文本分类进行了介绍,并对文本分类各个阶段以及相关技术进行了论述和研究,并重点对互信息特征选择方法进行了研究,描述了传统互信息方法的一些不足之处,并针对不足之处提出了相应的改进思想。2.针对互信息特征选择方法只考虑了词语在文本集中出现的文档频率,而没有考虑到特征的词频信息以及与文本类别之间的相关性的问题,提出了引入综合比率因子的改进思想,将特征的词频以及与类别之间的相关性等重要信息考虑进去;并用平衡因子处理正负相关问题,调整正相关和负相关特征的比例,考虑负相关特征的作用。通过实验证明改进的互信息特征选择方法在一定程度上提高了分类的准确率。3.针对互信息特征选择方法中没有考虑特征项本身的语义信息的问题,提出利用《知网》(HowNet)中的中英双语知识词典构建“概念-领域”表,对每个词进行查询,如果在表中就把该词映射到“领域”,否则保留原词。这样不仅可以将低层次概念转化为高层概念,还能在一定程度上消除特征冗余,并从语义上加强了特征对所在领域的分类贡献度。结果表明结合语义改进的互信息特征选择方法可以在一定程度上有效地提高准确率。
|
全文目录
中文摘要 5-6 Abstract 6-11 第一章 绪论 11-15 1.1 课题研究背景与意义 11-12 1.1.1 研究背景 11 1.1.2 研究意义 11-12 1.2 国内外研究现状 12-13 1.3 研究内容以及主要工作 13-14 1.4 论文的组织结构 14-15 第二章 文本分类技术的概述 15-26 2.1 文本分类的介绍 15-16 2.2 文本预处理 16 2.2.1 中文分词 16 2.2.2 去停用词 16 2.3 文本的特征选择 16-19 2.3.1 文档频率特征选择 17 2.3.2 信息增益特征选择 17-18 2.3.3 卡平方特征选择 18-19 2.3.4 互信息特征选择 19 2.4 文本的表示模型 19-20 2.5 文本分类算法 20-23 2.5.1 朴素贝叶斯算法 21 2.5.2 支持向量机算法 21-22 2.5.3 K近邻算法 22-23 2.6 分类评估指标 23-25 2.6.1 准确率和召回率 23 2.6.2 F值 23-24 2.6.3 微平均和宏平均 24-25 2.7 本章小结 25-26 第三章 基于综合比率因子的改进 26-42 3.1 互信息特征选择方法 26-29 3.1.1 传统互信息方法的介绍 26-27 3.1.2 传统互信息方法存在的不足 27-29 3.2 强信息特征的标准 29 3.3 互信息改进的设计 29-33 3.3.1 类内平均词频信息 30-31 3.3.2 类内分散度信息 31-32 3.3.3 正负特征的比例 32-33 3.4 基于综合比例因子的改进 33-34 3.5 实验结果与分析 34-41 3.5.1 实验准备 34-35 3.5.2 平衡因子的α的选取 35-36 3.5.3 KNN算法中k值的确定 36-39 3.5.4 实验结果与对比分析 39-40 3.5.5 时间复杂度分析 40-41 3.6 本章小结 41-42 第四章 结合语义的改进 42-50 4.1 语义信息的分析 42-43 4.2 结合语义的互信息 43-47 4.2.1 《知网》的简介 43-44 4.2.2 构建“概念-领域”表 44-45 4.2.3 结合语义信息的改进 45-46 4.2.4 词与向量空间的映射 46-47 4.3 实验及结果分析 47-49 4.4 本章小结 49-50 第五章 总结与展望 50-52 5.1 全文总结 50 5.2 研究展望 50-52 参考文献 52-55 在校期间发表的论文、科研成果 55-56 致谢 56
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 基于数据分布特征的文本分类研究,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的中文科技论文分类研究,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 基于多特征和人工免疫优化算法的医学图像配准方法研究,TP391.41
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 《言不尽意的修辞学阐释》,H05
- 基于粗糙集理论的文本分类研究,TP18
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 滚动轴承故障诊断中的特征提取与选择方法,TH165.3
- 非刚性医学图像准算法研究和实现,TP391.41
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- 多图像源信息融合与增强技术研究,TP391.41
- 实用近红外人脸识别方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|