学位论文 > 优秀研究生学位论文题录展示

文本特征选择算法的研究

作　者: 杨荣杰
导　师: 任永功
学　校: 辽宁师范大学
专　业: 计算机应用技术
关键词: 特征选择 mRMR-ReliefF算法信息增益冗余特征文本分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 1次
引　用: 0次
阅　读: 论文下载

内容摘要

文本分类技术是依据预先定义的类别,对网络中大量的未知信息进行分类,以提高信息的利用率,来实现信息对研究者的价值。文本分类包含文本预处理、文本语料库、构造分类器、特征降维、文本表示、测评六个部分。其中特征降维在诸多组成部分中占据着关键的地位,它在提高分类精度、节省空间、降低计算时间复杂度等方面起到最为重要的作用。特征降维包含两种方法,分别为特征提取与特征选择。特征提取是在原有的特征基础上依据一种函数映射关系,提取一个不同的新的特征子集,得到的这个特征空间能够更好的区分各类文本,并且特征之间独立性更强。特征选择是从已知的总特征集合中,利用特征值计算公式,选择区分类别强的特征作为分类的特征子集合。特征选择根据不同的出发角度可以得到不同的定义,其中在分类前有类别标记的被称为监督特征选择方法,分类前没有类别标记的称为无监督特征选择方法。本文研究工作包括以下两部分：首先,本文提出一种基于ReliefF特征选择算法——mRMR-ReliefF。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了不同词汇间的相互关联性。通过这种相关性,不但顾及到选择与类别联系性强的特征词,而且同时还顾及消除特征集中的冗余成分。通过三种算法的对比实验,表明本文算法为文本分类提供了更有效的特征子集。其次,本文提出了一种基于信息增益改进的TDpIG文本特征选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。本文改进的两种算法,都属于监督类特征选择方法。从两种特征选择算法的不足出发对其进行相应的改进,以提高选择特征的质量,增加算法的精度,达到更好的效果。

全文目录

相似论文

基于仿生模式识别的文本分类技术研究,TP391.1
互联网上旅游评论的情感分析及其有用性研究,TP391.1
唇读中的特征提取、选择与融合,TP391.41
基于特征选择的入侵检测研究,TP393.08
基于数据分布特征的文本分类研究,TP391.1
基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
基于粗糙集理论的文本分类研究,TP18
基于AdaBoost算法的人脸识别研究,TP391.41
面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
基于信息增益的完全决策树算法研究,TP311.13
基于改进遗传算法的神经网络输入约简,TP18
移动通信中客户信誉评价方法的研究与实践,F626
实用近红外人脸识别方法研究,TP391.41
基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
基于群体智能的医学图像特征优化算法研究,TP391.41
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
面向概念查询的生物医学多文档摘要技术研究,TP391.1
面向互联网中文舆情信息的情感倾向分析,TP391.1
半监督学习方法研究,TP181
基于决策树的网络流量分类研究,TP393.06
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1