学位论文 > 优秀研究生学位论文题录展示

基于最小联合互信息亏损的最优特征选择算法研究

作 者: 张逸石
导 师: 陈传波
学 校: 华中科技大学
专 业: 软件工程
关键词: 分类 特征选择 无差异特征子集 最小联合互信息亏损 快速条件互信息估计
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 48次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着社会经济与计算机技术的快速发展,研究一种能够有效地提高分类学习算法性能和效率的Filter型特征选择算法有着重要的理论价值与广泛的应用前景。提出了一种基于最小联合互信息亏损的最优特征选择算法。该算法将以联合互信息作为评价准则的特征选择问题分解为两个子问题,采用最大条件互信息原则进行搜索直到获得一个无差异特征子集,并采用一种最小联合互信息亏损原则对所得无差异特征子集进行冗余特征的判断与删减。从条件互信息估计可靠性的角度上来看,最小联合互信息亏损原则减小了因样本不足而引起的条件互信息估计的偏差。从而能够获得一个较好地表达原始数据集且规模较小的特征子集。为解决特征子集规模较大时条件互信息估计所面临的维数瓶颈问题,提出了一种快速条件互信息估计方法,并将其用于所提算法的实现。首先引入局部互信息的概念,并揭示了局部互信息与条件互信息之间的关系,进而通过对局部互信息的逐一求解来实现对条件互信息的估计。选择了10种常用的基准数据集与挑战性数据集对所提算法和快速条件互信息估计方法进行了详细的性能实验。所选数据集训练样本跨度为2000~72626,特征维数跨度为22~139351,有利于全面检验算法的性能。实验结果表明了所提算法的优越性。同时,实验结果还表明了所提快速条件互信息估计方法的有效性,特别是对于含有139351个特征的Thrombin数据集而言,所提快速估计方法无论是在运行时间还是在存储空间上都有显著的优势。

全文目录


相似论文

  1. K公司计划及预测改进对于合理库存配置的研究,F224
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 基于词义及语义分析的问答技术研究,TP391.1
  4. 基于三维重建的焊点质量分类方法研究,TP391.41
  5. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  6. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  7. 上下文相关的词汇复述研究,TP391.1
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 多样性密度学习算法的研究与应用,TP181
  14. 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
  15. 计算智能在数字化卷烟叶组配方中的应用研究,TS44
  16. 基于中国土壤系统分类的土壤类型和界线确定研究,S155
  17. 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 面向公众的教育视频共建共享平台的设计与实践研究,G434
  20. 基于土壤系统分类的土壤调查方法研究,S155
  21. 西藏生防芽孢杆菌鉴定及其脂肽化合物分析,S476.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com