学位论文 > 优秀研究生学位论文题录展示

一种基于相似预测的粗糙集预处理研究

作 者: 蒋泽
导 师: 杨静
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 粗糙集 数据预处理 空值 相似度 多值
分类号: TP18
类 型: 硕士论文
年 份: 2011年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着数据挖掘技术的成熟,信息产业的不断涌现,以及互联网的迅速发展,人们日常生活需要的信息量以指数级速度增长。传统的数据分析和查询方法在实际应用中不能满足人们对隐藏在数据背后的潜在知识的迫切需要。粗糙集理论作为新的数学工具,它具有不需要附加任何外界信息或先验知识这一显著特点,逐渐成为了研究知识发现的重要的理论之一。由于经典的粗糙集理论不能处理具有空值多值的源数据集合,需要经过数据预处理得到适合数据挖掘算法的数据,数据预处理在整个数据挖掘处理步骤占有重要的地位,因此如何有效地进行数据预处理具有非常重要的现实意义。本文在粗糙集数据预处理中对数据直接填补和扩展关系模型的处理方法展开研究。首先研究目前一些主要数据补齐算法所存在缺陷:产生冗余信息系统、需先验属性值分布概率、无稀疏数据处理等。采用协同过滤技术的稀疏数据集处理方法,根据属性和对象相似度计算结果填补稀疏信息表,同时与基于向域的空值填补算法结合,改进得出—种基于相似预测的粗糙集空值估算方法;其次,在相似度计算过程中引入熵和互信息的概念,提出了一种刻画信息表属性特征的二重特征权值,使填补值能够体现出信息表的属性特征并提高填补结果准确度;最后,针对多值和不可填补空值问题引入多值非完备信息系统和存在型非限制容差关系,在属性约简过程中对数据这两个问题进行处理。通过仿真实验验证了本文提出算法的有效性。仿真实验结果表明,在稀疏数据情况下本文改进的算法在准确率和平均误差指标均优于改进前的方法。在属性约简过程中,根据实例验证了处理多值和不可填补空值问题的可行性。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-16
  1.1 研究目的和意义  9
  1.2 数据预处理的研究现状  9-13
    1.2.1 数据预处理方法  9-12
    1.2.2 粗糙集理论的研究现状  12-13
  1.3 论文研究内容及组织结构  13-16
    1.3.1 论文研究内容  13-14
    1.3.2 论文的组织结构  14-16
第2章 粗糙集理论  16-29
  2.1 粗糙集基础理论  16-17
  2.2 基本概念  17-19
    2.2.1 信息系统  17-18
    2.2.2 不可分辨关系  18
    2.2.3 粗糙集与近似集  18-19
    2.2.4 属性约简与核  19
  2.3 非完备信息系统的粗糙集扩展模型及属性约简  19-23
    2.3.1 容差关系  20
    2.3.2 非对称相似关系  20-21
    2.3.3 量化容差关系  21
    2.3.4 限制容差关系  21-22
    2.3.5 一般二元关系  22-23
  2.4 粗糙集空值补齐算法  23-28
    2.4.1 Roustida算法  23-25
    2.4.2 基于量化容差关系的空值填补方法  25-26
    2.4.3 基于相似关系的空值填补方法  26-27
    2.4.4 基于向域的空值填补算法  27-28
  2.5 本章小结  28-29
第3章 基于相似预测的空值填补算法  29-42
  3.1 稀疏性问题  29-32
  3.2 基于熵和互信息的特征加权  32-33
  3.3 算法描述  33-34
  3.4 实验分析  34-41
    3.4.1 实例分析  35-39
    3.4.2 对比分析  39-41
  3.5 本章小结  41-42
第4章 属性约简中的数据预处理  42-50
  4.1 多值和不可填补空值问题  42
  4.2 多值非完备信息系统的扩充关系模型  42-43
  4.3 基于特征重要度的多值约简算法  43-46
    4.3.1 特征重要度的计算  43-44
    4.3.2 约简算法  44-45
    4.3.3 实例分析  45-46
  4.4 基于区分矩阵的多值约简算法  46-49
    4.4.1 约简算法  47-48
    4.4.2 实例分析  48-49
  4.5 本章小结  49-50
结论  50-51
参考文献  51-55
攻读硕士学位期间发表的论文和取得的科研成果  55-57
致谢  57

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 多邮件自动文摘的关键技术研究,TP391.1
  3. 基于支持向量机的故障诊断方法研究,TP18
  4. 基于相似度计算的编程题自动评判方法研究,TP312.1
  5. 基于连锁图的QTL综合分析方法研究,S562
  6. 基于遗传算法和粗糙集的聚类算法研究,TP18
  7. 基于粗糙集的城市区域交通绿时控制系统研究,TP18
  8. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  9. WordNet和《中国分类主题词表》的映射研究,G254
  10. 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
  11. 粗糙集的增量式属性约简研究,TP18
  12. 知识粒度的计算及其在属性约简中的应用研究,TP18
  13. 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
  14. 基于本体的食品投诉文档文本聚类研究,TP391.1
  15. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  16. 智能答疑系统中句子相似度计算的研究与应用,TP391.1
  17. 基于高斯过程的在线建模问题研究,TP181
  18. 基于投影寻踪回归的网络异常检测机制研究,TP393.08
  19. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  20. 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
  21. 惯性运动捕捉系统中传感数据的传输与处理,TP212

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com