学位论文 > 优秀研究生学位论文题录展示

隐私保护分类数据挖掘研究

作 者: 汤彪
导 师: 张晓琳
学 校: 内蒙古科技大学
专 业: 计算机应用技术
关键词: 数据挖掘 隐私保护 判定树 随机扰动矩阵
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 74次
引 用: 1次
阅 读: 论文下载
 

内容摘要


近几年来,随着数据库技术和网络技术的发展,许多领域都积累了大量的数据。巨增的数据背后蕴藏着丰富的知识,如何从这些数据中提取出对决策有价值的知识,成为人们关注的焦点。数据挖掘作为一个强有力的数据分析工具,可以发现数据中潜在的模式和规律,在许多领域做出了巨大的贡献,具有广泛的应用前景。数据挖掘技术带来巨大利益的同时,由于被挖掘的资料或数据包含着许多个人的隐私信息,例如:病人的病情信息、顾客的喜好、个人背景资料等,这些信息一旦被泄露会给个人带来很大危害。如果把这些数据库的真实数据直接交给挖掘者,难免会产生隐私信息泄露。随着数据挖掘技术应用领域不断深入,隐私泄露问题越来越严重,引起业界和社会各方面的广泛关注。因此,如何在隐私保护条件下进行数据挖掘成了数据挖掘领域的研究热点之一,隐私保护数据挖掘(PPDM)也随之产生。分类数据挖掘是数据挖掘的主要类型,决策树是分类挖掘最常用的分类器,所以采用决策树分类的隐私保护分类数据挖掘方法已经成为近年来数据挖掘领域的研究热点。目前,隐私保护分类数据挖掘采用修改数据的方法很多,随机扰动技术是比较常用的一种,它可以不改变原数据本质特征。但现有的隐私保护分类数据挖掘方法有很多缺陷,如:适用的数据类型有限、随机扰动后会产生隐私破坏、重建原数据分布的错误率较高、隐私保护度低或挖掘精度低等。针对这些缺陷,提出一种隐私保护分类数据挖掘的方法,该方法利用随机扰动矩阵对数据进行转变,通过由单属性随机扰动矩阵生成的多属性联合随机扰动矩阵和转变后的数据集来重建原数据分布。为使其适应于多种数据类型,对原始数据集的每个属性的不同值编码;给每个属性都选择一个随机扰动矩阵,增加了隐私保护度,而且在选择随机扰动矩阵时,引入r-amplifying方法防止数据转换后隐私破坏;引入矩阵条件数,降低了重建原数据分布的错误率,提高了挖掘的精度。

全文目录


摘要  5-6
Abstract  6-10
1 绪论  10-13
  1.1 课题研究背景  10
  1.2 课题研究意义  10-11
  1.3 课题的主要工作  11
  1.4 论文的结构和组织  11-13
2 数据挖掘  13-25
  2.1 数据挖掘的概述  13-18
    2.1.1 数据挖掘概念  13
    2.1.2 数据挖掘对象及任务  13-16
    2.1.3 数据挖掘的基本过程  16-18
  2.2 传统分类数据挖掘  18-25
    2.2.1 分类数据挖掘算法  18-21
    2.2.2 决策树分类  21-25
3 隐私保护数据挖掘综述  25-34
  3.1 隐私信息与隐私保护  25-27
    3.1.1 隐私信息  25-26
    3.1.2 隐私保护对象  26-27
  3.2 隐私保护数据挖掘产生  27-28
  3.3 隐私保护数据挖掘的分类  28-29
  3.4 隐私保护数据挖掘研究现状  29-33
    3.4.1 基于集中分布数据的隐私保护数据挖掘  29-31
    3.4.2 基于分布式数据的隐私保护数据挖掘  31-33
  3.5 算法分析  33-34
4 隐私保护分类数据挖掘  34-46
  4.1 基本思想与框架  34-35
  4.2 数据预处理  35-37
  4.3 数据转换  37-41
    4.3.1 相关定义  37-38
    4.3.2 设置单属性随机扰动矩阵  38-39
    4.3.3 多属性联合随机扰动矩阵的生成  39-40
    4.3.4 数据扰动  40-41
  4.4 分类数据挖掘  41-46
    4.4.1 相关公式  41-42
    4.4.2 建立决策树  42-43
    4.4.3 决策树剪枝  43-45
    4.4.4 决策树提取分类规则  45-46
5 实验结果与分析  46-48
  5.1 实验环境  46
  5.2 算法评估标准  46
  5.3 实验结果分析  46-48
结论  48-49
参考文献  49-53
在学研究成果  53-54
致谢  54

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  15. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  19. 高校毕业生就业状况监测系统研究,G647.38
  20. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  21. 基于数据挖掘的信用卡客户激活与响应度研究,F832.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com