学位论文 > 优秀研究生学位论文题录展示
K-匿名数据的查询方法研究
作 者: 辛婷婷
导 师: 刘国华
学 校: 东华大学
专 业: 计算机应用技术
关键词: Top-k查询 K-匿名数据 不确定数据库 偏序排序 R-tree
分类号: TP309
类 型: 硕士论文
年 份: 2012年
下 载: 33次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络信息技术飞速发展,信息在人们的生活中扮演着越来越重要的角色。各行业需要从海量数据中搜索有用信息来满足自身需要。但这样有可能导致个体隐私的泄露,随之而来的是各种解决私密信息(如日常习惯、不良历史、信誉程度、以往病史等)方面的研究,以确保信息的利用在满足行业需求的同时能保证个人隐私不被泄露。在各种隐私保护模型中最具代表性的是K-匿名隐私保护模型,K-匿名经过多年的研究,已经形成了完善的理论体系。K-匿名将越来越多地应用到各个领域。为了保护私密信息,引入了匿名保护方法,但在传统数据库的应用中,数据的存在性和精确性均确定无疑。由于K-匿名数据的不确定性,使得数据的存储、查询、挖掘以及管理遇到了问题,这些匿名化数据不能被企业很好的应用并使其发挥最大的功效。因此,提高数据的可用性是K-匿名隐私保护模型亟待解决的问题,而查询是数据应用的一个主要操作。由于不确定数据本身的特性,加之现今流行的数据库管理系统均是建立在确定性数据基础之上的。传统的查询处理方法已不适用于解决在不确定数据上的查询。因此,在不确定数据上的查询处理成为近些年来研究的热点,并在众多学者的努力之下,出现了很多优秀的对不确定性数据的查询处理方法,每种方法都是在具体应用的背景下提出来,并没有一个公认的全能的查询方法。所以,根据K-匿名数据来源的特殊性以及其在与其他不确定性数据在表现形式上的不同,首先设计了一种有效的数据存储模型(多维空间模型),以实现在现有的确定性数据库中存储K-匿名这种特殊的不确定性数据。其次,寻找了一种合理的索引结构(R-tree),在K-匿名这种特殊的不确定性数据之上建立这种索引,以提高查询效率。再次,探索了一类适合K-匿名数据的查询方法,以提高K-匿名数据的可用性,满足更多种类的应用需求,定义了两种新的查询UK-Rank和NT-Rank,UK-Rank主要应用于一些需要排序的查询中,NT-Rank应用于点查询或者范围查询中,此外,还采用了Monte-Carlo积分近似计算的抽样方法来提高查询效率。最后,对UK-Rank和NT-Rank进行了相关的实验,通过实验证明了这两种方法的可用性,并对不同的数据量的查询效率进行了对比,实验结果表明,随着数据量的增长,查询耗时呈线性增长。
|
全文目录
摘要 5-7 ABSTRACT 7-11 1. 绪论 11-15 1.1 研究背景 11 1.2 研究内容 11-12 1.3 研究目标 12-13 1.4 本文的组织结构 13-15 2. 基础知识 15-25 2.1 K-匿名隐私保护模型技术概述 15-18 2.1.1 K-匿名数据基础知识 15 2.1.2 K-匿名数据属性分析 15-16 2.1.3 国内外研究现状 16-17 2.1.4 主要研究工作 17 2.1.5 面临的挑战 17-18 2.2 不确定数据查询技术概述 18-25 2.2.1 不确定数据基础知识 18-19 2.2.2 不确定数据查询分类 19-20 2.2.3 不确定数据的Top-k查询 20-21 2.2.4 Top-k查询国内外研究现状 21-25 3. K-匿名数据的组织形式 25-33 3.1 K-匿名数据存储方案 25-27 3.1.1 使用上下界定值方法 25-26 3.1.2 向空间数据的转换 26-27 3.2 空间数据存储解决方案 27-28 3.2.1 空间的基本概念 27 3.2.2 空间索引技术 27 3.2.3 R-tree索引 27-28 3.3 K-匿名数据空间索引解决方案 28-33 3.3.1 建立空间数据表的简单例子 28-33 4. K-匿名数据的TOP-K查询 33-39 4.1 几种典型的TOP-K查询方法 33-36 4.1.1 基于关键字的Top-k查询 33-34 4.1.2 逆Top-k查询 34-35 4.1.3 Top-k支配集查询 35-36 4.2 查询的理论基础 36-39 4.2.1 K-匿名数据的查询分类 36-37 4.2.2 定义与记号 37-39 5. 查询方法 39-45 5.1 查询分析 39-40 5.1.1 排序查询 39 5.1.2 范围/点查询 39-40 5.1.3 Monte-Carlo积分 40 5.2 TOP-K查询算法 40-45 5.2.1 基础算法 40-42 5.2.2 过滤无用信息 42-43 5.2.3 近似积分计算 43 5.2.4 Top-k排序 43-45 6. TOP-K查询理论扩展 45-53 6.1 离散型概率分布 45-48 6.1.1 定义与记号 45-46 6.1.2 离散型数据分布实例 46-48 6.2 连续型概率分布 48-53 6.2.1 定义与记号 48-49 6.2.2 连续型概率分布实例 49-53 7. 算法验证实验 53-57 7.1 实验验证及分析 53-57 7.1.1 实验环境 53 7.1.2 实验结果 53-56 7.1.3 实验分析 56-57 8. 总结与展望 57-59 参考文献 59-63 攻读硕士学位期间承担的科研任务与主要成果 63-64 致谢 64
|
相似论文
- SRAM软故障侦测与纠错方法研究及其电路实现,TP333.8
- 基于能量优化的ZigBee关键技术的研究,TP212.9
- 基于海量点云的三维模型快速重建技术研究,TP391.41
- 基于FP-tree的多层关联规则挖掘算法的研究,TP311.13
- 基于非参数回归的短时交通流预测系统设计,U491.112
- k-匿名隐私保护模型中准标识符最佳值问题的研究,TP309
- 基于树结构的精简序列模式挖掘算法研究,TP311.13
- 若干求解大规模问题的支持向量机算法,O212
- 无线传感器网络中Top-k查询处理技术的研究,TN929.5
- 时态索引技术及算法的研究,TP311.13
- 基于FP-Tree的关联规则挖掘算法研究,TP311.13
- Utilization of Calibration Free Femtosecond Laser-Induced Breakdown Spectroscopy (CF-LIBS) for Monitoring of the Elemental Composition in Poplar Tree Leaves,TN241
- 同位模式空间数据挖掘算法研究及在GIS中的应用,TP311.13
- 关系数据库的关键字查询优化研究,TP311.13
- 光线跟踪加速算法在异构多核平台上的设计与实现,TP391.41
- ZigBee技术在语音通信中的路由协议研究与实现,TN919.8
- 中国A股市场拓扑网络研究与衍生策略,F224
- 基于内容的图像检索方法研究与实践,TP391.41
- 无监督的中文语义词提取技术研究,H08
- 基于模糊关联规则的中文文本分类,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 安全保密
© 2012 www.xueweilunwen.com
|