学位论文 > 优秀研究生学位论文题录展示
基于实例聚类的数据库模式匹配方法研究
作 者: 张媛新
导 师: 刘杰
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 模式匹配 遗传算法 实例聚类 映射生成
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领域广泛研究的热点。数据集成的首要步骤就是要实现模式匹配,即数据模式元素之间的语义对应关系,因此本课题研究模式匹配对于数据挖掘具有重要意义。已提出的模式匹配方法多数是基于模式信息来实现的,但从评估结果来看任何方法都远远达不到100%的准确率,并且在模式信息不明确或者有冲突的情况下这些方法经常受到限制。通过对现有方法的分析本文提出一种利用模式信息辅助实例信息聚类的数据库模式匹配方法—DSMIC(Database Schema Matching based on Instances Clustering),该方法分为三大模块,即预处理模块、聚类处理模块、映射生成模块。其中,在预处理模块中利用经典的遗传算法对模式信息进行处理生成候选匹配集合;在聚类处理模块中提出一种改进的K-Means聚类算法将候选匹配集合中模式元素的实例数据进行聚类,根据聚类结果计算出模式元素间的相似度;映射生成模块根据模式元素间的相似度生成图论中的完全加权二分图,利用最大权匹配算法提炼出模式元素的最终结果。最后,本文通过实验验证了基于实例聚类的模式匹配方法的可行性,并以此表明该方法在一定程度上提高了模式匹配的准确率、召回率和全面性等技术指标。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-15 1.1 研究背景及意义 9-10 1.2 国内外研究现状 10-13 1.3 论文研究内容及组织结构 13-15 1.3.1 论文的主要研究内容 13-14 1.3.2 论文的整体组织结构 14-15 第2章 相关理论知识 15-27 2.1 引言 15 2.2 数据库相关知识概述 15-16 2.2.1 模式概述 15-16 2.2.2 实例概述 16 2.3 模式匹配相关知识概述 16-20 2.3.1 模式匹配的概念 16-17 2.3.2 实例信息与模式匹配的关系 17 2.3.3 模式匹配技术的分类 17-19 2.3.4 数据库模式匹配 19-20 2.4 模式匹配的主要方法 20-25 2.4.1 基于模式级的模式匹配方法 20-22 2.4.2 基于实例级的模式匹配方法 22-24 2.4.3 其他模式匹配方法 24-25 2.5 本章小结 25-27 第3章 基于实例聚类的数据库模式匹配方法 27-45 3.1 引言 27 3.2 DSMIC 方法框架 27-32 3.2.1 基本概念 27-30 3.2.2 DSMIC 方法的匹配流程 30-32 3.3 预处理模块 32-36 3.3.1 预处理方法 32 3.3.2 问题的转化 32-33 3.3.3 预处理流程 33-36 3.4 聚类处理模块 36-42 3.4.1 K-Means 算法对实例信息的聚类 36-38 3.4.2 改进的 K-Means 算法描述 38-40 3.4.3 属性对语义相似度的计算 40-42 3.5 模式生成模块 42-44 3.5.1 问题描述 42-43 3.5.2 解决方案 43-44 3.6 用户验证 44 3.7 本章小结 44-45 第4章 实验设计及其分析 45-53 4.1 引言 45 4.2 方法有效性的实验验证 45-51 4.2.1 实验环境 45 4.2.2 实验数据集 45 4.2.3 实验结果评价标准 45-46 4.2.4 实验过程及结果分析 46-51 4.3 本章小结 51-53 结论 53-55 参考文献 55-59 攻读硕士学位期间发表的论文和取得的科研成果 59-61 致谢 61
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于遗传算法的淠史杭灌区渠系配水优化编组模型的研究,S274
- 遗传算法在物流仓储优化中的应用研究,F259.2
- 基于遗传算法的矿山资源优化调度模型的研究,O224
- 基于查询接口的Deep Web模式匹配方法研究,TP311.13
- 机械臂轨迹规划研究,TP242
- 基于遗传算法的前馈神经网络优化研究,TP183
- 基于油耗的城市交通信号分层递阶控制的优化研究,U491.51
- 介入式天线在肿瘤微波热疗中有效热区的优化控制,R730.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|