学位论文 > 优秀研究生学位论文题录展示

XML重复对象检测系统的设计与实现

作 者: 王巍
导 师: 冯玉才
学 校: 华中科技大学
专 业: 计算机软件设理论
关键词: 重复元素检测系统 可扩展标记语言 相似字符串 多重过滤 自顶向下
分类号: TP311.11
类 型: 硕士论文
年 份: 2011年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet和信息技术的高速发展,XML文档作为数据存储介质应用范围越来越广泛,XML数据的重复元素检测问题已经引起了从事数据库和Internet应用等研究人员的大量关注。而XML数据结构的多样性,给XML元素相似性判断带来很大困难。为了有效的清除XML数据中的重复元素,研究了XML重复元素识别规则,设计和实现了重复XML元素检测系统。研究了重复XML元素判定标准、相似字符串识别和XML元素相似度计算等问题,分析出XML重复元素检测的关键是如何有效地处理结构多样性的问题和如何处理父、子元素间的依赖关系,并设计实现了重复XML元素检测系统。检测系统主要由文档预处理模块、相似字符串识别模块和元素相似度计算模块组成。在检测系统实现方面,给出了一种自顶向下、多重过滤的检测方法。通过对XML数据存储结构的分析,给出了重复XML元素对象的定义;通过文档预处理在一定程度上解决了XML结构多样性的问题;通过设计多种过滤条件,有效的降低了检测字符串相似度和XML元素相似度的计算量;通过自顶向下的遍历解决了XML元素父子元素间的依赖关系。设计实现了Dirty XML Generator(DXG)工具,用来生成实验数据。为了说明检测系统的正确性和过滤条件的有效性,通过DXG工具往XML数据内引入了结构错误和字符串错误两种类型的脏数据,对每个过滤条件都进行了单独的分析,对检测系统的正确性和效率也进行了分析。最终说明了所有过滤条件都是有效而且高效的,检测系统检测的结果也和预先引入的脏数据一致。

全文目录


摘要  4-5
Abstract  5-7
1 绪论  7-15
  1.1 课题背景  7-9
  1.2 国内外研究概况  9-13
  1.3 课题主要研究工作  13-14
  1.4 论文结构  14-15
2 重复对象检测系统总体设计  15-32
  2.1 相关概念说明  15-21
  2.2 总体思路  21-29
  2.3 体系结构  29-30
  2.4 小结  30-32
3 重复对象检测系统的实现  32-44
  3.1 XML 文档预处理的实现  32-35
  3.2 图模型的实现  35-36
  3.3 对象过滤的实现  36-39
  3.4 相似度计算的实现  39-42
  3.5 自顶向下遍历的实现  42-43
  3.6 小结  43-44
4 实验及结果分析  44-49
  4.1 数据来源及错误引入  44-45
  4.2 过滤器的选择度  45-47
  4.3 正确性实验  47-48
  4.4 小结  48-49
5 总结和展望  49-51
  5.1 全文总结  49-50
  5.2 展望  50-51
致谢  51-52
参考文献  52-55

相似论文

  1. 电厂安全生产用户资质智能管理系统的设计与实现,TP311.52
  2. 基于Web服务的Legacy System集成方法研究,TP393.09
  3. 嵌入式系统图形用户界面代码自动生成技术的研究,TP368.1
  4. 企业进销存信息管理系统的设计与实现,TP311.52
  5. 三维图形系统Widget架构设计与实现,TP391.41
  6. 中文XML压缩技术研究,TP311.11
  7. 基于XMPP协议的企业级即时通讯系统设计与实现,TP311.52
  8. 基于Web Services的教师教学质量评价系统的研究与实现,TP393.09
  9. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  10. 基于XML的电子病历系统的设计与实现,TP311.52
  11. 相似字符串匹配过滤算法研究,TP391.1
  12. 基于XML的电子病历系统及其院际信息共享技术研究,TP311.10
  13. 复杂产品分区协同设计平台的研究与实现,TP391.72
  14. 基于J2EE的金融报表系统的设计与实现,TP311.52
  15. 基于.NET和XML的网络辅助教学系统的设计与实现,TP311.52
  16. 生物序列索引结构构造算法研究,TP391.3
  17. 电子政务资源目录体系的设计与实现,TP311.52
  18. 基于XML技术的标准化网络课件的设计与实现,TP311.52
  19. 基于XML的信息转化和编辑系统设计,TP311.52
  20. XML技术在基于WEB的PDM系统中应用的研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 程序设计方法
© 2012 www.xueweilunwen.com