学位论文 > 优秀研究生学位论文题录展示

Deep Web数据清洗方法研究及应用

作 者: 彭媛媛
导 师: 许建潮
学 校: 长春工业大学
专 业: 计算机应用技术
关键词: DeeP Web 数据清洗 数据抽取 数据集成 XML
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 49次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着近年来Internet的飞速发展, Deep Web己成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Deep Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统应运而生。本文对Deep Web数据集成系统中的数据清洗过程进行了研究,数据清洗过程是指将各个Deep Web数据库返回的查询结果进行抽取,并合并到一个统一的结构化的模式下的过程。本文将数据清洗过程分成了数据抽取和数据集成两部分,并对这两部分的技术分别进行了研究,提出了相关的算法和解决方案,最后在此基础上设计了一个Deep Web数据抽取原型系统。本文的主要研究工作如下:(1)提出了基于XML的Deep Web数据自动抽取方法。该方法将数据抽取过程分为页面转换、页面预处理、页面分区、语义注释添加和抽取规则生成五个步骤。首先使用Java开源工具WebHarvest将HTML页面转换为XML文档,之后将XML文档解析为DOM类;然后,深度遍历DOM树去除页面中的噪声数据;接着,通过基于DOM树的加权分区算法来对页面进行分区,并找出与用户查询主题相关的数据区域;而后,通过数据项属性区分算法和属性值与语义注释分割算法来为页面添加语义注释;最后,通过抽取规则生成算法来生成页面的抽取规则。(2)提出了对多数据源模式各异的查询结果数据进行集成的方法。该方法将数据集成过程分为结果模式匹配和数据合并两个步骤。首先通过构建属性向量空间模型来计算属性之间的相似度,从而将多个数据源的结果模式进行匹配;然后通过属性权重计算方法和记录相似度计算方法来找出相似重复记录,最后使用重复记录处理方法将重复数据进行了处理。(3)在以上研究基础上设计了一个Deep Web数据抽取原型系统。该系统分为数据抽取和数据集成两大模块。数据抽取模块将结果页面进行抽取,生成页面的结果模式和抽取规则;数据集成模块则将各个Deep Web数据库的结果模式进行匹配,生成一个全局模式,然后将数据进行抽取并存入数据库中,之后对数据进行合并处理。

全文目录


摘要  2-3
Abstract  3-7
第一章 绪论  7-10
  1.1 课题研究的背景与意义  7
  1.2 课题研究的现状  7-8
  1.3 本文的特色与贡献  8-10
第二章 相关技术的研究  10-14
  2.1 DEEP WEB概述  10-11
  2.2 HTML和XML语言  11-12
  2.3 DOM简介  12-13
  2.4 本章小结  13-14
第三章 基于XML的DEEP WEB数据自动抽取  14-39
  3.1 页面转换  14-16
  3.2 页面预处理  16-17
  3.3 页面分区  17-27
  3.4 添加语义注释  27-36
  3.5 生成抽取规则  36-37
  3.6 本章小结  37-39
第四章 DEEP WEB数据集成  39-47
  4.1 结果模式的匹配  39-44
  4.2 数据合并  44-45
  4.3 本章小结  45-47
第五章 DEEP WEB数据抽取原型系统设计  47-56
  5.1 系统总体设计  47-51
  5.2 系统模块设计  51-55
  5.3 本章小结  55-56
结论  56-58
致谢  58-59
参考文献  59-62
攻读硕士学位期间研究成果  62-63

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. SOA高校迎新系统中的SDO模型的研究与实现,G647
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. LXI自动测试系统集成技术研究,TP274
  5. 基于网络的服装款式设计系统的研究与实现,TS941.2
  6. 基于MDA的界面自动生成方法的研究,TP311.5
  7. C++代码缺陷检测系统的研究与设计,TP311.53
  8. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  9. 基于XML的异构数据交换系统的设计与实现,TP311.52
  10. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  11. 电子公文传输管理系统在电大系统中的设计与实现,TP311.52
  12. 面向服务的数据集成模型的研究与实现,TP311.52
  13. 概率XML数据上关键字检索算法的研究与实现,TP391.3
  14. 行政审批电子监察系统数据交换的设计与实现,TP311.52
  15. 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
  16. 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
  17. SOA架构在高校信息化系统中整合技术的应用,TP311.52
  18. 基于银行综合前置平台的金融服务支付系统的设计与实现,TP311.52
  19. 基于观察者模式的银行主动服务系统的设计与实现,TP311.52
  20. 江北区企业信用信息系统设计与实现,TP311.52
  21. 物联网业务模型描述语言的研究与实现,TN929.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com