学位论文 > 优秀研究生学位论文题录展示

Deep Web数据源的发现与聚类研究

作 者: 高川
导 师: 朱群雄
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: Deep Web 查询接口识别 模式抽取 Web数据库 频繁项集
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 40次
引 用: 1次
阅 读: 论文下载
 

内容摘要


互联网上的资源可以划分为Surface Web和Deep Web两部分。其中,Surface Web指能够被传统搜索引擎检索到的那部分资源,Deep Web指传统搜索引擎检索不到的那部分资源,通常指Web数据库包含的信息。调查表明,Deep Web蕴含的信息量是Surface Web的400至500倍。然而,由于Web数据库覆盖各个领域,并且分布在世界的各个角落,因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库,所以在集成前需要发现Web数据库并将其按照所属领域分类。查询接口是Web数据库的唯一入口,因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察,本文提出了7条启发式规则用以识别查询接口。实验结果表明,查询接口识别的F-measure值能达到0.98以上。Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方法抽取查询接口模式信息的准确度可达94%以上。同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想,本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类,聚类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇标签。实验结果表明,该聚类算法的F-measure值能达到0.91以上。

全文目录


摘要  4-6
ABSTRACT  6-14
第一章 绪论  14-22
  1.1 课题研究背景  14-17
    1.1.1 Deep Web的概念  14-15
    1.1.2 Deep Web的资源  15-17
  1.2 国内外研究现状  17-19
  1.3 课题研究内容  19-20
  1.4 论文组织结构  20-22
第二章 背景知识  22-32
  2.1 HTTP协议简介  22-27
    2.1.1 HTTP请求  22-25
    2.1.2 HTTP响应  25-27
  2.2 HTML简介  27-31
    2.2.1 HTML标签  27-28
    2.2.2 HTML表单  28-31
  2.3 本章小结  31-32
第三章 Web数据库的发现  32-40
  3.1 网络爬虫技术  32-33
    3.1.1 网络爬虫的原理  32
    3.1.2 网络爬虫的搜索策略  32-33
  3.2 Deep Web爬虫  33-37
    3.2.1 爬虫的流程  33-34
    3.2.2 HTTP响应的字符集  34-35
    3.2.3 超链接的抽取  35-37
  3.3 查询接口的识别  37-38
  3.4 本章小结  38-40
第四章 查询接口模式的抽取与存储  40-56
  4.1 查询接口模式的定义  40
  4.2 查询接口模式的表示  40-41
  4.3 查询接口模式的抽取  41-50
    4.3.1 文档对象模型  41-43
    4.3.2 查询接口模式抽取的难点  43-45
    4.3.3 基于坐标的查询接口模式抽取  45-50
  4.4 查询接口模式的存储  50-54
    4.4.1 数据库的设计  50-52
    4.4.2 存储的实现  52-54
  4.5 本章小结  54-56
第五章 Web数据库的聚类  56-70
  5.1 文本聚类算法  56-60
    5.1.1 基于划分的聚类  56-57
    5.1.2 基于层次的聚类  57-58
    5.1.3 基于后缀树的聚类  58-59
    5.1.4 基于频繁项集的聚类  59-60
  5.2 基于频繁项集的Web数据库聚类  60-67
    5.2.1 算法的基本思想  60
    5.2.2 文本的表示  60-61
    5.2.3 特征项的加权  61-63
    5.2.4 频繁项集的挖掘  63-64
    5.2.5 基于频繁项的聚类  64-67
  5.3 算法的优点  67-68
  5.4 本章小结  68-70
第六章 实验结果与分析  70-76
  6.1 实验数据  70
  6.2 查询接口识别实验  70-72
  6.3 查询接口模式抽取实验  72-74
  6.4 Web数据库聚类实验  74-76
第七章 总结与展望  76-78
  7.1 工作总结  76-77
  7.2 工作展望  77-78
参考文献  78-82
致谢  82-84
研究成果及发表的学术论文  84-86
作者和导师简介  86-87
北京化工大学硕士研究生学位论文答辩委员会决议书  87-88

相似论文

  1. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  2. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  3. 基于矩阵的加权关联规则挖掘算法研究,TP311.13
  4. 高效频繁项集发现方法与Apriori的改进,TP311.13
  5. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  6. Deep Web数据清洗方法研究及应用,TP393.09
  7. 基于闭频繁项集的Web日志挖掘,TP393.092
  8. Deep Web查询接口集成及搜索策略研究,TP393.09
  9. 基于领域知识的Deep Web接口发现研究,TP393.09
  10. Deep Web数据集成系统中数据标注研究,TP393.09
  11. 中文网页热门主题获取系统的研究与实现,TP393.092
  12. Deep Web数据抽取及语义标注研究,TP393.09
  13. Deep Web数据库的选择研究,TP311.13
  14. 面向山东工业职业学院的学生公寓管理系统,TP311.52
  15. 基于冠心病数据库的关联规则数据挖掘系统的设计与实现,TP311.13
  16. 基于网络B/S结构的学生信息管理系统设计与实现,TP311.52
  17. 数据挖掘在煤矿安全监测中的应用,TP311.13
  18. 基于投影数组和加权FP-tree的频繁项集挖掘算法研究,TP311.13
  19. 基于Web的军用飞机维修专家指导系统的设计,V267.4
  20. 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
  21. DWIIS系统中查询接口集成机制的研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com