学位论文 > 优秀研究生学位论文题录展示
Deep Web数据源的发现与聚类研究
作 者: 高川
导 师: 朱群雄
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: Deep Web 查询接口识别 模式抽取 Web数据库 频繁项集
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 40次
引 用: 1次
阅 读: 论文下载
内容摘要
互联网上的资源可以划分为Surface Web和Deep Web两部分。其中,Surface Web指能够被传统搜索引擎检索到的那部分资源,Deep Web指传统搜索引擎检索不到的那部分资源,通常指Web数据库包含的信息。调查表明,Deep Web蕴含的信息量是Surface Web的400至500倍。然而,由于Web数据库覆盖各个领域,并且分布在世界的各个角落,因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库,所以在集成前需要发现Web数据库并将其按照所属领域分类。查询接口是Web数据库的唯一入口,因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察,本文提出了7条启发式规则用以识别查询接口。实验结果表明,查询接口识别的F-measure值能达到0.98以上。Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方法抽取查询接口模式信息的准确度可达94%以上。同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想,本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类,聚类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇标签。实验结果表明,该聚类算法的F-measure值能达到0.91以上。
|
全文目录
摘要 4-6 ABSTRACT 6-14 第一章 绪论 14-22 1.1 课题研究背景 14-17 1.1.1 Deep Web的概念 14-15 1.1.2 Deep Web的资源 15-17 1.2 国内外研究现状 17-19 1.3 课题研究内容 19-20 1.4 论文组织结构 20-22 第二章 背景知识 22-32 2.1 HTTP协议简介 22-27 2.1.1 HTTP请求 22-25 2.1.2 HTTP响应 25-27 2.2 HTML简介 27-31 2.2.1 HTML标签 27-28 2.2.2 HTML表单 28-31 2.3 本章小结 31-32 第三章 Web数据库的发现 32-40 3.1 网络爬虫技术 32-33 3.1.1 网络爬虫的原理 32 3.1.2 网络爬虫的搜索策略 32-33 3.2 Deep Web爬虫 33-37 3.2.1 爬虫的流程 33-34 3.2.2 HTTP响应的字符集 34-35 3.2.3 超链接的抽取 35-37 3.3 查询接口的识别 37-38 3.4 本章小结 38-40 第四章 查询接口模式的抽取与存储 40-56 4.1 查询接口模式的定义 40 4.2 查询接口模式的表示 40-41 4.3 查询接口模式的抽取 41-50 4.3.1 文档对象模型 41-43 4.3.2 查询接口模式抽取的难点 43-45 4.3.3 基于坐标的查询接口模式抽取 45-50 4.4 查询接口模式的存储 50-54 4.4.1 数据库的设计 50-52 4.4.2 存储的实现 52-54 4.5 本章小结 54-56 第五章 Web数据库的聚类 56-70 5.1 文本聚类算法 56-60 5.1.1 基于划分的聚类 56-57 5.1.2 基于层次的聚类 57-58 5.1.3 基于后缀树的聚类 58-59 5.1.4 基于频繁项集的聚类 59-60 5.2 基于频繁项集的Web数据库聚类 60-67 5.2.1 算法的基本思想 60 5.2.2 文本的表示 60-61 5.2.3 特征项的加权 61-63 5.2.4 频繁项集的挖掘 63-64 5.2.5 基于频繁项的聚类 64-67 5.3 算法的优点 67-68 5.4 本章小结 68-70 第六章 实验结果与分析 70-76 6.1 实验数据 70 6.2 查询接口识别实验 70-72 6.3 查询接口模式抽取实验 72-74 6.4 Web数据库聚类实验 74-76 第七章 总结与展望 76-78 7.1 工作总结 76-77 7.2 工作展望 77-78 参考文献 78-82 致谢 82-84 研究成果及发表的学术论文 84-86 作者和导师简介 86-87 北京化工大学硕士研究生学位论文答辩委员会决议书 87-88
|
相似论文
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 基于矩阵的加权关联规则挖掘算法研究,TP311.13
- 高效频繁项集发现方法与Apriori的改进,TP311.13
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- Deep Web数据清洗方法研究及应用,TP393.09
- 基于闭频繁项集的Web日志挖掘,TP393.092
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- 中文网页热门主题获取系统的研究与实现,TP393.092
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 面向山东工业职业学院的学生公寓管理系统,TP311.52
- 基于冠心病数据库的关联规则数据挖掘系统的设计与实现,TP311.13
- 基于网络B/S结构的学生信息管理系统设计与实现,TP311.52
- 数据挖掘在煤矿安全监测中的应用,TP311.13
- 基于投影数组和加权FP-tree的频繁项集挖掘算法研究,TP311.13
- 基于Web的军用飞机维修专家指导系统的设计,V267.4
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- DWIIS系统中查询接口集成机制的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|