学位论文 > 优秀研究生学位论文题录展示
Deep Web查询结果后处理
作 者: 毛桂春
导 师: 左万利
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: Deep Web 本体 信息抽取 HTML Parser RSEM
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 28次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络快速猛进的发展,人们在网上公布的信息愈来愈多,与此同时网络上出现了各种各样的网页结构。目前,整个Web主要由两大部分构成,一部分是Surface Web,另一部分则是Deep Web。Surface Web指的是在传统的搜索引擎上经过查询就可以检索到的页面,Deep Web则不同,大多数传统的搜索引擎并不能完全搜索到它们,它们隐藏在网页的索引表单之后,存储在巨大的动态数据库里,用户需要通过在查询接口上提交查询关键词后才能显示出来。根据2007年7月的一个调查显示,大约有43000—960000个Deep Web网站,而且它包含的信息内容是Surface Web的500倍还要多。在随后的2004年4月的一项调查报道显示,Deep Web站点已经达到307000之多。在短短的4年里Deep Web站点增长了3—7倍。由于Deep Web含有惊人的数据信息,所以对Deep Web信息进行抽取是非常必要的,但是由于网页结构多种多样,还掺杂了很多用户根本就不感兴趣的信息,例如广告之类的信息,它们不但占据网页的大部分篇幅,而且还影响了计算机打开网页的速度,对用户造成了困扰。本文为了解决该问题,主要对已经搜索到的网上售书领域网页的内容进行抽取,通过去除网页上的无用信息来方便用户搜索需要的内容。目前,国内外对信息抽取技术方面已经有了很多的研究成果,提出了许多信息抽取技术,例如基于自然语言的信息抽取技术、基于XML的信息抽取技术,基于DOM树的信息抽取技术等,但是它们受网页结构的影响非常大,面临现在网页结构的复杂多样,实现比较准确的信息抽取十分困难。本文提出了利用领域本体来帮助信息抽取的技术,本体用来描述某个领域内概念以及这些概念之间的关系,使这些概念和关系在共享范围内有着明确的且唯一的定义,以便能够达成共识,因此它不受网页结构的限制,只要构建的本体内容足够丰富,就能够实现使用本体指导信息准确抽取。本文主要由两部分构成,第一部分为本体构建,第二部分为查询结果信息抽取。由于目前大多数网页都是用HTML语言编写,该语言使用了大量的标签来对页面进行排版,本文充分利用了这一点,使用HTML标签和网上售书领域网页的结构特点,利用查询接口和相应的查询结果页面之间信息相互补充的方法来构建网上售书领域的本体,通过使用RSEM模型来确定本体的领域知识,然后用本体构建工具Protege来构建本体。在信息抽取部分,首先用HTML Parser对待抽取的网页进行页面解析,在解析过程中去除用户不感兴趣的信息部分,如广告、导航栏等信息,得出待抽取信息的HTML树,把此HTML树和经过Jena解析后的OWL文件进行信息匹配,识别出网页中信息部分,并对其进行提取。最后把抽取的结果按照排序算法进行排序,并将最终结果存储到数据库中,完成抽取任务。在本文最后,为了证明此方法的可行性,对网上售书领域的几个比较有代表性的网站进行了抽取实验,如当当网、中华图书网、亚马逊网等,并和RSEM模型进行了试验比较,结果证明了该方法的可行性。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-17 1.1 研究背景 10-11 1.2 Deep Web概述 11-13 1.2.1 Deep Web概念 11-12 1.2.2 Deep Web特点 12-13 1.3 国内外研究状况 13-14 1.4 本文研究内容及组织结构 14-17 第2章 相关技术研究 17-25 2.1 本体理论 17-19 2.1.1 本体概念 17-18 2.1.2 领域本体构建原则 18 2.1.3 本体描述语言OWL 18-19 2.2 HTML Parser简介 19-21 2.3 查询结果抽取技术分类 21-25 2.3.1 基于自然语言的抽取技术 21-22 2.3.2 基于DOM的抽取技术 22-23 2.3.3 基于视图的网页抽取技术 23 2.3.4 基于本体的抽取技术 23-25 第3章 基于结果模式的领域本体构建 25-39 3.1 潜在数据块识别 25-29 3.1.1 查询结果页面解析及降噪 25-27 3.1.2 数据块抽取模型BIM原理 27-29 3.2 结果记录集抽取模型RSEM 29-32 3.2.1 向量空间模型及余弦公式 29-31 3.2.2 RSEM原理 31-32 3.3 基于RSEM模型的领域本体构建 32-39 3.3.1 图书领域本体概念模型 32-34 3.3.2 查询结果记录集抽取 34-35 3.3.3 查询结果注释及属性匹配 35-37 3.3.4 领域本体构建 37-39 第4章 基于领域本体的Deep Web查询结果处理 39-48 4.1 系统框架及工作原理 39-40 4.2 基于领域本体的Deep Web查询结果抽取 40-45 4.2.1 使用Jena解析本体 40-43 4.2.2 Deep Web查询结果抽取 43-45 4.3 Deep Web查询结果排序 45-48 4.3.1 查询结果排序方法 45-46 4.3.2 基于本体相似度的查询结果排序 46-48 第5章 实验与结果分析 48-52 5.1 实验评测标准 48 5.2 实验基础 48-49 5.3 实验结果 49-50 5.4 实验分析 50-52 第6章 总结与展望 52-54 6.1 总结 52 6.2 展望 52-54 参考文献 54-57 作者简介及在学期间所取得的科研成果 57-58 致谢 58
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 普适计算下智能空间的哲学探究,N02
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 一种基于语义的建筑工程质量检测方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|