学位论文 > 优秀研究生学位论文题录展示
面向Web的图书信息抽取方法与实现
作 者: 王飞剑
导 师: 曾庆田
学 校: 山东科技大学
专 业: 计算机软件与理论
关键词: Web信息抽取 网络爬虫 抽取噪音 抽取规则 图书信息 信息融合
分类号: TP311.52
类 型: 硕士论文
年 份: 2009年
下 载: 66次
引 用: 1次
阅 读: 论文下载
内容摘要
互联网提供了海量的信息,最理想的情况是互联网提供的这些信息不仅能被人们很容易地浏览,更重要是作为一个数据源能像关系型数据库一样被查询,各种计算机应用能有效地利用上这些信息。然而,互联网上文本信息的格式多是半结构化的HTML格式,它是无法被机器直接处理的。所以如何将非结构化的Web网页信息转化为便于机器处理的结构化信息,以及让这些数据得到更有效利用是一个非常值得研究的课题。因此,出现了Web信息抽取技术,其目的就是要将Web中包含的信息进行结构化处理,将信息变成表格一样的组织形式。本文主要研究基于HTML文档的信息抽取,提出了一种基于样本标注的快速Web信息抽取方法。通过对样本进行标注,生成对应的包装器,实现了对Web上的图书信息的抽取。在实现的系统原型中,抽取效果良好,可直接应用于Web查询和搜索,也可以作为其他应用的数据准备。本文的主要工作如下:(1)设计并实现了一个图书网页抓取系统。在网页的抓取过程中,利用MD5摘要算法实现了对重复的URL和内容相同的Web页面的排除,并提出了摘要算法的替代方案。为了排除与抽取目标无关的网页,消除抽取的外噪音,我们定义图书信息描述的主题词库,并且通过一些URL过滤规则,减少了进入系统的噪音页面的数量。通过分析页面内部结构,利用标签属性过滤算法,完成了对网页内部噪音的部分过滤。(2)通过对图书信息网页结构进行分析,发现了图书信息描述的结构化特征和局部性差异,因此选定一定数量的有代表性图书样本进行人工标注。通过分析待抽取信息项的结构,设计了生成信息项的前缀和后缀算法,生成了网页的抽取规则。利用图书信息的结构化特征,对生成的规则进行了合并,减少了样本标注数量并提高了抽取的准确度。(3)利用生成的规则库,通过对字段规则的组合,重新得到网页的抽取规则,实现了网页的高效、精确的抽取。为了提供给用户更多的图书信息,我们对图书信息进行融合,通过建立ISBN的倒排索引和图书信息的融合及不一致检查算法,初步完成了图书信息的整合。
|
全文目录
摘要 5-6 Abstract 6-9 1 引言 9-20 1.1 研究背景和意义 9-10 1.2 信息抽取技术概述 10-12 1.3 Web信息抽取研究现状 12-15 1.4 Web信息抽取技术分类 15-17 1.5 Web信息抽取系统的设计方法 17 1.6 本文的研究内容及论文组织 17-20 2 相关术语及技术 20-25 2.1 HTML 20-21 2.2 HTTP技术 21-22 2.3 SOCKET技术 22-24 2.4 本章小结 24-25 3 含图书信息的 Web页面抓取系统 25-40 3.1 Web页面抓取系统结构 25-29 3.2 URL及网页去重 29-33 3.3 网页去噪 33-38 3.4 网页抓取系统评价 38-39 3.5 本章小结 39-40 4 图书信息抽取方法与系统 40-60 4.1 图书信息抽取系统结构 40-41 4.2 图书信息样本的手工标注 41-44 4.3 图书信息抽取规则的学习 44-52 4.4 基于规则的图书信息抽取 52-59 4.5 本章小结 59-60 5 原型系统设计与实现 60-65 5.1 网页抓取系统的实现 60-61 5.2 图书信息抽取系统的实现 61-63 5.3 试验结果和分析 63-64 5.4 本章小结 64-65 6 结论与展望 65-67 致谢 67-68 攻读硕士期间主要成果 68-69 参考文献 69-71
|
相似论文
- 舌体特征的提取及融合分类方法研究,TP391.41
- 多传感器信息融合及其在可穿戴计算机上的应用,TP202
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 信息融合技术在嵌入式驾驶疲劳检测中的应用研究,TP368.12
- 网页属性抽取的方法研究,TP391.1
- 多媒体传感终端设备关键技术的研究与实现,TP212.9
- 基于集中决策的广域后备保护研究,TM774
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 水下机械手信息融合及作业规划研究,TP241
- 基于信息融合的转基因食品安全评估,TS201.6
- 基于多信息融合的轮式移动机器人定位导航技术研究,TP242
- 基于贝叶斯网络的电机故障诊断方法研究,TM307.1
- 多尺度信息融合算法研究,TP202
- 基于信息融合的模拟电路故障诊断研究,TN710
- 基于证据网络的多源敌我识别信息融合处理方法研究,TP202
- 基于信息融合的高速公路交通事件自动检测算法研究,U491
- 多传感器信息融合技术在虚拟中医正骨手法系统中的应用研究,R274
- 基于多传感器组合的自动导引车系统研究与应用,TP242.2
- 网络舆情分析关键技术研究与实现,TP393.09
- 多传感器信息融合技术在铣削过程监测中的应用研究,TG54
- 基于信息融合的配电柜故障电弧预报警系统算法研究,TM592
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|