学位论文 > 优秀研究生学位论文题录展示

面向Web的图书信息抽取方法与实现

作 者: 王飞剑
导 师: 曾庆田
学 校: 山东科技大学
专 业: 计算机软件与理论
关键词: Web信息抽取 网络爬虫 抽取噪音 抽取规则 图书信息 信息融合
分类号: TP311.52
类 型: 硕士论文
年 份: 2009年
下 载: 66次
引 用: 1次
阅 读: 论文下载
 

内容摘要


互联网提供了海量的信息,最理想的情况是互联网提供的这些信息不仅能被人们很容易地浏览,更重要是作为一个数据源能像关系型数据库一样被查询,各种计算机应用能有效地利用上这些信息。然而,互联网上文本信息的格式多是半结构化的HTML格式,它是无法被机器直接处理的。所以如何将非结构化的Web网页信息转化为便于机器处理的结构化信息,以及让这些数据得到更有效利用是一个非常值得研究的课题。因此,出现了Web信息抽取技术,其目的就是要将Web中包含的信息进行结构化处理,将信息变成表格一样的组织形式。本文主要研究基于HTML文档的信息抽取,提出了一种基于样本标注的快速Web信息抽取方法。通过对样本进行标注,生成对应的包装器,实现了对Web上的图书信息的抽取。在实现的系统原型中,抽取效果良好,可直接应用于Web查询和搜索,也可以作为其他应用的数据准备。本文的主要工作如下:(1)设计并实现了一个图书网页抓取系统。在网页的抓取过程中,利用MD5摘要算法实现了对重复的URL和内容相同的Web页面的排除,并提出了摘要算法的替代方案。为了排除与抽取目标无关的网页,消除抽取的外噪音,我们定义图书信息描述的主题词库,并且通过一些URL过滤规则,减少了进入系统的噪音页面的数量。通过分析页面内部结构,利用标签属性过滤算法,完成了对网页内部噪音的部分过滤。(2)通过对图书信息网页结构进行分析,发现了图书信息描述的结构化特征和局部性差异,因此选定一定数量的有代表性图书样本进行人工标注。通过分析待抽取信息项的结构,设计了生成信息项的前缀和后缀算法,生成了网页的抽取规则。利用图书信息的结构化特征,对生成的规则进行了合并,减少了样本标注数量并提高了抽取的准确度。(3)利用生成的规则库,通过对字段规则的组合,重新得到网页的抽取规则,实现了网页的高效、精确的抽取。为了提供给用户更多的图书信息,我们对图书信息进行融合,通过建立ISBN的倒排索引和图书信息的融合及不一致检查算法,初步完成了图书信息的整合。

全文目录


摘要  5-6
Abstract  6-9
1 引言  9-20
  1.1 研究背景和意义  9-10
  1.2 信息抽取技术概述  10-12
  1.3 Web信息抽取研究现状  12-15
  1.4 Web信息抽取技术分类  15-17
  1.5 Web信息抽取系统的设计方法  17
  1.6 本文的研究内容及论文组织  17-20
2 相关术语及技术  20-25
  2.1 HTML  20-21
  2.2 HTTP技术  21-22
  2.3 SOCKET技术  22-24
  2.4 本章小结  24-25
3 含图书信息的 Web页面抓取系统  25-40
  3.1 Web页面抓取系统结构  25-29
  3.2 URL及网页去重  29-33
  3.3 网页去噪  33-38
  3.4 网页抓取系统评价  38-39
  3.5 本章小结  39-40
4 图书信息抽取方法与系统  40-60
  4.1 图书信息抽取系统结构  40-41
  4.2 图书信息样本的手工标注  41-44
  4.3 图书信息抽取规则的学习  44-52
  4.4 基于规则的图书信息抽取  52-59
  4.5 本章小结  59-60
5 原型系统设计与实现  60-65
  5.1 网页抓取系统的实现  60-61
  5.2 图书信息抽取系统的实现  61-63
  5.3 试验结果和分析  63-64
  5.4 本章小结  64-65
6 结论与展望  65-67
致谢  67-68
攻读硕士期间主要成果  68-69
参考文献  69-71

相似论文

  1. 舌体特征的提取及融合分类方法研究,TP391.41
  2. 多传感器信息融合及其在可穿戴计算机上的应用,TP202
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 信息融合技术在嵌入式驾驶疲劳检测中的应用研究,TP368.12
  5. 网页属性抽取的方法研究,TP391.1
  6. 多媒体传感终端设备关键技术的研究与实现,TP212.9
  7. 基于集中决策的广域后备保护研究,TM774
  8. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  9. 水下机械手信息融合及作业规划研究,TP241
  10. 基于信息融合的转基因食品安全评估,TS201.6
  11. 基于多信息融合的轮式移动机器人定位导航技术研究,TP242
  12. 基于贝叶斯网络的电机故障诊断方法研究,TM307.1
  13. 多尺度信息融合算法研究,TP202
  14. 基于信息融合的模拟电路故障诊断研究,TN710
  15. 基于证据网络的多源敌我识别信息融合处理方法研究,TP202
  16. 基于信息融合的高速公路交通事件自动检测算法研究,U491
  17. 多传感器信息融合技术在虚拟中医正骨手法系统中的应用研究,R274
  18. 基于多传感器组合的自动导引车系统研究与应用,TP242.2
  19. 网络舆情分析关键技术研究与实现,TP393.09
  20. 多传感器信息融合技术在铣削过程监测中的应用研究,TG54
  21. 基于信息融合的配电柜故障电弧预报警系统算法研究,TM592

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com