学位论文 > 优秀研究生学位论文题录展示

基于XML的Web信息抽取技术研究

作 者: 郑邦习
导 师: 李文
学 校: 大连交通大学
专 业: 计算机应用技术
关键词: Web信息抽取 XML DOM XPath XSLT
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的出现,人们可以更加广泛、便利的共享信息,但是随着Internet的飞速发展,人们不禁发现要想从海量的数据中获取自已心仪的数据已经越来越困难,由此搜索引擎已经凸显出种种不足。在此背景下,人们开始着眼于关于Web信息抽取技术的研究。目前互联网上大部分网页都是由HTML语言编写而成,由于它是早期的网页编写语言,所以难免会有许多缺点,比如:编码不规范,结构臃肿,内容和页面的排版、表现形式混在一起,内容过度膨胀等等,这些缺点使得基于HTML的Web信息抽取系统的研究举步维艰,系统在通用性和精确度上都很难让人满意。XML是HTML之后的一种标记语言,它简单易学且是跨平台语言,现如今已被广泛采用。XML相对于HTML的优点是它将用户界面与结构化数据分隔开来,同时使用XML实现的信息抽取系统往往具有更好的稳定性和可扩展性,抽取结果的精度也更高。因此本文所研究的抽取系统是基于XML语言的,并且在对抽取系统实现的过程中使用到的关键技术的讨论基础之土,构造出一种半自动化的Web抽取模型。主要研究了以下内容:(1)在相似页面的获取上,采用了基于URL结构比较法和基于子树最优自由匹配的方法,成功的解决了由于样本网页杂乱的内容所带来的抽取效率低下的问题。基于URL结构比较法和基于子树最优匹配方法的结合,不仅从Web页面的外部表现考虑页面之间的相似性,更考虑到页面的内组成结构,这样得到的页面之间的相似度能够更好的衡量页面的相似性。(2)利用DOM树技术,获得对应于目标页面的DOM树模型,并在DOM树中,使用XPath生成算法,获得用户感兴趣的的信息节点的XPath路径表达式。(3)充分利用XSLT在转化XML文档上的优势,同时将得到的XPath路径与之相结合,形成模式统一的抽取规则模块,更加高效的实现了对关键信息的抽取。实验证明,本文提出的基于XML的Web信息抽取系统能够高效的实现对样本页面中关键信息的抽取,同时获得的结果拥有良好的召回率和准确率。

全文目录


摘要  5-6
Abstract  6-9
第一章 绪论  9-13
  1.1 课题研究的背景和意义  9-10
  1.2 国内外研究现状与分析  10-11
    1.2.1 国外Web信息抽取现状  10-11
    1.2.2 国内Web信息抽取现状  11
  1.3 论文的研究内容  11-12
  1.4 论文的组织结构  12-13
第二章 Web信息抽取方法  13-21
  2.1 Web信息抽取方法概述  13
  2.2 Web信息抽取的分类  13-20
    2.2.1 基于自然语言理解方式的信息抽取  13-14
    2.2.2 基于包装器归纳方式的样本学习  14-16
    2.2.3 基于Ontology方式的信息抽取  16-17
    2.2.4 基于HTML结构的信息抽取  17-19
    2.2.5 基于Web查询方式的信息抽取  19-20
  2.3 本章小结  20-21
第三章 基于XML的Web信息抽取技术  21-32
  3.1 HTML、XHTML与XML  21-26
    3.1.1 HTML  21-22
    3.1.2 XHTML  22
    3.1.3 XML  22-26
  3.2 XPathXSLT  26-29
    3.2.1 XPath  26-27
    3.2.2 XSLT  27-29
  3.3 XML DOM模型  29-31
  3.4 本章小结  31-32
第四章 基于XML的Web信息抽取模型  32-42
  4.1 基于Web的信息抽取面临的问题  32-33
  4.2 信息抽取目标  33
  4.3 样本网页的获取  33-38
    4.3.1 相似页面的意义  33-34
    4.3.2 基于URL结构比较法  34-35
    4.3.3 基于子树最优自由匹配  35-38
  4.4 Web信息抽取模型  38-41
    4.4.1 Web信息抽取思路  38-39
    4.4.2 Web信息抽取流程  39-41
  4.5 本章小结  41-42
第五章 基于XML的Web信息抽取系统的实现  42-57
  5.1 数据采集  42-43
  5.2 页面预处理  43-48
    5.2.1 页面清洗  44-46
    5.2.2 页面解析  46-48
  5.3 生成抽取规则  48-55
    5.3.1 利用JTree显示DOM树  49-50
    5.3.2 生成XPath表达式  50-52
    5.3.3 抽取模板XSLT  52-53
    5.3.4 Web信息抽取  53-55
  5.4 系统性能评估  55-56
  5.5 本章小结  56-57
第六章 总结与展望  57-59
  6.1 总结  57
  6.2 展望  57-59
参考文献  59-62
攻读硕士学位期间发表的学术论文  62-63
致谢  63

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 支持XML数据查询的F&B索引结构的研究,TP311.13
  3. LXI自动测试系统集成技术研究,TP274
  4. 基于MDA的界面自动生成方法的研究,TP311.5
  5. C++代码缺陷检测系统的研究与设计,TP311.53
  6. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  7. 基于XML的异构数据交换系统的设计与实现,TP311.52
  8. 基于关系数据库理论的面向对象数据库系统应用研究,TP311.52
  9. 支持Top-k查询的银行记账查询系统的设计与实现,TP311.52
  10. 模糊XML Twig模式查询算法的研究,TP311.13
  11. 基于.NET的学生顶岗实习管理系统设计与实现,TP311.52
  12. 概率XML数据上关键字检索算法的研究与实现,TP391.3
  13. 电力系统多元化信息分发处理系统设计,TP311.52
  14. XX数据库系统通用功能接口层的设计与实现,TP311.52
  15. 强化混凝去除微污染原水中溶解性有机物的研究,TU991.2
  16. 基于XML的矿图图形标记语言的研究与应用,TP391.72
  17. 网页属性抽取的方法研究,TP391.1
  18. SOA架构在高校信息化系统中整合技术的应用,TP311.52
  19. 基于观察者模式的银行主动服务系统的设计与实现,TP311.52
  20. Web数据抽取技术及应用,TP311.13
  21. 电业物资管理系统,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com