学位论文 > 优秀研究生学位论文题录展示
Web数据抽取技术及应用
作 者: 徐晴
导 师: 刘江;钱卫国
学 校: 华东理工大学
专 业: 计算机技术
关键词: 数据抽取 XPath 正则表达式 锚点 价格对比
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 69次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet快速发展,网上信息资源呈爆炸式增长,如何快速有效地获得所需信息,成为一个重要课题。Web上的大量有用信息以HTML页面呈现,这些数据是半结构化或非结构化的,Web数据抽取技术即为从页面中抽取出结构化数据的技术。在介绍了Web数据抽取技术的背景及发展历史之后,本文叙述了Web数据抽取的基本原理和目前存在的主要抽取方法,着重分析了基于HTML结构分析的方法,以及数据抽取规则生成的主要方法。详细研究了XPath绝对路径及相对路径的抽取法以及锚点法定位,给出了其适用范围以及缺点。在上述分析基础上,本文综合现有的XPath、锚点法、正则表达式等的优点,并进行了改进,提出基于XPath和正则表达式的Web数据抽取方法。该方法采用正则表达式进行锚点定位,确定数据块的基准位置。然后使用XPath相对路径进行块内数据项匹配实现数据抽取,使用正则表达式进行数据项精确匹配。描述了XPath相对路径生成算法。为验证该方法的有效性,进行了实验验证并给出了对照测试结果。使用文本提出的基于XPath和正则表达式的Web数据抽取方法,设计并实现了商品价格对比网站。在具体项目中的应用效果表明,该方法在规则生成的自动化和抽取数据的准确性之间达到了较好的平衡,且具有较好的适应性以及可维护性。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-15 1.1 研究背景 9-10 1.2 发展历史 10-11 1.3 国内外研究现状 11-13 1.4 现有技术存在的问题 13 1.5 研究内容 13-14 1.6 本文组织 14-15 第2章 数据抽取技术 15-20 2.1 半结构化数据 15 2.2 数据抽取技术 15-16 2.3 Web数据抽取过程 16-17 2.3.1 页面获取 16-17 2.3.2 数据抽取 17 2.3.3 数据校验及转换 17 2.3.4 数据存储 17 2.3.5 数据集成 17 2.4 Web数据抽取方法 17-19 2.4.1 直接解析方法 18 2.4.2 HTML结构分析方法 18-19 2.4.3 概念建模方法 19 2.5 Web数据抽取规则 19 2.6 小结 19-20 第3章 基于XPath和正则表达式的抽取方法 20-30 3.1 概述 20 3.2 基于XPath和锚点法的数据抽取 20-25 3.2.1 XPath 20-22 3.2.2 XPath抽取数据 22-24 3.2.3 XPath相对路径 24 3.2.4 锚点法定位 24-25 3.3 基于XPath和正则表达式的数据抽取方法 25-28 3.3.1 正则表达式确定锚点 25-27 3.3.2 相对路径半自动生成 27-28 3.4 基于XPath和正则表达式的数据抽取方法评价 28-29 3.4.1 评价指标 28 3.4.2 实验方法和结果 28-29 3.5 小结 29-30 第4章 Web数据抽取技术在价格对比网站中的应用 30-39 4.1 商品价格对比网站概述 30 4.2 需求分析与可行性研究 30-31 4.3 系统结构与技术方案 31-32 4.4 开发技术 32-33 4.4.1 B/S模式及Java Web技术 32 4.4.2 XML及相关技术 32-33 4.4.3 关键词处理技术 33 4.5 系统实现 33-38 4.6 小结 38-39 第5章 结论 39-41 参考文献 41-45 致谢 45
|
相似论文
- 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
- 面向复杂科学文本数据抽取转换及装载技术的研究与应用,TP391.1
- 基于ODS数据仓库的商业银行产品管理系统的设计与实现,TP311.52
- 达梦数据交换平台(DMETL)执行过程改进,TP311.13
- 数据仓库元数据集成系统的设计与实现,TP311.13
- 基于Agent的分布式元搜索引擎架构研究与实现,TP391.3
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- 基于CPU+GPU异构平台的字符串匹配算法研究与实现,TP301.6
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web接口集成与数据标注方法研究,TP393.09
- 面向存储的正则表达式匹配算法研究,TP393.08
- 基于特征匹配的深度报文检测性能优化研究,TP393.08
- Deep Web数据抽取及语义标注研究,TP393.09
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
- XML更新流的XQuery查询处理技术研究,TP311.13
- BGP协议中正则表达式匹配系统的研究与软硬件实现,TP368.1
- 基于STRAIGHT谱的语音识别算法研究,TN912.34
- 船舶板架结构四边形网格自动生成方法及关键算法研究,U661.4
- 无线传感器网络基于聚类的分布式算法分析,TN929.5
- 基于IRC协议的僵尸网络检测系统的实现,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|