学位论文 > 优秀研究生学位论文题录展示
基于树结构的Web信息抽取技术研究
作 者: 廉成洋
导 师: 毛宇光
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: Web信息抽取 数据导向型页面 二叉树 数据记录定位 STMCTN算法 层次聚类 数据属性对齐
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 85次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的发展,Web已经成为一个庞大而复杂的知识库,研究如何从Web中抽取信息变得越来越重要。Web中有一类重要的页面是数据导向型页面,这种页面动态生成、便于更新,研究如何从这种页面中抽取信息是Web信息抽取技术研究的重点。在学习信息抽取相关理论和前人研究成果的基础上,本文针对数据导向型页面提出了一种基于树结构的Web信息抽取方法,围绕此方法做了以下工作:第一,提出了一种基于二叉树的HTML到XML的转换方法。从HTML到XML的转换是Web信息抽取的预处理模块,对Web信息抽取的效果起着决定性的作用。本文提出的基于二叉树的HTML到XML的转换方法可以有效地处理HTML中三种典型的错误。第二,提出了一种新的Web信息抽取中数据记录的定位方法。本文提出的数据记录定位方法分三步进行,首先通过计算节点的扇出度定位主要内容区,然后在主要内容区内定位数据区域,最后在数据区域内定位数据记录。分析发现STM算法在进行树的匹配时不够准确,本文对其进行了改进,提出了一种加权的树匹配算法STMCTN,并相应地改进了树的相似度计算等算法。第三,提出了一种新的Web信息抽取中数据属性的对齐方法。在定位到数据记录以后,需要对同一类的多个数据记录进行比对,将其数据属性进行对齐,进而输出数据记录,为此本文提出了一种基于聚类和树的比对的数据属性对齐方法,本方法避免了对齐结果冗余过多的现象。针对本文提出的三种方法,分别通过实验对方法的性能进行了分析。
|
全文目录
摘要 4-5 ABSTRACT 5-8 图表清单 8-10 注释表 10-11 第一章 绪论 11-17 1.1 研究背景和意义 11-12 1.2 国内外研究现状 12-13 1.3 研究对象和研究模型 13-15 1.4 本文的研究内容及组织 15-17 第二章 Web 信息抽取技术 17-23 2.1 Web 信息抽取技术的概念 17 2.2 信息抽取与信息检索 17-18 2.3 现有Web 信息抽取技术的分类 18-21 2.3.1 根据自动化程度分类 18 2.3.2 根据抽取原理分类 18-21 2.4 Web 信息抽取存在的问题 21 2.5 Web 信息抽取系统的评价指标 21-22 2.6 小结 22-23 第三章 基于二叉树的HTML 到XML 的转换方法 23-34 3.1 引言 23-24 3.2 HTML、XML 和XHTML 24-25 3.3 XML 和HTML 的二叉树表示 25-27 3.4 基于二叉树的HTML 到 XML 的转换算法 27-31 3.4.1 算法流程 27 3.4.2 将HTML 划分为段列表 27-28 3.4.3 HTML 二叉树的构造 28-30 3.4.4 XML 文件的输出 30-31 3.4.5 算法实例 31 3.4.6 算法修正 31 3.5 实验及分析 31-33 3.6 小结 33-34 第四章 Web 信息抽取中的数据记录定位 34-60 4.1 引言 34-35 4.2 主要内容区的定位 35-37 4.3 数据区域的定位 37-54 4.3.1 树的编辑距离 38-39 4.3.2 树的最大匹配 39-46 4.3.3 树的相似度计算 46-49 4.3.4 一般节点的比较 49-51 4.3.5 数据区域的定位 51-54 4.4 数据记录的定位 54-56 4.5 实验及分析 56-59 4.6 小结 59-60 第五章 Web 信息抽取中的数据属性对齐和抽取 60-70 5.1 引言 60-61 5.2 数据记录的聚类 61-62 5.3 数据属性的对齐 62-64 5.3.1 处理流程 62-63 5.3.2 插入主树的条件 63-64 5.4 基于聚类的数据记录对齐算法 64-67 5.5 实验及分析 67-69 5.6 小结 69-70 第六章 总结与展望 70-72 6.1 总结 70 6.2 展望 70-72 参考文献 72-76 致谢 76-77 在学期间的研究成果及发表的学术论文 77
|
相似论文
- 对于系统发育谱法聚类算法的改进,TP311.13
- 网页属性抽取的方法研究,TP391.1
- 面向消费者感性需求的手持GPS设计探讨,TN967.1
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- 企业资产证券化融资研究,F832.51
- 基于实物期权理论的中国卷烟销售终端体系投资决策研究,F274;F426.8
- 基于两层次聚类的车辆配载调度方法,U492.22
- 多光谱图像混合像元分类技术研究,TP751
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于滑窗小波二叉树的网络异常检测与分析,TP393.08
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 基于ECC的高效可分电子现金协议研究,TP393.09
- 基于Web的股评观点倾向性分析研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 战术信息传输系统的研究,TN919.2
- 基于实物期权的房地产延迟开发决策研究,F293.3;F832.5
- 基于实物期权理论的电信运营企业顾客资产测量研究,F626;F224
- 基于数据处理中心的企业竞争情报系统研究,F272
- 二代数与结合代数,O153
- 模糊聚类中若干问题的研究,O235
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|