学位论文 > 优秀研究生学位论文题录展示

基于网页结构的Web信息提取系统的设计与实现

作　者: 张立岩
导　师: 赵宏伟
学　校: 吉林大学
专　业: 计算机系统结构
关键词: DOM 信息提取分块 STU-DOM 相关度
分类号: TP393.09
类　型: 硕士论文
年　份: 2011年
下　载: 65次
引　用: 0次
阅　读: 论文下载

内容摘要

随着网络及其应用的不断普及,Internet已经成为世界上最大的信息库,但这些信息对用户来说并非都是有用的,这些有用的信息通常夹杂在大量无关的结构和文字中,这些无关的结构和文字严重影响了用户获取网页主题信息的效率,也导致Web的可用性的降低。网络信息提取和集成系统的作用是提取Internet网上的数据,将其集成到XML或者关系数据库中,从而为用户提供数据检索、数据挖掘和OLAP等其他信息服务。但是,HTML网页中的数据并非结构化的,并且网页中包含了大量和网页数据无关的HTML标签、图片、flash广告等、这就给信息集成系统集成数据带来了不小的困难,为解决这一困难,相关学者做了大量研究,随之出现了网页主题信息提取相关技术,通过删除网页中冗余网页标签和于主题信息无关的图片、flash广告等,提取出网页的真正主题内容,可以明显地降低网页大小并增加信息的有用性,从而能提高信息集成系统的效率和准确性,也为后续的数据检索、数据挖掘、OLAP等数据服务奠定了基础。因此,网页主题信息提取在理论和应用上都有着十分重要的研究意义和应用价值,并成为近些年来信息系统领域的研究热点之一。本文通过大量的研究,发现目前的网页主题信息提取方法都有着这样或那样的缺点和不足,因此,本文提出了一种新的网页主题信息提取方法,该方法基于STU-DOM模型,提出了基于该模型的页面结构过滤和分块算法以及基于主题相关度的剪枝,并根据此算法设计和实现了网页主题信息提取系统。基于分块理论,设计了STU树模型和STU-DOM模型。STU-DOM模型能够有效地描述网页的结构、内容和分块布局,提高了算法的准确性、可靠性和可扩展性。基于STU-DOM模型,提出了HTML结构过滤和分块算法,以及基于主题相关度的剪枝算法。这些算法可以自动地从异构网页中提取出主题信息,有较高的准确性和通用性。提出并实现了一些优化策略:改进了分块粒度,设计了虚词表和关键词表,加权计算主题相关度。通过优化显著提高了算法的效率和准确性,降低了网页信息冗余度。实验测试表明,本文提出的方法能够自动、准确、快速地提取出网页的主题信息,而且不改变网页的内容、结构和布局,因此有较高的研究意义和应用价值。

基于网页结构的Web信息提取系统的设计与实现

内容摘要

全文目录

相似论文