学位论文 > 优秀研究生学位论文题录展示

基于网页结构的Web信息提取系统的设计与实现

作 者: 张立岩
导 师: 赵宏伟
学 校: 吉林大学
专 业: 计算机系统结构
关键词: DOM 信息提取 分块 STU-DOM 相关度
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 65次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络及其应用的不断普及,Internet已经成为世界上最大的信息库,但这些信息对用户来说并非都是有用的,这些有用的信息通常夹杂在大量无关的结构和文字中,这些无关的结构和文字严重影响了用户获取网页主题信息的效率,也导致Web的可用性的降低。网络信息提取和集成系统的作用是提取Internet网上的数据,将其集成到XML或者关系数据库中,从而为用户提供数据检索、数据挖掘和OLAP等其他信息服务。但是,HTML网页中的数据并非结构化的,并且网页中包含了大量和网页数据无关的HTML标签、图片、flash广告等、这就给信息集成系统集成数据带来了不小的困难,为解决这一困难,相关学者做了大量研究,随之出现了网页主题信息提取相关技术,通过删除网页中冗余网页标签和于主题信息无关的图片、flash广告等,提取出网页的真正主题内容,可以明显地降低网页大小并增加信息的有用性,从而能提高信息集成系统的效率和准确性,也为后续的数据检索、数据挖掘、OLAP等数据服务奠定了基础。因此,网页主题信息提取在理论和应用上都有着十分重要的研究意义和应用价值,并成为近些年来信息系统领域的研究热点之一。本文通过大量的研究,发现目前的网页主题信息提取方法都有着这样或那样的缺点和不足,因此,本文提出了一种新的网页主题信息提取方法,该方法基于STU-DOM模型,提出了基于该模型的页面结构过滤和分块算法以及基于主题相关度的剪枝,并根据此算法设计和实现了网页主题信息提取系统。基于分块理论,设计了STU树模型和STU-DOM模型。STU-DOM模型能够有效地描述网页的结构、内容和分块布局,提高了算法的准确性、可靠性和可扩展性。基于STU-DOM模型,提出了HTML结构过滤和分块算法,以及基于主题相关度的剪枝算法。这些算法可以自动地从异构网页中提取出主题信息,有较高的准确性和通用性。提出并实现了一些优化策略:改进了分块粒度,设计了虚词表和关键词表,加权计算主题相关度。通过优化显著提高了算法的效率和准确性,降低了网页信息冗余度。实验测试表明,本文提出的方法能够自动、准确、快速地提取出网页的主题信息,而且不改变网页的内容、结构和布局,因此有较高的研究意义和应用价值。

全文目录


相似论文

  1. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  2. 环青海湖区沙漠化土地景观格局变化分析,X171
  3. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  4. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  5. 图谱研究的一般方法,O157.5
  6. 基于稀疏分解的医学图像去噪,TP391.41
  7. 一类分数阶正交变换及其应用的研究,TN911.7
  8. 基于Webkit的移动Widget引擎研究与实现,TP391.3
  9. 面向教育新闻的主题爬虫设计与实现,TP391.3
  10. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  11. 工程新闻报道的信息提取及应用研究,G212
  12. 基于DCT域高压缩图像去块效应算法研究,TP391.41
  13. 船体分段的机器人焊接路径规划与离线编程,TP242
  14. 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
  15. 面向Web的中文自动文摘生成的研究,TP391.1
  16. 程序理解中支持多语言理解与信息提取技术的研究,TP311.52
  17. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  18. P2P环境下基于信任的访问控制研究,TP393.08
  19. 基于SVG技术人物动画课件生成系统的设计与应用,TP391.41
  20. 基于DOM建模的网页木马检测的分类器设计,TP309.5
  21. 基于四元数小波幅值相位特征的人脸识别方法,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com