学位论文 > 优秀研究生学位论文题录展示

网页噪声识别与消除方法研究

作 者: 秦超
导 师: 李登道
学 校: 山东科技大学
专 业: 计算机软件与理论
关键词: 网页噪声 网页噪声识别与消除方法 DOM 网页噪声信息表示模型 VSM
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取的实际内容,人们称这样的网页内容为“网页噪声”。通常人们在通过网络信息检索软件,例如搜索引擎等查询自己关心的内容时,希望能把搜索到的与搜索条件(关键词等)紧密相关的内容显示出来,而其中最好不包含或少包含网页噪声。因此,网页噪声的识别与消除,近些年来已成为网络信息检索领域中的重要研究课题。本文首先对web网页的相关概念及体系结构做了介绍,然后对已有的网页噪声识别与消除方法进行了阐述和分析,在此基础上提出了一种网页噪声识别与消除的方法。该方法的基本思想是先根据网页的内容生成相应的DOM树,然后根据DOM树提供的信息按照一定的规则进行网页噪声信息识别,并形成一个可疑网页噪声信息表示模型。在信息检索时,可根据可疑网页噪声信息表示模型提供的信息,对检索到的信息,采用VSM方法进行相似度计算,并根据相似度计算结果确定最终要去除的网页噪声。论文给出了网页噪声的具体识别方法,可疑网页噪声信息表示模型的形成流程和具体算法,相似度计算及其阈值的选定方法等。作者对本文提出的网页噪声识别和消除方法,以Lucene+Heritrix框架为基础,设计了一个有关的模拟实验环境,并在此环境下,采用实际的网站网页进行的模拟试验。实验表明,论文给出的网页噪声的设别和消除方法是可行和有效的,与其它同类方法相比,在网页噪声的识别与消除的准确率和效率都有所提高。

全文目录


相似论文

  1. 基于Webkit的移动Widget引擎研究与实现,TP391.3
  2. 基于SVG技术人物动画课件生成系统的设计与应用,TP391.41
  3. 网络文本信息采集分析关键技术研究与实现,TP391.1
  4. 基于地理信息系统的配电运行管理信息系统的图形编辑系统,TM769
  5. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  6. 基于深度网页爬虫搜索引擎原型的研究和实现,TP391.3
  7. 湖泊沉积物溶解性有机质与有机氮特征研究,X524
  8. 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
  9. 基于AJAX的数据分析系统的设计与实现,TP311.52
  10. 气象局综合业务系统之会商件制作系统的设计与实现,TP311.52
  11. 基于DOM树的网页相似度研究与应用,TP393.092
  12. 碳纳米管镍基复合材料的制备及性能研究,TB331
  13. 基于包装器模型的信息抽取算法研究,TP311.52
  14. MBR-RO组合工艺深度处理垃圾渗滤液的研究,X703
  15. 基于自动机的嵌入式HTML解析器的设计与实现,TP393.092
  16. 基于WINCE的嵌入式浏览器的研究与实现,TP393.092
  17. Unicode/XML在电子出版物中的实现,TP399
  18. 基于远程机械设备故障诊断的研究与开发,TP277
  19. 基于学习对象元数据的教育资源管理系统的设计与实现,TP315
  20. 江苏地区城市污泥的基本性质及其强制通风堆肥技术研究,X703.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com