学位论文 > 优秀研究生学位论文题录展示

搜索引擎中网页净化与消重技术研究

作 者: 朱凤芳
导 师: 刘辉林
学 校: 东北大学
专 业: 计算机应用技术
关键词: 网页噪音 网页净化 网页重复 网页消重
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 94次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的飞速发展导致数字化信息呈爆炸式增长。搜索引擎作为帮助人们在海量信息中寻觅所需信息的工具,其重要性与日俱增。然而,由于网页噪音和重复网页的存在,搜索引擎的检索结果中存在着大量的冗余信息,使得搜索引擎的服务质量降低。因此,如何快速准确地去除网页噪音和重复网页成为一个亟待解决的问题。本文深入研究了搜索引擎中网页净化与消重的技术。首先分析了网页噪音及网页重复对搜索引擎的影响;然后介绍了网页噪声和网页重复的相关概念及特点,研究了网页净化与消重的经典算法,并分析了这些算法的优点和不足。在网页净化方面,根据同一网站的网页结构布局基本相同的特点,提出了一种新的基于树编辑距离的网页净化算法。该算法利用树编辑距离和严格自顶向下映射原理,以最小的代价检测网站的模板,并将该模板作为噪音信息从网页中去除。实验结果表明,该算法在保证网页主题内容完整的同时,有效的去除了网页噪音。在网页消重方面,针对web上网页重复的现象,提出了一种新的基于信息指纹的网页消重算法。该算法为了排除噪音的干扰,将网页净化技术融入算法中,并充分利用网页文本的内容和结构信息来提取网页特征,然后结合信息指纹技术,实现了重复网页的去除。实验结果表明,该算法在保证较高准确率的情况下,具有更高的召回率。

全文目录


摘要  5-6
ABSTRACT  6-9
第一章 绪论  9-13
  1.1 课题背景  9-10
  1.2 课题提出及意义  10-11
  1.3 本文的研究内容  11-12
  1.4 本文的组织结构  12-13
第二章 相关工作  13-25
  2.1 网页净化与消重  13-15
    2.1.1 网页噪音  13-14
    2.1.2 网页重复  14-15
  2.2 网页净化技术  15-20
    2.2.1 单一页面网页净化  16-18
    2.2.2 同一模板网页净化  18-20
  2.3 网页消重技术  20-24
    2.3.1 完全重复网页消重  20-22
    2.3.2 近似重复网页消重  22-24
  2.4 本章小结  24-25
第三章 基于树编辑距离的网页净化  25-45
  3.1 树编辑距离  25-29
  3.2 网页净化方法  29-38
    3.2.1 网页预处理  30-31
    3.2.2 标签树构建  31-33
    3.2.3 模板生成与去除  33-38
  3.3 实验  38-44
    3.3.1 评测标准  38-39
    3.3.2 实验设置  39
    3.3.3 实验结果与分析  39-44
  3.4 本章小结  44-45
第四章 基于信息指纹的网页消重  45-61
  4.1 网页消重方法  45-55
    4.1.1 网页特征抽取  46-49
    4.1.2 信息指纹生成  49-52
    4.1.3 重复网页判定  52-55
  4.2 实验  55-60
    4.2.1 评测标准  55-56
    4.2.2 实验设置  56-57
    4.2.3 实验结果与分析  57-60
  4.3 本章小结  60-61
第五章 总结与展望  61-63
  5.1 总结  61-62
  5.2 展望  62-63
参考文献  63-67
致谢  67

相似论文

  1. 搜索引擎系统中网页消重的研究与实现,TP393.092
  2. 元搜索引擎的研究与实现,TP391.3
  3. 文本分类语料库自动构建系统的研究与改进,TP391.1
  4. 智能搜索中的中文网页分类研究,TP393.092
  5. 基于贝叶斯算法和后向链接的中文网页组合分类研究,TP391.1
  6. 网页去噪音与分类算法研究,TP393.092
  7. Web挖掘中信息采集技术研究与实现,TP274.2
  8. 基于布隆过滤器算法的网页消重技术的实现与应用,TP393.092
  9. 垂直搜索引擎主要技术研究,TP391.3
  10. 基于多特征的HTML网页内容提取的研究,TP391.41
  11. 网页采集、净化与分类,TP393.092
  12. 网页信息净化方法的研究与实现,TP393.092
  13. Internet网页自动分类技术的研究,TP393.092
  14. WEB文本挖掘系统,TP311.13
  15. 搜索引擎系统网页消重的研究与实现,TP391.3
  16. 基于文本聚类的网页消重算法研究,TP393.092
  17. 基于Web对象的分布式抓取及存储的设计与研究,TP393.092
  18. 网页的预处理技术,TP393.092
  19. 国内植物园网站分析与上海植物园网站开发,TP393.092
  20. 网页设计元素解析与探究,TP393.092
  21. 基于微博客的社区挖掘研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com