学位论文 > 优秀研究生学位论文题录展示
搜索引擎中网页净化与消重技术研究
作 者: 朱凤芳
导 师: 刘辉林
学 校: 东北大学
专 业: 计算机应用技术
关键词: 网页噪音 网页净化 网页重复 网页消重
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 94次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的飞速发展导致数字化信息呈爆炸式增长。搜索引擎作为帮助人们在海量信息中寻觅所需信息的工具,其重要性与日俱增。然而,由于网页噪音和重复网页的存在,搜索引擎的检索结果中存在着大量的冗余信息,使得搜索引擎的服务质量降低。因此,如何快速准确地去除网页噪音和重复网页成为一个亟待解决的问题。本文深入研究了搜索引擎中网页净化与消重的技术。首先分析了网页噪音及网页重复对搜索引擎的影响;然后介绍了网页噪声和网页重复的相关概念及特点,研究了网页净化与消重的经典算法,并分析了这些算法的优点和不足。在网页净化方面,根据同一网站的网页结构布局基本相同的特点,提出了一种新的基于树编辑距离的网页净化算法。该算法利用树编辑距离和严格自顶向下映射原理,以最小的代价检测网站的模板,并将该模板作为噪音信息从网页中去除。实验结果表明,该算法在保证网页主题内容完整的同时,有效的去除了网页噪音。在网页消重方面,针对web上网页重复的现象,提出了一种新的基于信息指纹的网页消重算法。该算法为了排除噪音的干扰,将网页净化技术融入算法中,并充分利用网页文本的内容和结构信息来提取网页特征,然后结合信息指纹技术,实现了重复网页的去除。实验结果表明,该算法在保证较高准确率的情况下,具有更高的召回率。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第一章 绪论 9-13 1.1 课题背景 9-10 1.2 课题提出及意义 10-11 1.3 本文的研究内容 11-12 1.4 本文的组织结构 12-13 第二章 相关工作 13-25 2.1 网页净化与消重 13-15 2.1.1 网页噪音 13-14 2.1.2 网页重复 14-15 2.2 网页净化技术 15-20 2.2.1 单一页面网页净化 16-18 2.2.2 同一模板网页净化 18-20 2.3 网页消重技术 20-24 2.3.1 完全重复网页消重 20-22 2.3.2 近似重复网页消重 22-24 2.4 本章小结 24-25 第三章 基于树编辑距离的网页净化 25-45 3.1 树编辑距离 25-29 3.2 网页净化方法 29-38 3.2.1 网页预处理 30-31 3.2.2 标签树构建 31-33 3.2.3 模板生成与去除 33-38 3.3 实验 38-44 3.3.1 评测标准 38-39 3.3.2 实验设置 39 3.3.3 实验结果与分析 39-44 3.4 本章小结 44-45 第四章 基于信息指纹的网页消重 45-61 4.1 网页消重方法 45-55 4.1.1 网页特征抽取 46-49 4.1.2 信息指纹生成 49-52 4.1.3 重复网页判定 52-55 4.2 实验 55-60 4.2.1 评测标准 55-56 4.2.2 实验设置 56-57 4.2.3 实验结果与分析 57-60 4.3 本章小结 60-61 第五章 总结与展望 61-63 5.1 总结 61-62 5.2 展望 62-63 参考文献 63-67 致谢 67
|
相似论文
- 搜索引擎系统中网页消重的研究与实现,TP393.092
- 元搜索引擎的研究与实现,TP391.3
- 文本分类语料库自动构建系统的研究与改进,TP391.1
- 智能搜索中的中文网页分类研究,TP393.092
- 基于贝叶斯算法和后向链接的中文网页组合分类研究,TP391.1
- 网页去噪音与分类算法研究,TP393.092
- Web挖掘中信息采集技术研究与实现,TP274.2
- 基于布隆过滤器算法的网页消重技术的实现与应用,TP393.092
- 垂直搜索引擎主要技术研究,TP391.3
- 基于多特征的HTML网页内容提取的研究,TP391.41
- 网页采集、净化与分类,TP393.092
- 网页信息净化方法的研究与实现,TP393.092
- Internet网页自动分类技术的研究,TP393.092
- WEB文本挖掘系统,TP311.13
- 搜索引擎系统网页消重的研究与实现,TP391.3
- 基于文本聚类的网页消重算法研究,TP393.092
- 基于Web对象的分布式抓取及存储的设计与研究,TP393.092
- 网页的预处理技术,TP393.092
- 国内植物园网站分析与上海植物园网站开发,TP393.092
- 网页设计元素解析与探究,TP393.092
- 基于微博客的社区挖掘研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|