学位论文 > 优秀研究生学位论文题录展示
垂直搜索引擎中主题爬行技术的研究
作 者: 史艳
导 师: 熊忠阳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 主题爬行 维基百科 主题描述 网页分块 自适应方法
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的飞速发展,传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求,垂直搜索引擎应运而生。它利用主题爬行技术来搜集Web中与某个领域(主题)相关的网页,并提供面向该领域的检索服务。无疑,主题爬行技术是垂直搜索引擎的核心部分,直接影响着垂直搜索引擎的性能。本文重点研究了主题描述、候选链接优先级的预测和自适应的爬行策略等主题爬行中的关键技术,主要内容包括:(1)提出了一种基于维基百科的主题描述方法。对主题进行清晰、准确的描述是主题爬行器的基础,主题的描述方式也决定了主题相关性的计算方式。现有的算法多基于特征集来描述主题,并通过特征词的机械匹配来计算主题的相关性,但它不仅忽视了特征词之间的语义关系,而且使得特征词分布过于稀疏,降低了对主题的描述性;也有一些方法引入了本体或语义词典来分析词语之间的语义关联,但现有的本体很少,而语义词典多存在着开放性差、词汇量有限、更新不及时的缺点。针对这些不足,本文将易于获取、更新及时、描述客观的维基百科作为背景知识,根据分类树来构建主题向量空间,并将主题描述文档映射成向量来描述主题,并且在相关性计算时引入了语义分析;同时,利用消歧参照表来解决词语映射到概念的过程中映射不符合实际或一词多义的问题。实验表明,该方法比传统方法在信息量总和及查准率上均有显著提高。(2)提出了一种基于网页分块的候选链接优先级的预测方法。候选链接的优先级预测决定了主题爬行的方向和结果,现有算法多根据页面内容、锚文本和锚文本上下文来预测候选链接的优先级,但页面中含有广告等噪音数据,锚文本上下文难以界定,锚文本包含的信息量也很有限。因此,本文首先基于深度优先遍历对网页进行分块,过滤掉了部分噪音节点,再从网页内容文本、块文本和锚文本三个方面综合预测候选链接的优先级。实验表明,引入网页分块有效改善了主题爬行的性能。(3)提出了基于信息增益和基于信息量总和比率的两种自适应方法。由于根据分类树的概念层次体系所获得的主题初始描述往往不够客观和准确,所以本文在每爬行一定数量的网页后,就根据两种自适应方法对已爬行的所有网页重新计算并自动反馈更新主题向量空间中每个概念的权重,从而完善主题描述。实验表明,两者都实现了主题的增量爬行;引入基于信息增益的自适应方法后爬取的网页比引入基于信息量总和比率的自适应方法后爬取的网页与主题更加相关,而基于信息量总和比率的自适应方法在总体上则比基于信息增益的自适应方法有更高的稳定性。最后,设计并实现了一个主题爬行的原型系统,并利用该原型系统进行了一系列实验,对本文中提出的方法进行验证分析。
|
全文目录
摘要 3-5 ABSTRACT 5-10 1 绪论 10-17 1.1 主题爬行技术的研究背景及意义 10-12 1.1.1 垂直搜索引擎的提出 10 1.1.2 垂直搜索引擎与通用搜索引擎的区别 10-11 1.1.3 主题爬行技术的提出 11 1.1.4 主题爬行技术的研究意义 11-12 1.2 主题爬行技术的研究现状 12-14 1.3 本文的研究内容及组织结构 14-17 1.3.1 本文的研究内容 14-15 1.3.2 本文的组织结构 15-17 2 主题爬行相关技术 17-28 2.1 引言 17 2.2 主题描述相关技术 17-20 2.2.1 主题表示模型 17-18 2.2.2 确定主题向量空间 18-19 2.2.3 主题特征加权 19-20 2.3 搜索策略 20-21 2.4 网页预处理相关技术 21-23 2.4.1 网页规范化 21 2.4.2 网页解析 21 2.4.3 网页分块 21-22 2.4.4 分词、去停用词 22-23 2.5 主题相关性计算中的相关技术 23-27 2.5.1 主题相关性的度量方法 23 2.5.2 基于 HowNet 的语义分析技术 23-24 2.5.3 基于 WordNet 的语义分析技术 24-25 2.5.4 基于 ODP 的语义分析技术 25-26 2.5.5 基于本体的语义分析技术 26-27 2.6 小结 27-28 3 基于维基百科的主题描述 28-35 3.1 引言 28 3.2 主题描述的主要方法及存在问题 28-29 3.3 维基百科简介 29-31 3.4 基于维基百科的主题描述方法 31-34 3.4.1 扩充维基百科的分类树 31 3.4.2 构建主题向量 31-33 3.4.3 词语映射到概念过程中的消歧 33-34 3.5 小结 34-35 4 基于网页分块的候选链接优先级的预测方法 35-44 4.1 引言 35 4.2 候选链接优先级预测的主要方法及存在问题 35-38 4.3 基于网页分块的候选链接优先级的预测方法 38-43 4.3.1 基于深度优先遍历的网页分块 38-40 4.3.2 候选链接的优先级预测 40-43 4.4 小结 43-44 5 自适应的主题爬行策略 44-50 5.1 引言 44 5.2 自适应主题爬行策略的相关研究及存在问题 44-46 5.3 基于维基百科和网页分块的自适应的主题爬行器 46-47 5.4 基于信息增益的自适应方法 47-48 5.4.1 信息增益简介 47 5.4.2 基于信息增益的自适应方法 47-48 5.5 基于信息量总和比率的自适应方法 48-49 5.6 小结 49-50 6 实验与分析 50-60 6.1 引言 50 6.2 主题爬行原型系统的实现 50-51 6.3 实验数据和参数设置 51-52 6.3.1 实验数据 51-52 6.3.2 参数设置 52 6.4 评价指标 52-53 6.5 实验方案 53-59 6.5.1 主题爬行策略的功能演进过程 53-54 6.5.2 主题描述方法的对比实验 54-55 6.5.3 主题描述详略程度对主题爬行性能的影响对比实验 55-57 6.5.4 引入网页分块前后的对比实验 57 6.5.5 不同的自适应方法之间的对比实验 57-59 6.6 小结 59-60 7 总结与展望 60-63 7.1 本文总结 60-61 7.2 进一步的工作 61-63 致谢 63-64 参考文献 64-68 附录 68 A. 作者在攻读硕士学位期间发表的论文目录 68 B. 作者在攻读硕士学位期间参与的科研项目 68
|
相似论文
- 基于Web的未登录词翻译技术研究,TP391.2
- 著作权法视域中的“维基百科”,D923.41
- 基于网页分块的主题爬虫方法研究,TP391.3
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 基于维基百科的命名实体消歧研究,TP391.1
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于维基百科的社会网络分析技术研究,TP393.0
- 基于主题策略的Web信息监测系统研究与实现,TP393.09
- 基于维基百科的语义比较,TP391.1
- 维基百科的网络结构及可信分析,TP393.02
- 面向OA期刊检索结果页面的信息抽取方法研究,TP393.092
- 网络文本信息采集分析关键技术研究与实现,TP391.1
- 主题搜索引擎的研究与设计,TP391.3
- 高速公路入口匝道控制研究,U491.54
- 基于文档结构的半监督Blog信息抽取技术,TP393.092
- 基于二次搜索的搜索引擎技术研究,TP391.3
- 交互式问答系统中的省略恢复研究,TP391.1
- 混沌系统及复杂网络的同步问题的研究,O157.5
- 基于Lucene的面向主题爬行搜索引擎的应用研究,TP393.092
- 基于领域本体的Deep Web数据源聚焦技术研究,TP393.09
- 基于网页分块的Web社区识别,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|