学位论文 > 优秀研究生学位论文题录展示
基于内容与链接的页面价值算法研究
作 者: 周晓红
导 师: 陈东义;李国柱
学 校: 电子科技大学
专 业: 软件工程
关键词: 个性化模型 信息检索 类关键词 转移概率矩阵 页面价值
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机硬件技术的发展,Internet应用需求也日益扩大,各种基于Web的软件技术也得到了长足的进步。为了能够给用户提供及时、准确的信息服务,搜索引擎技术应运而生,搜索引擎作为网络信息服务最基本的手段,在一定程度上可以满足用户对WWW上信息检索的要求,但由于其通用的性质,或称作为商品化软件的要求,这些通用的搜索引擎所表现的数据信息覆盖领域广、信息量大、数据不稳定、冗余度大等特性,导致用户查询的精度非常低,其效果难以满足不同背景、不同目的和不同时期的用户查询请求。目前已有的搜索引擎基本可分为二种类型:基于内容的搜索引擎与基于链接的搜索引擎。前者根据用户提交的查询主题与页面的内容计算其相关度,其优点是计算准确,推荐效果好,能够很好理解用户的意图;后者则根据页面的链接计算页面的的重要性,在接收用户的查询主题后,通过简单地查询倒排文件,就可以定位与查询主题有关系的页面,从而按其他重要性排序输出。前者的算法决定了其不可能提前进行计算,从而限制了系统对用户请求的响应速度;而后者可以通过提前计算页面价值并排序,所以大量计算并不是发生在用户提交查询主题后,从而可以保证系统对于查询的响应速度。对于一些小型的或者是带有某些专业知领域识的检索系统,如果能够结合用户的特征信息,通过分析用户的查询主题,给用户提出具有个性化的推荐意见,可以更好地满足用户的信息检索需求。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 绪论 8-16 1.1 研究背景 8-13 1.1.1 Web 检索发展动向 8-9 1.1.2 信息检索工具分类 9-10 1.1.3 基于领域的智能搜索引擎 10 1.1.4 个性化服务系统 10-13 1.2 研究目的及意义 13-14 1.3 本文的研究内容 14-15 1.4 本文的组织 15-16 第二章 基于本地数据库与INTERNET 的混合检索系统结构 16-30 2.1 混合检索技术 17-18 2.2 混合检索系统结构 18-20 2.3 混合检索系统的知识表示 20-23 2.3.1 用户个性特征的描述与获取 20-21 2.3.2 页面关键词提取及特征向量表示 21-22 2.3.3 学科领域关键词提取及特征向量表示 22-23 2.3.4 用户检索习惯的特征向量表示 23 2.4 算法性能测试 23-30 2.4.1 WT10g 的组成 24-27 2.4.2 测试子集选择原则 27-28 2.4.3 算法性能评价标准 28-30 第三章 基于内容与链接的页面价值快速算法 30-57 3.1 查询转移概率分布描述 30-31 3.2 页面链接价值计算 31-34 3.2.1 Dangling 页面的处理 32-33 3.2.2 求解矩阵特征值 33 3.2.3 修改邻接矩阵可能引起的错误 33-34 3.3 检索系统性能指标描述 34-35 3.4 基于内容与链接的页面价值快速算法模型 35-44 3.4.1 p_i 的选择 36-37 3.4.2 页面链接信息 37 3.4.3 查询Q 37-38 3.4.4 Y 集合中的页面 38-39 3.4.5 Y_0 集合中的页面 39-40 3.4.6 页面邻接矩阵 40-41 3.4.7 特征值的计算 41-42 3.4.8 收敛性分析 42-44 3.5 算法描述 44-46 3.6 算法测试与仿真 46-56 3.6.1 测试子集的构成 46-48 3.6.2 TFIDF 值的计算 48 3.6.3 构建邻接矩阵 48-50 3.6.4 Pagerank 的计算 50-52 3.6.5 计算结果 52 3.6.6 算法相关性分析 52-56 3.7 本章小结 56-57 第四章 基于内容与链接的页面价值完全算法 57-75 4.1 页面分类 58 4.2 各页面集合的转移概率 58-60 4.3 特征值计算 60-62 4.4 收敛性分析 62-63 4.4.1 非周期性 62 4.4.2 不可约性 62-63 4.5 算法描述 63-64 4.6 测试与仿真 64-73 4.6.1 测试子集的构成 64-66 4.6.2 Pagerank 值的计算 66-70 4.6.3 结果分析 70-72 4.6.4 CLB-FRA 与CLB-CRA 的比较 72-73 4.7 本章小结 73-75 第五章 结束语 75-78 5.1 工作总结 75-76 5.2 进一步研究的内容 76-78 参考文献 78-82 发表论文和参加科研情况说明 82-83 致谢 83-84
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于语义Web的信息检索技术研究,TP391.3
- 基于OWL的地名本体构建与检索机制研究,P208
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于P2P网络的分布式军事情报检索方法与原型系统研究,G354
- 基于意义理解的问答系统设计与实现,TP311.52
- 基于本体的知识表示及信息检索研究,G354.4
- 限定领域内问答系统的设计与实现,TP391.3
- 基于本体的文本标引的研究与实现,TP391.3
- 本体在信息检索中的应用及其进化机制研究,G354
- 基于Lucene的企业文档搜索引擎研究与应用,TP391.3
- 个性化搜索引擎的研究与设计,TP391.3
- 搜索引擎的研究与设计,TP391.3
- 金融领域的博客信息采集与排序算法研究,TP393.092
- 本体在医疗信息检索系统中的应用研究,TP391.3
- 粒子群算法在查询优化中的应用,TP391.3
- J2EE集成开发框架及其应用,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|