学位论文 > 优秀研究生学位论文题录展示

基于内容与链接的页面价值算法研究

作 者: 周晓红
导 师: 陈东义;李国柱
学 校: 电子科技大学
专 业: 软件工程
关键词: 个性化模型 信息检索 类关键词 转移概率矩阵 页面价值
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 40次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机硬件技术的发展,Internet应用需求也日益扩大,各种基于Web的软件技术也得到了长足的进步。为了能够给用户提供及时、准确的信息服务,搜索引擎技术应运而生,搜索引擎作为网络信息服务最基本的手段,在一定程度上可以满足用户对WWW上信息检索的要求,但由于其通用的性质,或称作为商品化软件的要求,这些通用的搜索引擎所表现的数据信息覆盖领域广、信息量大、数据不稳定、冗余度大等特性,导致用户查询的精度非常低,其效果难以满足不同背景、不同目的和不同时期的用户查询请求。目前已有的搜索引擎基本可分为二种类型:基于内容的搜索引擎与基于链接的搜索引擎。前者根据用户提交的查询主题与页面的内容计算其相关度,其优点是计算准确,推荐效果好,能够很好理解用户的意图;后者则根据页面的链接计算页面的的重要性,在接收用户的查询主题后,通过简单地查询倒排文件,就可以定位与查询主题有关系的页面,从而按其他重要性排序输出。前者的算法决定了其不可能提前进行计算,从而限制了系统对用户请求的响应速度;而后者可以通过提前计算页面价值并排序,所以大量计算并不是发生在用户提交查询主题后,从而可以保证系统对于查询的响应速度。对于一些小型的或者是带有某些专业知领域识的检索系统,如果能够结合用户的特征信息,通过分析用户的查询主题,给用户提出具有个性化的推荐意见,可以更好地满足用户的信息检索需求。

全文目录


摘要  4-5
Abstract  5-8
第一章 绪论  8-16
  1.1 研究背景  8-13
    1.1.1 Web 检索发展动向  8-9
    1.1.2 信息检索工具分类  9-10
    1.1.3 基于领域的智能搜索引擎  10
    1.1.4 个性化服务系统  10-13
  1.2 研究目的及意义  13-14
  1.3 本文的研究内容  14-15
  1.4 本文的组织  15-16
第二章 基于本地数据库与INTERNET 的混合检索系统结构  16-30
  2.1 混合检索技术  17-18
  2.2 混合检索系统结构  18-20
  2.3 混合检索系统的知识表示  20-23
    2.3.1 用户个性特征的描述与获取  20-21
    2.3.2 页面关键词提取及特征向量表示  21-22
    2.3.3 学科领域关键词提取及特征向量表示  22-23
    2.3.4 用户检索习惯的特征向量表示  23
  2.4 算法性能测试  23-30
    2.4.1 WT10g 的组成  24-27
    2.4.2 测试子集选择原则  27-28
    2.4.3 算法性能评价标准  28-30
第三章 基于内容与链接的页面价值快速算法  30-57
  3.1 查询转移概率分布描述  30-31
  3.2 页面链接价值计算  31-34
    3.2.1 Dangling 页面的处理  32-33
    3.2.2 求解矩阵特征值  33
    3.2.3 修改邻接矩阵可能引起的错误  33-34
  3.3 检索系统性能指标描述  34-35
  3.4 基于内容与链接的页面价值快速算法模型  35-44
    3.4.1 p_i 的选择  36-37
    3.4.2 页面链接信息  37
    3.4.3 查询Q  37-38
    3.4.4 Y 集合中的页面  38-39
    3.4.5 Y_0 集合中的页面  39-40
    3.4.6 页面邻接矩阵  40-41
    3.4.7 特征值的计算  41-42
    3.4.8 收敛性分析  42-44
  3.5 算法描述  44-46
  3.6 算法测试与仿真  46-56
    3.6.1 测试子集的构成  46-48
    3.6.2 TFIDF 值的计算  48
    3.6.3 构建邻接矩阵  48-50
    3.6.4 Pagerank 的计算  50-52
    3.6.5 计算结果  52
    3.6.6 算法相关性分析  52-56
  3.7 本章小结  56-57
第四章 基于内容与链接的页面价值完全算法  57-75
  4.1 页面分类  58
  4.2 各页面集合的转移概率  58-60
  4.3 特征值计算  60-62
  4.4 收敛性分析  62-63
    4.4.1 非周期性  62
    4.4.2 不可约性  62-63
  4.5 算法描述  63-64
  4.6 测试与仿真  64-73
    4.6.1 测试子集的构成  64-66
    4.6.2 Pagerank 值的计算  66-70
    4.6.3 结果分析  70-72
    4.6.4 CLB-FRA 与CLB-CRA 的比较  72-73
  4.7 本章小结  73-75
第五章 结束语  75-78
  5.1 工作总结  75-76
  5.2 进一步研究的内容  76-78
参考文献  78-82
发表论文和参加科研情况说明  82-83
致谢  83-84

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  3. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  4. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  5. 基于语义Web的信息检索技术研究,TP391.3
  6. 基于OWL的地名本体构建与检索机制研究,P208
  7. 基于对等网络的搜索引擎关键技术研究,TP391.3
  8. 基于P2P网络的分布式军事情报检索方法与原型系统研究,G354
  9. 基于意义理解的问答系统设计与实现,TP311.52
  10. 基于本体的知识表示及信息检索研究,G354.4
  11. 限定领域内问答系统的设计与实现,TP391.3
  12. 基于本体的文本标引的研究与实现,TP391.3
  13. 本体在信息检索中的应用及其进化机制研究,G354
  14. 基于Lucene的企业文档搜索引擎研究与应用,TP391.3
  15. 个性化搜索引擎的研究与设计,TP391.3
  16. 搜索引擎的研究与设计,TP391.3
  17. 金融领域的博客信息采集与排序算法研究,TP393.092
  18. 本体在医疗信息检索系统中的应用研究,TP391.3
  19. 粒子群算法在查询优化中的应用,TP391.3
  20. J2EE集成开发框架及其应用,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com