学位论文 > 优秀研究生学位论文题录展示

基于分布式的智能搜索引擎

作 者: 姜鑫维
导 师: 赵岳松
学 校: 武汉理工大学
专 业: 计算机应用技术
关键词: 搜索引擎 智能化 个性化 页面分类 PageRank
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 581次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用越来越受到人们的重视。目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为网站的门户。简单地讲:搜索引擎通过一个称之为“网络蜘蛛”的程序,将网页上的内容按一定的方式存放在自己的数据库里,并昼夜不停地维护、更新该数据库,当用户提交查询时,就从数据库中找出与该关键字相关联的信息,并按照一定的顺序返回给用户。 与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文在对当前第二代搜索引擎系统进行理论分析的基础上,结合最有代表性的Google公司的搜索引擎系统进行了详细的系统分析,并讨论了其中的关键数据结构和算法,在这个基础上,我结合我当前正在进行开发的PIS个人智能搜索引擎项目,给出了我的基于分布式系统的架构以及相关的算法,并给出了具体的实现。同时也考虑到第二代搜索引擎系统的种种不足,给出了智能搜索引擎系统的理论概述,并结合目前我的项目,进行了个性化搜索的研究,给出了两种创新的个性化搜索方法。 本文具体进行了两个方面的论述: 1、分布式搜索引擎系统的设计与实现。尽管当前的搜索引擎系统已经广泛采用了分布式的系统架构,但是由于受到搜索引擎系统软件的设计和算法的制约,每个公司的实现方式不太一样,本文根据我当前正在开发的PIS智能搜索引擎系统,提出了一个比较适合于基于主题的分布式搜索引擎的架构,对其中的分布式页面抓取系统和分布式等级计算系统进行了详细的论述,并给出了具体模块的设计与实现方法,同时也提出了一种新的基于页面分类的页面等级计算算法——Topic PageRank算法。 2、智能化搜索引擎系统的设计。智能化的搜索引擎系统已经被提出了很多年,但是至今依然发展缓慢,本文中我结合智能搜索引擎的相关理论知识,提出了两种基于智能化搜索系统的个性化搜索方法——基于Blog的个性化方法和基于Ajax的个性化方法,通过与传统的个性化方法进行融合,能够提供出更精确的个性化搜索,针对不同的用户,我们的个性化搜索系统能够提供出更加个性化的返回结果集。

全文目录


中文摘要  3-4
ABSTRACT  4-8
第一章 绪论  8-13
  1.1 论文选题考虑  8-9
  1.2 本课题研究的理论基础  9-13
    1.2.1 自然语言理解理论引入  9-10
    1.2.2 自然语言理解研究进程  10-11
    1.2.3 分布式系统设计理论的引入  11
    1.2.4 分布式系统设计的目的  11-13
第二章 搜索引擎的组成原理  13-25
  2.1 搜索引擎的概述  13
  2.2 搜索引擎的组成原理  13-16
    2.2.1 搜索器(Crawler)  14-15
    2.2.2 索引器(Indexer)  15
    2.2.3 检索器(Searcher)  15-16
    2.2.4 用户接口(User Interface)  16
  2.3 GOOGLE的体系结构  16-25
    2.3.1 网络蜘蛛  17-18
    2.3.2 索引(库)  18-22
    2.3.3 等级计算  22-24
    2.3.4 结果输出  24-25
第三章 分布式搜索引擎  25-45
  3.1 分布式技术概述  25-26
  3.2 分布式搜索引擎的必要性  26
  3.3 分布式搜索引擎的基本框架  26-45
    3.3.1 Topic PageRank算法  27-32
    3.3.2 分布式页面抓取系统  32-35
    3.3.3 分布式页面索引系统  35-42
    3.3.4 分布式等级计算系统  42-43
    3.3.5 查询结果输出  43-45
第四章 智能化个性搜索引擎  45-61
  4.1 传统搜索引擎技术的局限性  45-46
  4.2 传统搜索引擎的症结是什么  46-47
  4.3 智能化搜索引擎系统  47-49
  4.4 智能化搜索引擎需要解决的问题  49-50
  4.5 智能化搜索引擎的特征  50-52
  4.6 个性化的搜索引擎系统  52-61
    4.6.1 用户的识别  52-53
    4.6.2 用户描述文件  53-54
    4.6.3 用户兴趣模型  54
    4.6.4 用户兴趣提取技术  54-56
    4.6.5 两种新的个性化提取方法  56-61
第五章 实验结果  61-64
第六章 总结  64-65
  6.1 论文研究成果总结  64
  6.2 成果展望  64-65
致谢  65-66
参考文献  66-69
附录  69-75
攻读硕士学位期间发表的论文  75

相似论文

  1. 万科模式的居住小区设计研究,TU984.12
  2. 个性化检索中相似用户群的获取与更新,TP391.3
  3. 个性化人工膝关节设计及其生物力学特性研究,R318.1
  4. 珠三角地区高性能混凝土配合比智能化系统,TU528
  5. 大学生思想政治教育工作个性化教育的研究,G641
  6. 基于语义网络的智能搜索引擎研究,TP391.3
  7. 会展中心建筑智能化系统研究与应用,TU855
  8. 网络环境下小学协同教育的策略研究,G629.2
  9. 基于自然遗忘的个性化推荐算法研究,TP311.52
  10. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  11. 网络学习系统中个性化学习指导系统构建研究,TP391.6
  12. 面向用户偏好的MADM方法在个性化推荐中的应用,G353.1
  13. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  14. 基于SE300的车削专家系统关键技术研究,TP182
  15. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  16. 当代纺织品设计中图案风格的融合,J523
  17. 地板个性化送风方式的动态能耗分析研究,TU831
  18. NGN和智能网的互通互融及全网智能化研究,TN915.5
  19. 特殊体型数字化服装定制系统,TP391.72
  20. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  21. 基于物联网的个性化k-匿名位置隐私保护技术的研究和实现,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com