学位论文 > 优秀研究生学位论文题录展示

个性化垂直搜索引擎关键技术研究

作 者: 潘守慧
导 师: 梁永全
学 校: 山东科技大学
专 业: 计算机软件与理论
关键词: 垂直搜索引擎 向量空间模型 用户兴趣模型 网络爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 149次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、精确化和个性化,Google等通用搜索引擎暴露出诸多问题。如何让用户方便、快捷地找到自己需要的信息,成为一个亟待解决的问题。个性化的垂直搜索引擎能有效地解决了上述问题,正成为人们从互联网上查找信息的一个重要工具。本文首先介绍了搜索引擎的发展历史、垂直搜索和个性化信息服务的研究现状,接着深入探讨了构建搜索引擎的核心技术,包括网页抓取技术、信息抽取技术、中文分词和索引技术等。然后又通过与通用搜索引擎进行对比,简要介绍了构造垂直搜索引擎需要注意的问题。本文在分析垂直搜索特点和研究其关键技术的基础上,主要做了以下工作:(1)提出了一种构建个性化用户兴趣模型的方法。在构建个性化用户兴趣模型的过程中,利用用户兴趣树表示用户兴趣,从用户的日常浏览行为中不断挖掘用户兴趣,并给出了用户兴趣模型的表示和更新机制。(2)提出了一种改进的基于VSM的垂直搜索检索模型。本文在传统的基于VSM的检索模型的基础上,根据垂直搜索的特点,探讨适合垂直搜索引擎的排序算法,并提出了一种改进的基于VSM的垂直搜索检索模型及其性能评测方法。经实验验证,该方法具有较高的查准率和查全率。(3)设计并实现一个用于抓取工作职位信息的网络爬虫系统JobSpider。在本文最后,通过引入一个关于工作职位搜索的实例项目,给出了其基于Agent的系统模型的基本架构,设计并实现一个用于抓取职位信息的网络爬虫系统JobSpider。经实验验证,该爬虫系统的具有较好的性能。

全文目录


摘要  5-6
Abstract  6-10
1 引言  10-18
  1.1 研究背景  10-16
  1.2 本文的主要工作  16
  1.3 本文的组织结构  16-18
2 垂直搜索中相关技术研究  18-36
  2.1 Spider技术  18-22
  2.2 信息抽取技术  22-26
  2.3 中文分词技术  26-32
  2.4 索引技术  32-35
  2.5 本章小结  35-36
3 构建个性化的用户兴趣模型  36-51
  3.1 用户建模方法与技术  36-39
  3.2 用户兴趣模型的表示机制  39-45
  3.3 用户兴趣模型的更新机制  45-50
  3.4 本章小结  50-51
4 一种改进的基于VSM的垂直搜索检索模型  51-59
  4.1 通用搜索引擎的排序算法  51-53
  4.2 向量空间模型的传统构造方法  53-55
  4.3 改进的基于VSM的文档相关度算法  55-57
  4.4 实验结果与评价  57-58
  4.5 本章小结  58-59
5 求职搜索引擎中抓取模块的研究与设计  59-71
  5.1 求职搜索引擎系统的整体架构  59-61
  5.2 网络爬虫JobSpider的原型设计  61-66
  5.3 索引结构的建立  66-69
  5.4 实验结果与评价  69-70
  5.5 本章小结  70-71
6 总结与展望  71-72
参考文献  72-76
致谢  76-77
硕士期间发表的论文  77

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于停用词处理的汉语语音检索方法,TP391.1
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 基于SVM分类算法的主题爬虫研究,TP391.3
  5. 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
  6. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  7. 面向汽车行业的主题爬虫研究与实现,TP391.3
  8. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  9. Web新闻热点发现系统的设计与实现,TP393.09
  10. 个性化医疗信息推荐系统的研究与实现,R319
  11. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  12. 基于Agent元搜索引擎的个性化研究,TP391.3
  13. 网络信息提取系统关键技术研究,TP393.09
  14. 基于用户兴趣模型的元搜索引擎的研究,TP391.3
  15. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  16. 支持动态演进的用户兴趣模型挖掘方法研究,TP393.09
  17. 自适应教学科研信息推送服务模型研究,TP393.09
  18. 基于本体的个性化元搜索引擎研究,TP391.3
  19. RSS个性化信息服务的用户兴趣模型研究及应用,TP393.09
  20. 个性化搜索中的隐私安全保护框架,TP393.08
  21. 基于混合聚类的个性化搜索研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com