学位论文 > 优秀研究生学位论文题录展示
个性化垂直搜索引擎关键技术研究
作 者: 潘守慧
导 师: 梁永全
学 校: 山东科技大学
专 业: 计算机软件与理论
关键词: 垂直搜索引擎 向量空间模型 用户兴趣模型 网络爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 149次
引 用: 2次
阅 读: 论文下载
内容摘要
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、精确化和个性化,Google等通用搜索引擎暴露出诸多问题。如何让用户方便、快捷地找到自己需要的信息,成为一个亟待解决的问题。个性化的垂直搜索引擎能有效地解决了上述问题,正成为人们从互联网上查找信息的一个重要工具。本文首先介绍了搜索引擎的发展历史、垂直搜索和个性化信息服务的研究现状,接着深入探讨了构建搜索引擎的核心技术,包括网页抓取技术、信息抽取技术、中文分词和索引技术等。然后又通过与通用搜索引擎进行对比,简要介绍了构造垂直搜索引擎需要注意的问题。本文在分析垂直搜索特点和研究其关键技术的基础上,主要做了以下工作:(1)提出了一种构建个性化用户兴趣模型的方法。在构建个性化用户兴趣模型的过程中,利用用户兴趣树表示用户兴趣,从用户的日常浏览行为中不断挖掘用户兴趣,并给出了用户兴趣模型的表示和更新机制。(2)提出了一种改进的基于VSM的垂直搜索检索模型。本文在传统的基于VSM的检索模型的基础上,根据垂直搜索的特点,探讨适合垂直搜索引擎的排序算法,并提出了一种改进的基于VSM的垂直搜索检索模型及其性能评测方法。经实验验证,该方法具有较高的查准率和查全率。(3)设计并实现一个用于抓取工作职位信息的网络爬虫系统JobSpider。在本文最后,通过引入一个关于工作职位搜索的实例项目,给出了其基于Agent的系统模型的基本架构,设计并实现一个用于抓取职位信息的网络爬虫系统JobSpider。经实验验证,该爬虫系统的具有较好的性能。
|
全文目录
摘要 5-6 Abstract 6-10 1 引言 10-18 1.1 研究背景 10-16 1.2 本文的主要工作 16 1.3 本文的组织结构 16-18 2 垂直搜索中相关技术研究 18-36 2.1 Spider技术 18-22 2.2 信息抽取技术 22-26 2.3 中文分词技术 26-32 2.4 索引技术 32-35 2.5 本章小结 35-36 3 构建个性化的用户兴趣模型 36-51 3.1 用户建模方法与技术 36-39 3.2 用户兴趣模型的表示机制 39-45 3.3 用户兴趣模型的更新机制 45-50 3.4 本章小结 50-51 4 一种改进的基于VSM的垂直搜索检索模型 51-59 4.1 通用搜索引擎的排序算法 51-53 4.2 向量空间模型的传统构造方法 53-55 4.3 改进的基于VSM的文档相关度算法 55-57 4.4 实验结果与评价 57-58 4.5 本章小结 58-59 5 求职搜索引擎中抓取模块的研究与设计 59-71 5.1 求职搜索引擎系统的整体架构 59-61 5.2 网络爬虫JobSpider的原型设计 61-66 5.3 索引结构的建立 66-69 5.4 实验结果与评价 69-70 5.5 本章小结 70-71 6 总结与展望 71-72 参考文献 72-76 致谢 76-77 硕士期间发表的论文 77
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- Web新闻热点发现系统的设计与实现,TP393.09
- 个性化医疗信息推荐系统的研究与实现,R319
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 网络信息提取系统关键技术研究,TP393.09
- 基于用户兴趣模型的元搜索引擎的研究,TP391.3
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
- 支持动态演进的用户兴趣模型挖掘方法研究,TP393.09
- 自适应教学科研信息推送服务模型研究,TP393.09
- 基于本体的个性化元搜索引擎研究,TP391.3
- RSS个性化信息服务的用户兴趣模型研究及应用,TP393.09
- 个性化搜索中的隐私安全保护框架,TP393.08
- 基于混合聚类的个性化搜索研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|