学位论文 > 优秀研究生学位论文题录展示

基于Lucene的职位垂直搜索引擎的研究与实现

作 者: 于景茹
导 师: 柴玉梅
学 校: 郑州大学
专 业: 软件工程
关键词: 垂直搜索引擎 职位搜索 索引 检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


众所周知,互联网随着其不断发展壮大,已经成为最大的信息库。面对如此巨大的互联网资源,用户如何从中快速、准确、全面的获取所需信息已经成为亟待解决的问题。为了帮助用户解决这一问题,出现了搜索引擎。近年来,随着中国网络招聘市场的不断扩大,大部分求职者不得不花费大量的时间在一个个的招聘网站上进行繁琐的注册和寻觅职位,甚至成为了一项特殊时期的全职工作。一种新型网络工具——职位搜索引擎的推出,开始让这种局面悄然变化。职位搜索引擎属于垂直搜索引擎的一种,它们可以处理招聘网站上的大量求职、招聘信息,为求职者提供准确快捷的搜索服务。本论文介绍了垂直搜索引擎的概念及其和传统的搜索引擎的区别,介绍了Lucene的系统结构和索引结构。分析了垂直搜索引擎的主要的技术,讨论了Lucene全文检索的实现过程以及Lucene的实际应用。本文分析研究了面向求职者的垂直搜索引擎的原理、相关技术及其实现过程,对于国内著名的招聘网站利用采集器进行信息提取,并利用Lucene对提取的信息建立索引,以构建一个面向求职者的垂直搜索引擎。本系统使用开源的工具包Lucene实现程序功能,整体系统分为词库模块、数据库模块、信息采集模块、索引模块以及检索模块。本文根据求职者对搜索职位信息的实际需求,分析、设计和实现本系统,主要从提高系统检索速度和检索准确率来进行系统设计。

全文目录


摘要  3-4
Abstract  4-5
目录  5-7
第一章 绪论  7-20
  1.1 论文研究背景  7-8
  1.2 论文研究的意义  8-9
  1.3 通用搜索引擎  9-16
    1.3.1 搜索引擎国内外发展史及发展趋势  9-11
    1.3.2 搜索引擎的分类  11-13
    1.3.3 搜索引擎基本工作原理  13-16
  1.4 垂直搜索引擎  16-18
    1.4.1 垂直搜索引擎简介  16-17
    1.4.2 垂直搜索引擎和传统搜索引擎的区别  17-18
  1.5 本文研究内容  18-20
第二章 垂直搜索引擎关键技术  20-26
  2.1 信息采集技术  20-21
    2.1.1 信息采集的工作原理  20-21
  2.2 信息抽取技术  21-22
  2.3 中文分词技术  22-25
    2.3.1 基于字符串匹配的分词方法  22-24
    2.3.2 基于知识理解的分词方法  24
    2.3.3 基于词频统计的分词方法  24-25
  2.4 本章小结  25-26
第三章 全文检索框架Lucene剖析及应用  26-36
  3.1 Lucene的组织结构  26-28
  3.2 Lucene的索引结构  28-32
    3.2.1 Lucene的倒排索引技术  28-31
    3.2.2 Lucene的索引结构  31-32
  3.3 Lucene全文检索的实现过程  32-33
  3.4 Lucene的中文分词  33-34
  3.5 Lucene的应用  34-35
  3.6 本章小结  35-36
第四章 系统的设计及实现  36-59
  4.1 系统总体设计  36-38
    4.1.1 系统设计目标  36-37
    4.1.2 系统的功能分析  37-38
    4.1.3 系统结构  38
  4.2 词库模块的设计与实现  38-41
  4.3 数据库存储模块设计与实现  41-45
    4.3.1 数据库结构  41-42
    4.3.2 数据库表详细清单  42-45
  4.4 信息采集模块的设计与实现  45-55
    4.4.1 采集流程  45-49
    4.4.2 采集器所用的技术  49-50
    4.4.3 数据清洗  50
    4.4.4 采集器部分代码及解释  50-54
    4.4.5 采集器运行结果  54-55
  4.5 索引模块的设计与实现  55-56
  4.6 检索模块的设计与实现  56-57
  4.7 本系统的实现  57-58
  4.8 本章小结  58-59
第五章 总结与展望  59-60
参考文献  60-63
攻读硕士学位期间发表的论文  63-64
感谢  64

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  3. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  4. 基于词义及语义分析的问答技术研究,TP391.1
  5. 大规模稀疏关系数据索引技术研究,TP311.132.3
  6. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  7. Q学习在基于内容图像检索技术中的应用,TP391.41
  8. 基于内容的服装图像检索技术研究及实现,TP391.41
  9. 基于多示例学习的用户关注概念区域发现,TP391.41
  10. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  11. 个性化检索中相似用户群的获取与更新,TP391.3
  12. 生物医学领域检索系统查询扩展技术研究,TP391.3
  13. 基于停用词处理的汉语语音检索方法,TP391.1
  14. 面向海量邮件的检索系统研究与实现,TP393.098
  15. 多样性密度学习算法的研究与应用,TP181
  16. Bicluster数据分析软件设计与实现,TP311.52
  17. 基于本体的语义检索研究,TP391.3
  18. 分面元数据在网站检索系统中的应用研究,G354.2
  19. 网络搜索引擎的相关技术研究,G354
  20. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  21. 基于形状的汉画像检索技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com