学位论文 > 优秀研究生学位论文题录展示

基于Lucene的垂直搜索引擎关键技术研究

作 者: 邓丹君
导 师: 周彩兰
学 校: 武汉理工大学
专 业: 计算机科学与技术
关键词: 垂直搜索引擎 Lucene 网页主题信息提取 网页排序
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 285次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着网络信息的迅速增长,通用搜索引擎的搜索范围为整个互联网的所有信息,从而信息更新的时效性差,导致了通用搜索引擎的搜索结果多而杂的情况,不能满足特定用户对搜索结果的精确化、深入化的要求。于是,针对特定领域用户的特定需求而产生垂直搜索引擎。垂直搜索引擎专注于获取针对特定领域的信息并且提供相应信息的检索服务。本文首先介绍垂直搜索引擎的结构,工作流程和特点,并叙述垂直搜索引擎相关技术的研究现状。进而分析并研究垂直搜索引擎的一些关键性技术如主题爬虫的工作流程及主题爬行策略、网页主题信息提取算法和网页排序算法。在探讨网页主题信息提取算法中,根据现有的HTML网页的结构特点,把HTML文件中的文本内容划分成若干块,统计各个文本块内的文字数,从而找出文本分布密集的区域,把此区域作为网页正文区域,从而提取网页的主题信息,通过实验与数据分析本文提出的基于文本块的网页主题信息提取算法有较大的准确度。本文通过对现有的词频位置加权算法、HITS算法和PageRank算法进行分析,得到改进的PageRank算法,该算法利用余弦相似度算法对相链接的网页的相似度进行分析,还在算法中加入时间因子,反映了网页的年龄。改进的PageRank算法同时利用了网页的链接结构和网页之间的内容相关性,避免了原PageRank算法的主题漂移和偏向于旧网页的缺点,通过实验证明改进的PageRank算法在很大程度上改进了排序的效果。最后本文对全文检索工具包Lucene的相关技术进行分析和研究,包括Lucene的系统架构,索引机制、搜索机制和评分机制。在此基础上,利用Lucene全文检索工具包设计并实现了一个面向校园网内教学学习资源的小型垂直搜索引擎原型。该垂直搜索引擎原型利用Heritrix实现信息的搜集,并且利用Lucene实现搜索引擎的索引模块和搜索模块。针对该垂直搜索引擎原型的实际需求,利用Paoding分词器扩展Lucene的中文分词功能,利用Apache POI实现Office文档的解析,包括Word文档、PowerPoint文档、Excel文档,并且利用Xpdf实现对PDF文档的解析,还实现了对txt文档和Html文档的解析。同时,该垂直搜索引擎原型对Lucene的评分机制进行扩展,利用改进的PageRank算法改进网页排序的效果。通过测试运行,该垂直搜索引擎原型达到了预期的目标。

全文目录


摘要  4-6
ABSTRACT  6-8
目录  8-10
第1章 引言  10-17
  1.1 研究背景  10-11
  1.2 垂直搜索引擎  11-15
    1.2.1 垂直搜索引擎的结构和工作流程  11-13
    1.2.2 垂直搜索引擎的特点  13-14
    1.2.3 垂直搜索引擎的研究现状  14-15
  1.3 本文的主要工作及论文组织结构  15-17
第2章 垂直搜索引擎的关键技术  17-46
  2.1 主题爬虫  17-22
    2.1.1 主题爬虫的工作流程  17-19
    2.1.2 主题爬行策略  19-22
  2.2 网页主题信息提取算法  22-31
    2.2.1 现有的网页主题信息提取技术  23-26
    2.2.2 基于文本块选择的网页主题信息提取算法  26-30
    2.2.3 实验测试  30-31
  2.3 网页排序算法  31-45
    2.3.1 词频位置加权排序算法  31-32
    2.3.2 链接分析排序算法  32-36
    2.3.3 改进的PageRank算法  36-42
    2.3.4 实验结果  42-45
  2.4 本章小节  45-46
第3章 Lucene的相关技术研究  46-57
  3.1 Lucene简介  46-47
  3.2 Lucene的系统结构  47-50
  3.3 Lucene索引机制  50-54
    3.3.1 Lucene索引的层次结构  50-51
    3.3.2 Lucene的增量索引过程  51-52
    3.3.3 Lucene索引文件格式  52-54
  3.4 Lucene的搜索机制  54-55
  3.5 Lucene的评分机制  55-56
  3.6 本章小节  56-57
第4章 垂直搜索引擎的实现  57-69
  4.1 功能模块  58-65
    4.1.1 信息搜集模块  58-60
    4.1.2 索引模块  60-62
    4.1.3 搜索模块  62-65
    4.1.4 Lucene评分算法的改进  65
  4.2 测试结果  65-68
    4.2.1 索引模块的测试  65-66
    4.2.2 搜索模块的测试  66-68
  4.3 本章小节  68-69
第5章 总结与展望  69-71
  5.1 工作总结  69
  5.2 工作展望  69-71
参考文献  71-74
致谢  74-75
附录:攻读硕士学位期间公开发表的论文  75

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  3. 基于搜索引擎网页排序算法研究,TP391.3
  4. 基于语义Web的信息检索技术研究,TP391.3
  5. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  6. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  7. 网络文本信息采集分析关键技术研究与实现,TP391.1
  8. 基于倒排索引的压缩算法性能研究,TP391.3
  9. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  10. 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
  11. 分布式图片搜索引擎设计与实现,TP391.41
  12. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  13. 基于lucene中文全文检索系统的研究与实现,G354
  14. 基于Java的浙江纺织服装学院校园网搜索引擎,TP393.18
  15. 基于Lucene的网页抓取与检索系统,TP393.092
  16. 金融领域的博客信息采集与排序算法研究,TP393.092
  17. 面向中医药的多元语义搜索引擎,TP391.3
  18. 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
  19. 基于Lucene的二次全文检索系统设计与实现,TP391.3
  20. 基于Lucene的主题搜索引擎研究,TP391.3
  21. 垂直搜索引擎的研究与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com