学位论文 > 优秀研究生学位论文题录展示

基于Lucene的二次全文检索系统设计与实现

作 者: 吴代文
导 师: 周利华
学 校: 西安电子科技大学
专 业: 教育技术学
关键词: 全文检索 二次索引 二次检索 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 68次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工具:PDFBox API、POI,并对Lucene的核心索引模块加以修改,使系统在原来Lucene API只支持索引html, txt文件的基础上加入对doc, xls和pdf等的索引,实现了对多格式文档的全文检索要求。为了实现更精确的检索关键词定位,本文设计并实现了一种新的二次索引算法。该二次索引带有关键词的页码、坐标及其上下文等信息,利用该二次索引可将检索关键词定位到书籍的具体页,并在页面标示出关键字的具体位置。使对PDF文档的二次检索达到了类似Google Book的图书检索效果。试验结果表明,系统的一次检索和二次检索都达到了较高查全率和查准率,两次检索的响应时间都在毫秒级以内。系统的各项性能指标都能满足全文检索的应用需求,有较大的应用前景和商业推广价值。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-13
  1.1 研究背景  7
  1.2 国内外研究现状  7-9
    1.2.1 国内外全文检索系统  7-9
    1.2.2 现有几种全文检索系统对比分析  9
  1.3 论文的工作  9-10
  1.4 论文术语说明  10-11
  1.5 论文结构  11-13
第二章 相关理论和关键技术  13-25
  2.1 全文检索概述  13
  2.2 全文检索技术原理和分类  13-18
    2.2.1 全文检索的分类  13-14
    2.2.2 全文检索的工作原理  14-15
    2.2.3 全文检索的方法  15-16
    2.2.4 全文索引技术  16-18
  2.3 数据库全文检索  18-19
  2.4 WEB信息检索  19-25
    2.4.1 Web全文信息检索  20-22
    2.4.2 搜索引擎技术  22-25
第三章 LUCENE软件包介绍  25-33
  3.1 什么是LUCENE  25
  3.2 LUCENE的特点及优势  25-26
  3.3 LUCENE系统结构分析  26-29
    3.3.1 系统结构组织  26-27
    3.3.2 数据流分析  27-29
    3.3.3 Lucene各模块的功能分析  29
  3.4 LUCENE索引文件格式分析  29-33
    3.4.1 基本数据类型  29-30
    3.4.2 Lucene索引文件构成  30-33
第四章 常用文档格式及其分析器  33-41
  4.1 PDF和PDFBox API  33-37
    4.1.1 PDF文件结构  33-34
    4.1.2 PDF一般特点  34-36
    4.1.3 PDFBox API  36-37
  4.2 WORD,EXCEL和POI  37-41
    4.2.1 用POI从Word中抽取文本信息  38
    4.2.2 用POI从Excel中抽取文本信息  38-41
第五章 全文检索系统的设计与实现  41-61
  5.1 系统需求  41-42
  5.2 系统设计  42-44
    5.2.1 系统总体设计思路和结构图  42
    5.2.2 数据库设计  42-44
  5.3 系统实现  44-58
    5.3.1 分词工具的选择  44-49
    5.3.2 一次索引的实现  49-52
    5.3.3 一次检索的实现  52-54
    5.3.4 二次索引核心算法实现  54-56
    5.3.5 二次检索的实现  56-58
  5.4 试验分析  58-61
    5.4.1 平台及开发环境  58
    5.4.2 系统性能测试及分析  58-61
第六章 总结与展望  61-63
  6.1 总结与展望  61
  6.2 系统改进工作  61-63
致谢  63-65
参考文献  65-69
研究成果  69

相似论文

  1. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  2. 网络智能答疑系统的研究与实现,TP393.09
  3. 基于语义Web的信息检索技术研究,TP391.3
  4. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  5. 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
  6. 面向交易信息的垂直搜索引擎搜索机制研究与实现,TP391.3
  7. 主题搜索引擎索引技术的研究与实现,TP391.3
  8. 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
  9. P2P环境下基于多代理对等点的Web服务研究,TP393.09
  10. Deep Web垂直搜索引擎研究,TP311.52
  11. 基于本体的语义检索原型系统的设计与实现,TP391.3
  12. 基于Lucene的音乐资讯垂直搜索引擎的设计和实现,TP391.3
  13. 分布式中文全文检索技术的研究与实现,TP391.3
  14. 基于Lucene的搜索引擎应用与研究,TP391.3
  15. 基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现,TP391.3
  16. 职业院校内外网统一的网站门户系统的设计与实现,TP311.52
  17. 网购比价搜索系统设计与实现,TP391.3
  18. 全文检索引擎应用于邮件的设计与实现,TP391.3
  19. 科技平台撮合系统的设计与实现,TP391.3
  20. 基于Lucene的搜索引擎技术的研究与改进,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com