学位论文 > 优秀研究生学位论文题录展示
基于Lucene的二次全文检索系统设计与实现
作 者: 吴代文
导 师: 周利华
学 校: 西安电子科技大学
专 业: 教育技术学
关键词: 全文检索 二次索引 二次检索 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 68次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工具:PDFBox API、POI,并对Lucene的核心索引模块加以修改,使系统在原来Lucene API只支持索引html, txt文件的基础上加入对doc, xls和pdf等的索引,实现了对多格式文档的全文检索要求。为了实现更精确的检索关键词定位,本文设计并实现了一种新的二次索引算法。该二次索引带有关键词的页码、坐标及其上下文等信息,利用该二次索引可将检索关键词定位到书籍的具体页,并在页面标示出关键字的具体位置。使对PDF文档的二次检索达到了类似Google Book的图书检索效果。试验结果表明,系统的一次检索和二次检索都达到了较高查全率和查准率,两次检索的响应时间都在毫秒级以内。系统的各项性能指标都能满足全文检索的应用需求,有较大的应用前景和商业推广价值。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-13 1.1 研究背景 7 1.2 国内外研究现状 7-9 1.2.1 国内外全文检索系统 7-9 1.2.2 现有几种全文检索系统对比分析 9 1.3 论文的工作 9-10 1.4 论文术语说明 10-11 1.5 论文结构 11-13 第二章 相关理论和关键技术 13-25 2.1 全文检索概述 13 2.2 全文检索技术原理和分类 13-18 2.2.1 全文检索的分类 13-14 2.2.2 全文检索的工作原理 14-15 2.2.3 全文检索的方法 15-16 2.2.4 全文索引技术 16-18 2.3 数据库全文检索 18-19 2.4 WEB信息检索 19-25 2.4.1 Web全文信息检索 20-22 2.4.2 搜索引擎技术 22-25 第三章 LUCENE软件包介绍 25-33 3.1 什么是LUCENE 25 3.2 LUCENE的特点及优势 25-26 3.3 LUCENE系统结构分析 26-29 3.3.1 系统结构组织 26-27 3.3.2 数据流分析 27-29 3.3.3 Lucene各模块的功能分析 29 3.4 LUCENE索引文件格式分析 29-33 3.4.1 基本数据类型 29-30 3.4.2 Lucene索引文件构成 30-33 第四章 常用文档格式及其分析器 33-41 4.1 PDF和PDFBox API 33-37 4.1.1 PDF文件结构 33-34 4.1.2 PDF一般特点 34-36 4.1.3 PDFBox API 36-37 4.2 WORD,EXCEL和POI 37-41 4.2.1 用POI从Word中抽取文本信息 38 4.2.2 用POI从Excel中抽取文本信息 38-41 第五章 全文检索系统的设计与实现 41-61 5.1 系统需求 41-42 5.2 系统设计 42-44 5.2.1 系统总体设计思路和结构图 42 5.2.2 数据库设计 42-44 5.3 系统实现 44-58 5.3.1 分词工具的选择 44-49 5.3.2 一次索引的实现 49-52 5.3.3 一次检索的实现 52-54 5.3.4 二次索引核心算法实现 54-56 5.3.5 二次检索的实现 56-58 5.4 试验分析 58-61 5.4.1 平台及开发环境 58 5.4.2 系统性能测试及分析 58-61 第六章 总结与展望 61-63 6.1 总结与展望 61 6.2 系统改进工作 61-63 致谢 63-65 参考文献 65-69 研究成果 69
|
相似论文
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 网络智能答疑系统的研究与实现,TP393.09
- 基于语义Web的信息检索技术研究,TP391.3
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
- 面向交易信息的垂直搜索引擎搜索机制研究与实现,TP391.3
- 主题搜索引擎索引技术的研究与实现,TP391.3
- 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
- P2P环境下基于多代理对等点的Web服务研究,TP393.09
- Deep Web垂直搜索引擎研究,TP311.52
- 基于本体的语义检索原型系统的设计与实现,TP391.3
- 基于Lucene的音乐资讯垂直搜索引擎的设计和实现,TP391.3
- 分布式中文全文检索技术的研究与实现,TP391.3
- 基于Lucene的搜索引擎应用与研究,TP391.3
- 基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现,TP391.3
- 职业院校内外网统一的网站门户系统的设计与实现,TP311.52
- 网购比价搜索系统设计与实现,TP391.3
- 全文检索引擎应用于邮件的设计与实现,TP391.3
- 科技平台撮合系统的设计与实现,TP391.3
- 基于Lucene的搜索引擎技术的研究与改进,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|