学位论文 > 优秀研究生学位论文题录展示
基于Lucene的企业文档搜索引擎研究与应用
作 者: 李海丰
导 师: 刘军万
学 校: 中南林业科技大学
专 业: 计算机应用技术
关键词: 信息检索 企业文档搜索引擎 分词 索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 78次
引 用: 0次
阅 读: 论文下载
内容摘要
随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商用搜索引擎检索会让公司蒙受损失。因此,设计高效、可靠的企业文档搜索引擎,检索企业相关信息成为当前研究的热点。本文在企业文档搜索引擎总体设计的基础上,充分结合了词典分词速度快和统计分词的新词识别能力的特点,提出了基于词典的统计分词算法,相比Lucene自带的分词算法具有较大改进,减少了关键字所对应的文档数量,提高了分词的准确性和索引质量。在向量空间模型的基础上引入分类和加权方法,充分利用了向量空间模型计算文档的相关性,使用分类技术对文档进行分类从而缩小文档集合的范围,降低了计算规模,利用加权处理以突出不同文档集合的重要性,进一步提高了重要文档的得分,提高了搜索准确度。然后,在基于Lucene的企业文档搜索引擎系统中应用基于词典和统计的分词算法、基于分类加权的向量空间模型的排序算法,改进了Lucene的核心模块,提高了搜索结果的准确率,使之具有更高的实用价值。同时,为企业文档搜索引擎设计了索引、检索、Web等层面的缓存,有效地降低了搜索的时间。在lucene索引的基础上引入了基于数据库的索引结构,保证了系统的性能要求。实验结果表明,本文提出的基于Lucene的企业文档搜索引擎改善了Lucene的文档排序效果和检索效率,保证了搜索结果的准确性。
|
全文目录
摘要 4-5 ABSTRACT 5-9 1 绪论 9-16 1.1 课题背景 9-10 1.2 研究现状 10-12 1.3 研究内容及意义 12-15 1.4 本文组织 15-16 2 企业文档搜索引擎及核心技术研究 16-34 2.1 企业文档搜索引擎 16-21 2.1.1 系统架构 16-19 2.1.2 模块划分 19 2.1.3 工作流程 19-21 2.2 分词算法 21-25 2.2.1 Lucene自带的分词算法 21-23 2.2.2 基于词典的统计分词算法 23-25 2.3 搜索结果排序 25-29 2.3.1 基于分类加权的向量空间模型 25-28 2.3.2 企业文档搜索引擎结果排序 28-29 2.4 缓存机制和分页技术 29-30 2.4.1 企业文档搜索引擎缓存机制 29 2.4.2 基于数据库和缓存的多次查询 29-30 2.5 基于数据库的索引结构 30-33 2.6 小结 33-34 3 基于Lucene的企业文档搜索引擎实现 34-53 3.1 Lucene 34-38 3.2 基于Lucene企业文档搜索引擎 38-43 3.2.1 数据流分析 38 3.2.2 索引结构分析 38-41 3.2.3 系统框架 41-43 3.3 文档预处理模块 43-47 3.4 索引模块 47-52 3.4.1 数据库结构设计 47-49 3.4.2 索引建立 49-52 3.5 搜索模块 52 3.6 小结 52-53 4 实验分析 53-59 4.1 实验数据 53 4.2 实验环境 53 4.3 算法比较 53-58 4.3.1 分词算法比较 54-55 4.3.2 索引参数优化配置比较 55-56 4.3.3 搜索结果分析 56-58 4.4 小结 58-59 5 总结与展望 59-61 参考文献 61-66 附录 攻读学位期间的主要学术成果 66-67 致谢 67
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- Bicluster数据分析软件设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 虹膜识别算法的研究与实现,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 低成本RFID系统安全协议研究,TP391.44
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
- 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
- 主观题自动评分技术研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于熵的音乐声纹检索算法的研究与实现,TP391.3
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 在线备份系统中存储服务器的研究与实现,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|