学位论文 > 优秀研究生学位论文题录展示

基于Lucene的企业文档搜索引擎研究与应用

作 者: 李海丰
导 师: 刘军万
学 校: 中南林业科技大学
专 业: 计算机应用技术
关键词: 信息检索 企业文档搜索引擎 分词 索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 78次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商用搜索引擎检索会让公司蒙受损失。因此,设计高效、可靠的企业文档搜索引擎,检索企业相关信息成为当前研究的热点。本文在企业文档搜索引擎总体设计的基础上,充分结合了词典分词速度快和统计分词的新词识别能力的特点,提出了基于词典的统计分词算法,相比Lucene自带的分词算法具有较大改进,减少了关键字所对应的文档数量,提高了分词的准确性和索引质量。在向量空间模型的基础上引入分类和加权方法,充分利用了向量空间模型计算文档的相关性,使用分类技术对文档进行分类从而缩小文档集合的范围,降低了计算规模,利用加权处理以突出不同文档集合的重要性,进一步提高了重要文档的得分,提高了搜索准确度。然后,在基于Lucene的企业文档搜索引擎系统中应用基于词典和统计的分词算法、基于分类加权的向量空间模型的排序算法,改进了Lucene的核心模块,提高了搜索结果的准确率,使之具有更高的实用价值。同时,为企业文档搜索引擎设计了索引、检索、Web等层面的缓存,有效地降低了搜索的时间。在lucene索引的基础上引入了基于数据库的索引结构,保证了系统的性能要求。实验结果表明,本文提出的基于Lucene的企业文档搜索引擎改善了Lucene的文档排序效果和检索效率,保证了搜索结果的准确性。

全文目录


摘要  4-5
ABSTRACT  5-9
1 绪论  9-16
  1.1 课题背景  9-10
  1.2 研究现状  10-12
  1.3 研究内容及意义  12-15
  1.4 本文组织  15-16
2 企业文档搜索引擎及核心技术研究  16-34
  2.1 企业文档搜索引擎  16-21
    2.1.1 系统架构  16-19
    2.1.2 模块划分  19
    2.1.3 工作流程  19-21
  2.2 分词算法  21-25
    2.2.1 Lucene自带的分词算法  21-23
    2.2.2 基于词典的统计分词算法  23-25
  2.3 搜索结果排序  25-29
    2.3.1 基于分类加权的向量空间模型  25-28
    2.3.2 企业文档搜索引擎结果排序  28-29
  2.4 缓存机制和分页技术  29-30
    2.4.1 企业文档搜索引擎缓存机制  29
    2.4.2 基于数据库和缓存的多次查询  29-30
  2.5 基于数据库的索引结构  30-33
  2.6 小结  33-34
3 基于Lucene的企业文档搜索引擎实现  34-53
  3.1 Lucene  34-38
  3.2 基于Lucene企业文档搜索引擎  38-43
    3.2.1 数据流分析  38
    3.2.2 索引结构分析  38-41
    3.2.3 系统框架  41-43
  3.3 文档预处理模块  43-47
  3.4 索引模块  47-52
    3.4.1 数据库结构设计  47-49
    3.4.2 索引建立  49-52
  3.5 搜索模块  52
  3.6 小结  52-53
4 实验分析  53-59
  4.1 实验数据  53
  4.2 实验环境  53
  4.3 算法比较  53-58
    4.3.1 分词算法比较  54-55
    4.3.2 索引参数优化配置比较  55-56
    4.3.3 搜索结果分析  56-58
  4.4 小结  58-59
5 总结与展望  59-61
参考文献  61-66
附录 攻读学位期间的主要学术成果  66-67
致谢  67

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 大规模稀疏关系数据索引技术研究,TP311.132.3
  3. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  4. 生物医学领域检索系统查询扩展技术研究,TP391.3
  5. 面向海量邮件的检索系统研究与实现,TP393.098
  6. Bicluster数据分析软件设计与实现,TP311.52
  7. 网络搜索引擎的相关技术研究,G354
  8. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  9. 虹膜识别算法的研究与实现,TP391.41
  10. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  11. 基于SMP的内存数据库查询处理优化研究,TP311.13
  12. 数据空间下的索引策略研究,TP311.13
  13. 低成本RFID系统安全协议研究,TP391.44
  14. 存储系统中多维元数据索引的高效更新方法研究,TP333
  15. 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
  16. 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
  17. 主观题自动评分技术研究,TP391.1
  18. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  19. 基于熵的音乐声纹检索算法的研究与实现,TP391.3
  20. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  21. 在线备份系统中存储服务器的研究与实现,TP333

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com