学位论文 > 优秀研究生学位论文题录展示
多文档全文检索系统的设计与开发
作 者: 王红胜
导 师: 韩宏;杨毓明
学 校: 电子科技大学
专 业: 软件工程
关键词: 全文检索 CLucene WORD 索引 文本抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 74次
引 用: 1次
阅 读: 论文下载
内容摘要
21世纪是信息科技发展的飞速时期,随着计算机及网络技术的不断成熟,电子文档以不同的格式展显在广大用户面前。这其中又以WORD文档为主,在这些海量的文档中如何快速有效的查找到自己所需要的信息就成为一个现实的问题。全文检索系统正是满足人们的这些需求应运而生的。全文检索是现代信息检索技术的一个重要的分支,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。本文的主要研究任务旨在设计一个针对WORD文档格式的多文档的全文检索工具,实现对指定目录下的目录或文件的遍历和检索,完成多文档全文检索系统的设计与开发,为用户提供一个快捷、安全的信息检索渠道。文章主要介绍了中文形式的全文检索的相关技术,重点介绍了Clucene,它是一种全文检索引擎工具包。倒排索引是Clucene采用的一种主要结构方式,它采用分块索引,可以对新文件建立小文件索引。它与早期的索引结构相比,更便于索引的构建、更新、维护,还能有效地提高索引的速度。由于目前CLucene的处理对象局限于纯文本数据,所以本文使用VBA技术以及OFFICE自动化的相关技术,实现了一种对WORD文档的文本抽取工具,将WORD文档转化为TXT格式的文本文档,然后再通过CLucene的索引机制对这些海量的文档执行索引操作。基于CLucene的索引器应用非常的广泛,它目前主要应用于专业文献检索系统,同时还可以应用于搜索引擎系统。文章的最后在对系统设计与实现中的关键点如:查询接口、检索结果返回、实现对中文分词的查准率和查全率、避免中英文连用时检索出错的处理等问题进行了论述,并提出了自己的见解,希望能对读者有一些帮助。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-15 1.1 课题的研究背景 9 1.2 课题研究的目的和意义 9-10 1.3 国内外研究概况 10-12 1.4 系统的技术路线 12-13 1.5 论文的研究内容 13-14 1.6 论文的结构 14-15 第二章 关键技术 15-39 2.1 全文检索技术 15-18 2.1.1 全文检索系统的基本原理和功能 15 2.1.2 全文检索系统的特点 15-16 2.1.3 全文检索系统的实现机制以及核心 16-17 2.1.4 全文检索系统的技术评价标准 17-18 2.2 CLucene 技术 18-23 2.2.1 CLucene 的特点 19-20 2.2.2 CLucene 的优势与不足 20 2.2.3 CLUCENE 的功能模块 20-23 2.3 VBA 技术 23-30 2.3.1 VBA 技术概述 23-25 2.3.2 VBA 对象的属性和方法 25-26 2.3.3 Microsoft Word 的对象模型 26-29 2.3.4 VBA 的编程环境 29-30 2.4 分词技术 30-38 2.4.1 汉语的特点 30 2.4.2 一元切分技术 30-32 2.4.3 二元分词技术 32 2.4.4 基于字符串匹配的分词技术 32-33 2.4.5 基于统计的分词技术 33 2.4.6 几种分词技术的综合比较 33-35 2.4.7 分词中的难题 35-36 2.4.8 中文分词简介和基本原理 36-37 2.4.9 多文档分析中文分词 37-38 2.5 本章小节 38-39 第三章 全文检索系统的设计与开发 39-60 3.1 编程语言选择及开发环境 39 3.1.1 编程语言 39 3.1.2 开发环境 39 3.2 系统的设计与开发 39-47 3.2.1 开源项目 CLucene 的编译试运行 40-41 3.2.2 编码之间的转换 41 3.2.3 用中文语法实现 ANALYZER 接口 41-42 3.2.4 避免中英文连用时索引出错的处理 42-43 3.2.5 相关类 43-45 3.2.6 全文数据索引 45-47 3.2.7 检索结果的处理 47 3.3 文本的抽取与转化 47-52 3.3.1 对一个 WORD 文档的转化 48-51 3.3.2 对文件夹进行遍历操作 51-52 3.3.3 文本抽取的执行测试 52 3.4 文本的检索与实现 52-58 3.4.1 文本检索的功能实现 52-54 3.4.2 检索功能实现机制 54-58 3.5 系统的特点 58 3.6 本章小结 58-60 第四章 全文检索系统应用测试 60-64 4.1 测试目的和方法 60 4.2 数据来源与分析 60 4.3 测试结论评述 60-63 4.4 本章小结 63-64 第五章 总结与展望. 64-66 5.1 总结 64 5.2 展望 64-66 致谢 66-67 参考文献 67-71
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- Bicluster数据分析软件设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 虹膜识别算法的研究与实现,TP391.41
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 低成本RFID系统安全协议研究,TP391.44
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
- 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
- 基于熵的音乐声纹检索算法的研究与实现,TP391.3
- 在线备份系统中存储服务器的研究与实现,TP333
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 外包数据库模式下中文文档密文检索研究,TP391.3
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 基于量化索引调制的抗共谋指纹技术研究,TP309
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|