学位论文 > 优秀研究生学位论文题录展示
海量数据存储与全文检索
作 者: 苗帅
导 师: 王卫东
学 校: 江苏科技大学
专 业: 模式识别与智能系统
关键词: 海量数据 软件工程 全文检索 全文索引 查询优化
分类号: TP333
类 型: 硕士论文
年 份: 2011年
下 载: 59次
引 用: 0次
阅 读: 论文下载
内容摘要
随着我国海军舰船的快速发展,对武器系统的研制及其后勤保障产生了大量的技术资料和项目管理文件。由于这些文件的管理不到位,造成装备信息的重复建设和人力物力资源的巨大浪费。建立一套安全、可用性强的技术出版物综合管理系统,是建立健全的后勤保障机制的趋势所在。本文针对海军舰船方面技术人员的实际需要,对技术出版物综合管理系统进行了深入、系统的研究和设计,从而为用户提供多方面、更准确的信息。本文首先针对海量数据存储环境,对现有存储模式进行了分析,重点研究了面向对象存储技术,由于对象存储模式具有良好的可伸缩性、高性能、跨平台、安全数据共享等能力,使其成为海量数据存储的一个理想选择。其次,按照软件工程的开发流程,并结合用户的需求,本文对技术出版物综合管理系统的可行性分析及需求分析进行了详细的阐述,并以此为前提,对该系统的逻辑架构和物理架构进行概要设计,同时对逻辑架构的功能模块进行详细设计;最后对系统的各个功能模块进行了实现。本文在实现系统基本功能的基础上,还对系统的全文检索进行了优化设计。其中包括:⑴在全文检索技术中,针对现有中文分词技术的不足,改进了最大匹配算法;⑵在倒排索引的基础上,本文采用了基于词的增量B+-Lists中文全文索引模型;⑶为了提高信息检索的查全率和查准率,本文研究了基于局部类别分析和遗传算法的查询优化方法。使用局部类别分析的查询扩展方法对查询词进行扩展,在此基础上利用遗传算法进一步优化查询权重,并且对方法的有效性做了实验验证。实验结果表明,我们研究的方法效果比未扩展查询和局部上下文分析等其他方法在各方面都提升了很多。
|
全文目录
摘要 6-7 Abstract 7-13 第1章 绪论 13-19 1.1 选题背景及意义 13-14 1.2 国内外研究现状 14-17 1.2.1 计算机辅助后勤保障的研究现状 14-15 1.2.2 全文检索技术的研究现状 15-16 1.2.3 查询优化的研究现状 16-17 1.3 本文研究内容和结构 17-19 第2章 海量数据的存储关键技术 19-25 2.1 问题提出 19 2.2 海量数据存储模式选择 19-21 2.2.1 存储模式的现状 19-20 2.2.2 本文所采用的存储模式 20-21 2.3 数据库策略 21-24 2.3.1 数据库表分区技术 21-22 2.3.2 数据库并行处理技术 22-24 2.4 本章小结 24-25 第3章 技术出版物综合管理系统的设计 25-49 3.1 系统的可行性分析 25-26 3.1.1 系统影响 25 3.1.2 技术可行性分析 25-26 3.1.3 经济可行性分析 26 3.1.4 操作可行性分析 26 3.2 系统的需求分析 26-33 3.2.1 系统实现的目标 26-27 3.2.2 用例建模 27-30 3.2.3 其他需求分析工作 30 3.2.4 创建领域模型 30-32 3.2.5 对系统顺序的描述 32-33 3.3 系统的概要设计 33-36 3.3.1 系统的逻辑架构 33-35 3.3.2 系统的功能结构图 35-36 3.3.3 系统物理架构 36 3.4 系统的详细设计 36-48 3.4.1 持久层设计 36-39 3.4.2 数据对象访问层设计 39-40 3.4.3 业务逻辑层设计 40-41 3.4.4 Web 层设计 41-42 3.4.5 系统功能模块的设计 42-48 3.5 本章小结 48-49 第4章 系统全文检索的优化设计 49-69 4.1 中文分词技术 49-52 4.1.1 中文分词算法介绍 49-50 4.1.2 最大匹配算法的思想及存在的问题 50-51 4.1.3 分词算法的设计目标 51 4.1.4 本文对分词算法的设计 51-52 4.2 增量B+-Lists 全文索引模型 52-54 4.2.1 索引库的存储结构 52-53 4.2.2 索引块的存储结构 53 4.2.3 索引的查询 53-54 4.2.4 索引的动态更新 54 4.3 基于局部类别分析的查询扩展 54-59 4.3.1 相关知识 55-56 4.3.2 基于局部类别分析的查询扩展 56-59 4.4 基于遗传算法的权重分配方法 59-64 4.4.1 遗传算法在全文检索中应用 59-60 4.4.2 本文对遗传算法的设计 60-64 4.5 实验与结果分析 64-67 4.5.1 实验内容及流程 64-65 4.5.2 实验参数的确定 65 4.5.3 实验结果及分析 65-67 4.6 本章小结 67-69 第5章 技术出版物综合管理系统的实现 69-77 5.1 各种格式文档的可读性 69-70 5.1.1 Word 文档的可读性 69-70 5.1.2 DWG 文档的可读性 70 5.2 系统各部分的实现及运行界面 70-75 5.2.1 前台浏览各功能模块的实现 70-72 5.2.2 后台管理各功能模块的实现 72-75 5.3 本章小结 75-77 结论 77-79 参考文献 79-83 攻读学位期间发表的学术论文 83-85 致谢 85-86 大摘要 86-90
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 游戏公司计费系统的设计与实现,TP311.52
- 宜宾移动IT支撑系统设计研究,TP311.52
- 盘锦市区划地名信息系统的设计与实现,TP311.52
- 银行用户数据管理系统的设计与实现,TP311.52
- 多核环境下内存数据库查询优化的研究,TP311.13
- 达梦嵌入式数据库的执行计划缓存研究,TP311.13
- 基于智能手机的传送网风险控制系统的设计与实现,TP273
- 基于逻辑卷的分级存储系统设计与实现,TP333
- 面向非结构化数据查询优化的存储系统,TP333
- 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
- 仿动物软件工程方法基因模型研究,TP311.52
- 基于SSH框架的出版物管理系统的设计与实现,TP311.52
- RFID复杂事件实时查询处理及其优化策略,TP391.44
- 大型射电望远镜主动面系统控制软件的开发,TH751
- 云环境下MapReduce容错技术的研究,TP302.8
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 磁约束聚变实验海量数据检索分析研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|