学位论文 > 优秀研究生学位论文题录展示
基于自然语言理解的全文搜索研究
作 者: 黄翠平
导 师: 李跃新
学 校: 湖北大学
专 业: 计算机应用技术
关键词: 自然语言理解 倒排索引 全文搜索 中文分词 局部索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络技术的发展,网络中存在的信息量也越来越大,如何高效、快速、准确地从庞大的信息海中获取到满足要求的信息已经成为人们重点关注的问题。传统的信息检索技术仅仅是从关键字的角度出发进行信息的机械匹配,现在越来越多的人已经开始将自然语言与搜索引擎技术结合研究,探索智能搜索引擎的开发。本文分析研究了信息检索技术中比较主流的全文搜索技术,全文搜索技术对非结构化文本的处理就是将文档中的所有内容作为研究对象,经过文本处理得到可以被索引的纯文本信息,然后对文本信息分词建立索引形成索引库,当有用户进行信息检索时,对用户输入的关键字进行一定的处理再与索引库中的索引关键字进行匹配,从索引库中提取出满足用户要求的信息。在全文搜索技术的基础上,加入自然语言理解的中文分词处理层次,具体的研究内容和成果如下:①分析研究了全文搜索、自然语言理解的关键原理及处理机制,在理论的基础上,结合SS (Struts+Spring)框架开发出一个基于自然语言理解全切分中文分词的全文搜索系统原型,此系统原型是针对目前各种典型非结构化文档的全部内容进行文本预处理、中文分词、建立索引库、在索引库中进行信息检索;②已开发出的系统原型对于文档信息量较小的文档库进行建立索引库检索信息的效率、准确率都比较高。但是可以预想,当文档库所包含的信息量非常大,对文档全部内容进行预处理,再分词建立索引库,时空耗费必然也相当庞大。针对这一缺陷,本文提出了一种对文档内容建立局部索引的思想,并且在已开发完成的系统原型基础上进一步研究,比较两种不同的文档处理机制,经过试验,得出对文档内容建立局部索引在信息检索领域是相当有研究价值的。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-14 1.1 研究背景及意义 10-11 1.2 全文搜索研究现状 11 1.3 研究主要内容 11-14 第二章 全文搜索的研究 14-24 2.1 全文搜索简介 14-15 2.2 全文搜索索引器结构和功能 15-17 2.2.1 全文搜索索引器结构 15-17 2.2.2 全文搜索索引器功能 17 2.3 LUCENE系统结构分析 17-19 2.3.1 Lucene简介 17-18 2.3.2 Lucene数据流分析 18-19 2.4 LUCENE索引机制 19-22 2.4.1 Lucene索引建立 19-21 2.4.2 Lucene索引文件结构 21-22 2.5 LUCENE检索分析 22-23 2.5.1 Lucene检索机制 22 2.5.2 Lucene检索流程 22-23 2.6 本章小结 23-24 第三章 自然语言理解的研究 24-36 3.1 自然语言的特性 24 3.2 自然语言的处理层次 24-32 3.2.1 语音分析 24 3.2.2 词法分析 24-26 3.2.3 句法分析 26-30 3.2.4 语义分析 30-32 3.2.5 语用分析 32 3.3 中文分词技术 32-35 3.4 本章小结 35-36 第四章 基于自然语言理解的全文搜索实现 36-46 4.1 概述 36-37 4.2 文本预处理 37-41 4.3 索引子系统 41-42 4.4 检索子系统 42-44 4.5 本章小结 44-46 第五章 局部索引实现 46-51 5.1 局部索引思想 46-47 5.2 局部索引试验环境 47 5.3 局部索引实现 47-50 5.4 本章小结 50-51 总结与展望 51-53 6.1 总结 51 6.2 展望 51-53 参考文献 53-56 致谢 56
|
相似论文
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 全文检索及相关技术研究,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于局部特征的图像拷贝检测研究,TP391.41
- 主观题自动评分技术研究,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于内容的图形搜索平台的设计与实现,TP311.52
- 建筑图中有限自然语言的分析与理解的研究,TU204
- 自然语言理解中疑问代词研究及其在产品设计中的应用,TP391.1
- 基于自然语言理解的3D场景构造研究,TP391.41
- 以动词为逻辑驱动的中文信息处理系统的建设,TP391.1
- 农业信息网,TP393.02
- 校园网搜索引擎核心技术—中文自动分词,TP391.3
- 搜索引擎个性化检索及用户推荐功能的设计与实现,TP391.3
- 贝叶斯算法在垃圾邮件过滤技术中的研究与应用,TP393.098
- 基于观点挖掘的产品可用性建模与评价,F274
- 基于优化最大匹配的中文分词方法研究,TP391.1
- 一种基于本体的数据集成用户接口方法研究,TP311.52
- 服装CAPP导航设计的研究及实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|