学位论文 > 优秀研究生学位论文题录展示
基于短语识别的自然语言理解搜索方法研究
作 者: 齐波
导 师: 王成良
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 自然语言理解 搜索引擎 短语识别 聚类浏览
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 201次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的快速发展和网络应用范围的不断扩大,WEB信息量呈指数增长,而传统的搜索引擎仅能从词的层面上来进行搜索,造成人们从WEB信息海洋中及时、全面、准确获取信息越来越困难。目前,搜索引擎的查全率和查准率还比较低。如Google的网页索引量目前已经达到了33亿,但主要还是把用户的查询请求以关键词的形式与全文中的每一个词进行比较,而不考虑查询请求与文档语义上的匹配。类似的还有Baidu、Yahoo等。它们的检索方式都是基于词频分析技术,虽然返回信息很多,却有过多无关信息,用户必须从结果中进行筛选。本文针对传统的检索技术以及搜索引擎的弊端,对新一代的信息检索系统——基于自然语言理解的搜索引擎进行了研究。这是当前自然语言处理领域一个研究热点,同时也代表了将来搜索引擎的发展方向。该类搜索引擎综合运用了知识表示、信息检索、自然语言处理等技术,能够使用户以自然语言输入问题,而不是关键词的组合,大大方便了用户的操作。本文研究了在搜索引擎领域中一些自然语言处理上的相关技术,其中具体包括:①中文自动分词技术,分析了国内外分词技术的发展,列举并分析了比较经典的分词算法;②对现代汉语短语实现了机器识别,即通过短语优先合并算法将一个复杂短语实现了层次化的分解;③对动词谓语句的句法分析,定义了一种谓词链接法来分解自然语句,实现各块的分治,最终形成短语结构树;④概念提取和扩展检索技术,将短语树中的概念依次提取,并根据在树中的语义修饰关系,设定不同的权值,同时对这些提取出的概念实现了英语对照词的扩展检索;⑤聚类浏览技术,使用户的搜索结果不再是一组信息列表,而表现为具有类目和层次结构的新的信息反馈方式。本文的主要贡献是基本实现了基于自然语言理解的搜索引擎原型,并通过一系列测试来验证系统的查全率和查准率,具有工程实用价值。所做的研究工作及其结果对相关理论研究及实际系统的分析设计和实现也具有一定的参考价值和指导意义。
|
全文目录
中文摘要 3-4 英文摘要 4-9 1 绪论 9-14 1.1 课题的研究背景及意义 9-10 1.2 国内外现状研究 10-12 1.3 本文的研究内容和组织结构 12-14 2 搜索引擎概述 14-26 2.1 概述 14 2.2 搜索引擎的工作原理与系统结构 14-19 2.2.1 信息采集 15-16 2.2.2 信息标引 16-17 2.2.3 索引数据库 17-18 2.2.4 信息检索 18-19 2.3 搜索引擎的分类 19-20 2.3.1 全文搜索引擎 19 2.3.2 目录式搜索引擎 19 2.3.3 元搜索引擎 19 2.3.4 其他非主流搜索引擎形式 19 2.3.5 智能搜索引擎 19-20 2.4 搜索引擎的检索功能 20-26 2.4.1 基本检索功能 20-23 2.4.2 高级检索功能 23-26 3 智能搜索关键技术研究 26-43 3.1 概述 26 3.2 中文自动分词技术 26-29 3.2.1 引言 26 3.2.2 分词算法研究 26-28 3.2.3 ICTCLAS 介绍 28-29 3.3 短语识别技术 29-35 3.3.1 引言 29 3.3.2 短语规则表 29-31 3.3.3 语义词典 31-34 3.3.4 短语识别策略 34-35 3.4 句法结构分析 35-39 3.4.1 引言 35-36 3.4.2 谓词链接法 36-37 3.4.3 问句处理 37-39 3.5 概念提取与检索扩展 39-40 3.5.1 引言 39 3.5.2 概念提取 39 3.5.3 概念扩展 39-40 3.6 文本聚类算法 40-43 3.6.1 引言 40 3.6.2 聚类算法研究 40-43 4 智能搜索系统的分析与设计 43-54 4.1 概述 43 4.2 需求分析 43-44 4.3 系统总体设计思路 44-45 4.4 数据库设计 45-46 4.5 自然语言理解子系统设计 46-50 4.6 检索子系统设计 50-54 5 智能搜索系统的实现与测试 54-61 5.1 概述 54 5.2 系统开发与运行环境 54-55 5.3 表示层实现 55-57 5.4 逻辑层实现 57-58 5.5 数据层实现 58 5.6 系统测试 58-61 5.6.1 引言 58 5.6.2 短语合并模块的测试 58-60 5.6.3 系统测试 60-61 6 结论与展望 61-64 6.1 本文工作总结 61-62 6.2 未来工作展望 62-64 致谢 64-65 参考文献 65-68 附录 68
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 主观题自动评分技术研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 建筑图中有限自然语言的分析与理解的研究,TU204
- 网络下载侵权分析,D923.41
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|