学位论文 > 优秀研究生学位论文题录展示
Query语义依存分析技术研究
作 者: 唐国华
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 语义依存分析 语义搜索 搜索引擎 用户查询
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的飞速发展使得信息以前所未有的速度产生和传播,面对信息呈指数式增长、垃圾信息泛滥成灾的困境,搜索引擎如何找到对用户真正有用的信息遇到了很大的挑战。在传统的搜索引擎中,用户输入查询(query),搜索引擎返回一个很长的网页列表。它不知道用户在问什么,不知道用户想找什么,只是通过基于关键字匹配的检索方式,把包含有关键词的网页找到;再通过网页排序的算法,将结果列表进行排序以后展示给用户,用户需要在很长的列表中,自己筛选出真正想要的信息。Query语义依存分析技术首先可以改善传统搜索引擎中的网页排序,它能够对query进行深层语义理解,从而更准确的理解用户的需求,减轻用户筛选信息的负担。另一方面,相对于传统搜索引擎,语义搜索近来受到工业界和学术界的广泛关注。和传统搜索引擎给出信息列表不同,语义搜索将所有信息组织成一个庞大的知识库,面对用户的query,它直接从知识库中检索并返回答案。从而用户省去了自己筛选信息的步骤,更快速更直接地达到搜索的目的。Query语义依存分析技术可以帮助语义搜索引擎更深刻的理解用户需求,更准确的在知识库中进行答案的查找。除此之外,query语义依存分析技术还在自动问答、智能个人助手、信息检索、信息抽取等方向有着广阔的应用前景。本文提出了基于规则和基于统计的两个语义依存分析技术,主要研究内容包括:(1)Query语义依存分析和普通句子上的语义依存分析的异同。相对普通句子来说,query具有长度较短且结构松散的特点,因而和普通句子上的语义依存分析技术有很大的差别。(2)Query语义依存分析的依存关系体系的确定,即根据query的特点,以及应用的需求,确定一个合适的依存关系体系。依存关系体系的确定,首先要考虑体系的完整性,是否能把主要的语义现象覆盖住。其次也要考虑技术上的成本、应用的需求等。本文确定了五类语义依存关系,分别是属性、限定、施事、受事、需求。其中限定关系又分了六个子类别,分别是时间限定、地点限定、数字限定、型号限定、疑问限定、否定限定。(3)针对六类特殊限定定义明确简单的特点,提出了基于规则的query语义依存分析技术,包括规则的定义、规则的编制、规则的应用。(4)将语义依存分析问题转换为分类问题,提出了基于统计的query语义依存分析技术,包括语义资源的挖掘、分类特征的设计和选择。最终通过对比和实验说明了规则和统计两种方法的有效性。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-23 1.1 课题背景 10 1.2 问题定义 10-20 1.2.1 Query语义依存分析 10-12 1.2.2 语义依存体系 12-18 1.2.3 Query语义依存分析的特点 18-20 1.3 课题研究的目的和意义 20-21 1.4 本文主要研究内容及章节安排 21-23 第2章 基于规则的方法实现若干类特殊限定关系的语义依存分析 23-38 2.1 规则的定义 24-27 2.2 规则的改进 27-30 2.2.1 星号通配符(*)和相对位置 27-28 2.2.2 末尾标志($) 28-29 2.2.3 列表和非操作符(!) 29 2.2.4 约简机制 29-30 2.3 基于bootstrapping自动挖掘规则 30-32 2.4 模板的泛化 32-34 2.5 基于规则方法的语义依存分析系统的设计与实现 34-37 2.6 本章小结 37-38 第3章 基于统计的方法实现施事受事等关系的语义依存分析 38-50 3.1 基于SVM的语义依存分析系统 38-39 3.2 Query预处理 39-40 3.3 语义资源挖掘 40-44 3.3.1 词表资源 40-41 3.3.2 词对资源 41-42 3.3.3 模板资源 42-43 3.3.4 动词属性资源 43-44 3.4 分类特征设计 44-49 3.5 本章小结 49-50 第4章 实验与评价 50-54 4.1 评价指标 50 4.2 规则系统的实验与评价 50-52 4.3 统计系统的实验与评价 52-53 4.4 本章小结 53-54 结论 54-55 参考文献 55-58 附录A 词性和命名实体标注体系 58-60 附录B 部分高频动词的属性标注 60-62 致谢 62
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于BP网络的元搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- WEB个性化信息采集与管理关键技术研究,TP393.09
- 消防领域搜索引擎系统的设计与实现,TP391.3
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
- 面向汽车行业信息检索的搜索引擎质量评估研究,F426.471
- 基于云计算的分布式智能语义搜索方法研究,TP391.1
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于购物搜索引擎的网页解析模块的设计与实现,TP393.092
- 企业搜索引擎中网页分类技术的研究与实现,TP393.092
- 面向Deep Web响应页面的模式识别的研究,TP393.092
- 搜索引擎中大型网站的网页更新策略研究,TP393.092
- 汉语语义依存分析研究,TP391.1
- 面向用户兴趣的Web搜索策略的研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|