学位论文 > 优秀研究生学位论文题录展示

Query语义依存分析技术研究

作 者: 唐国华
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 语义依存分析 语义搜索 搜索引擎 用户查询
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 23次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的飞速发展使得信息以前所未有的速度产生和传播,面对信息呈指数式增长、垃圾信息泛滥成灾的困境,搜索引擎如何找到对用户真正有用的信息遇到了很大的挑战。在传统的搜索引擎中,用户输入查询(query),搜索引擎返回一个很长的网页列表。它不知道用户在问什么,不知道用户想找什么,只是通过基于关键字匹配的检索方式,把包含有关键词的网页找到;再通过网页排序的算法,将结果列表进行排序以后展示给用户,用户需要在很长的列表中,自己筛选出真正想要的信息。Query语义依存分析技术首先可以改善传统搜索引擎中的网页排序,它能够对query进行深层语义理解,从而更准确的理解用户的需求,减轻用户筛选信息的负担。另一方面,相对于传统搜索引擎,语义搜索近来受到工业界和学术界的广泛关注。和传统搜索引擎给出信息列表不同,语义搜索将所有信息组织成一个庞大的知识库,面对用户的query,它直接从知识库中检索并返回答案。从而用户省去了自己筛选信息的步骤,更快速更直接地达到搜索的目的。Query语义依存分析技术可以帮助语义搜索引擎更深刻的理解用户需求,更准确的在知识库中进行答案的查找。除此之外,query语义依存分析技术还在自动问答、智能个人助手、信息检索、信息抽取等方向有着广阔的应用前景。本文提出了基于规则和基于统计的两个语义依存分析技术,主要研究内容包括:(1)Query语义依存分析和普通句子上的语义依存分析的异同。相对普通句子来说,query具有长度较短且结构松散的特点,因而和普通句子上的语义依存分析技术有很大的差别。(2)Query语义依存分析的依存关系体系的确定,即根据query的特点,以及应用的需求,确定一个合适的依存关系体系。依存关系体系的确定,首先要考虑体系的完整性,是否能把主要的语义现象覆盖住。其次也要考虑技术上的成本、应用的需求等。本文确定了五类语义依存关系,分别是属性、限定、施事、受事、需求。其中限定关系又分了六个子类别,分别是时间限定、地点限定、数字限定、型号限定、疑问限定、否定限定。(3)针对六类特殊限定定义明确简单的特点,提出了基于规则的query语义依存分析技术,包括规则的定义、规则的编制、规则的应用。(4)将语义依存分析问题转换为分类问题,提出了基于统计的query语义依存分析技术,包括语义资源的挖掘、分类特征的设计和选择。最终通过对比和实验说明了规则和统计两种方法的有效性。

全文目录


摘要  4-6
Abstract  6-10
第1章 绪论  10-23
  1.1 课题背景  10
  1.2 问题定义  10-20
    1.2.1 Query语义依存分析  10-12
    1.2.2 语义依存体系  12-18
    1.2.3 Query语义依存分析的特点  18-20
  1.3 课题研究的目的和意义  20-21
  1.4 本文主要研究内容及章节安排  21-23
第2章 基于规则的方法实现若干类特殊限定关系的语义依存分析  23-38
  2.1 规则的定义  24-27
  2.2 规则的改进  27-30
    2.2.1 星号通配符(*)和相对位置  27-28
    2.2.2 末尾标志($)  28-29
    2.2.3 列表和非操作符(!)  29
    2.2.4 约简机制  29-30
  2.3 基于bootstrapping自动挖掘规则  30-32
  2.4 模板的泛化  32-34
  2.5 基于规则方法的语义依存分析系统的设计与实现  34-37
  2.6 本章小结  37-38
第3章 基于统计的方法实现施事受事等关系的语义依存分析  38-50
  3.1 基于SVM的语义依存分析系统  38-39
  3.2 Query预处理  39-40
  3.3 语义资源挖掘  40-44
    3.3.1 词表资源  40-41
    3.3.2 词对资源  41-42
    3.3.3 模板资源  42-43
    3.3.4 动词属性资源  43-44
  3.4 分类特征设计  44-49
  3.5 本章小结  49-50
第4章 实验与评价  50-54
  4.1 评价指标  50
  4.2 规则系统的实验与评价  50-52
  4.3 统计系统的实验与评价  52-53
  4.4 本章小结  53-54
结论  54-55
参考文献  55-58
附录A 词性和命名实体标注体系  58-60
附录B 部分高频动词的属性标注  60-62
致谢  62

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  3. 基于Web的未登录词翻译技术研究,TP391.2
  4. 基于社会网络分析的藏文web链接结构研究,TP393.09
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 基于BP网络的元搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  9. WEB个性化信息采集与管理关键技术研究,TP393.09
  10. 消防领域搜索引擎系统的设计与实现,TP391.3
  11. 基于分布式的垂直搜索引擎的研究与实现,TP391.3
  12. 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
  13. 面向汽车行业信息检索的搜索引擎质量评估研究,F426.471
  14. 基于云计算的分布式智能语义搜索方法研究,TP391.1
  15. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  16. 基于购物搜索引擎的网页解析模块的设计与实现,TP393.092
  17. 企业搜索引擎中网页分类技术的研究与实现,TP393.092
  18. 面向Deep Web响应页面的模式识别的研究,TP393.092
  19. 搜索引擎中大型网站的网页更新策略研究,TP393.092
  20. 汉语语义依存分析研究,TP391.1
  21. 面向用户兴趣的Web搜索策略的研究与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com