学位论文 > 优秀研究生学位论文题录展示

基于复述的问题扩展技术研究

作 者: 康维鹏
导 师: 张宇
学 校: 哈尔滨工业大学
专 业: 计算机应用技术
关键词: 查询扩展 查询关键词 复述短语 语言模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 35次
引 用: 0次
阅 读: 论文下载
 

内容摘要


问题扩展,即根据用户查询意图,在原始查询基础上通过添加更有利于改善检索结果的词、词组或者短语,或通过改写重构,使得检索结果更满足于用户查询意图。问题扩展的原因在于查询词与索引词的不匹配问题,即通常所谓的关键字不匹配问题,其根源在于自然语言的灵活性与复杂多样性。问题扩展技术的研究主要包括,扩展资源的构建与扩展算法的探究这两方面内容。本文基于复述的问题扩展技术研究,将从这两个方面对问题扩展进行探索研究,尝试从语义层面上解决关键字不匹配问题。一方面,本文介绍利用在线词典系统自动获取复述短语的方法构建扩展资源;另一方面,本文探索将复述短语资源运用于问题扩展的新方法,提出了基于语言模型检验的三种问题扩展算法。利用多在线翻译与词典系统抽取复述短语的方法,将复述短语抽取看成是统计机器翻译的过程。通过多在线翻译与词典系统,将源语言短语翻译成中间语言、再将中间语言短语翻译回源语言,通过中间语言建立起了源语言短语间的翻译模型。这种方法具有简易可行性的优点,并且获取的复述短语准确率接近70%,复述短语平均数目达到6个。对于问句分析,本文主要研究关键字确定与赋权。本文采用了规则与统计相结合的关键字确定方法,以及基于统计的关键字赋权方法。实验表明,本文所采用的方法相对于规则的关键字确定方法与赋权方法,准确率提高3%左右。本文提出了三种利用复述短语进行问题扩展的方法,分别是基于语言模型检验的N-Best同义问句扩展算法、基于语言模型检验的N-Best同义短语扩展算法,以及基于语言模型检验的N-Best同义短语改进扩展算法。本文将阐述这三个扩展算法的原理,并通过实验对比各方法的性能表现。在TREC9评测集上的实验表明:相对于原始查询,复述短语用于问题扩展后的召回率提高近3%,其中基于语言模型检验的N-Best同义问句扩展方法表现最好。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-22
  1.1 课题背景与意义  9-12
    1.1.1 问题扩展的定义与分类  9-10
    1.1.2 复述的定义与运用  10-11
    1.1.3 语言模型的定义与应用  11-12
    1.1.4 课题研究的意义  12
  1.2 研究现状及分析  12-20
    1.2.1 问题扩展的研究现状  13-16
      1.2.1.1 局部分析方向  13-14
      1.2.1.2 全局分析方向  14-16
      1.2.1.3 问题扩展的相关评测  16
    1.2.2 复述资源获取的相关研究  16-18
    1.2.3 语言模型的相关研究  18-20
  1.3 本文的研究内容及章节安排  20-22
第2章 利用在线词典获取复述短语资源  22-36
  2.1 引言  22-23
  2.2 利用多在线词典抽取复述短语  23-29
    2.2.1 问句划分与短语识别  23-25
    2.2.2 复述短语资源的获取  25-29
  2.3 复述短语抽取结果的评价与分析  29-31
  2.4 实验介绍与设计  31-35
    2.4.1 实验评测集与评测指标  31-32
    2.4.2 扩展资源对比实验设计  32
    2.4.3 扩展资源对比实验结果  32-35
  2.5 本章小结  35-36
第3章 查询问句分析  36-51
  3.1 引言  36
  3.2 问题类型判别  36-40
    3.2.1 本文定义的问题类型  36-37
    3.2.2 最大熵分类原理  37-39
    3.2.3 问题类型判别的特征  39-40
  3.3 关键字分析与赋权  40-47
    3.3.1 基于规则的关键字确定方法  41-43
    3.3.2 基于统计的关键词确定方法  43-45
    3.3.3 统计与规则相结合的关键词确定方法  45-47
  3.4 实验结果与分析  47-50
    3.4.1 关键字赋权对检索结果的影响  47-48
    3.4.2 关键字确定方法对检索结果的影响  48-50
  3.5 本章小结  50-51
第4章 基于语言模型检验的问题扩展方法探索  51-73
  4.1 引言  51
  4.2 问题扩展方法概述  51-52
  4.3 基于语言模型检验的查询扩展  52-66
    4.3.1 语言模型对查询扩展检验的原理  53-55
    4.3.2 基于语言模型检验的N-Best 同义问句扩展算法  55-59
    4.3.3 基于语言模型检验的N-Best 同义短语扩展算法  59-64
    4.3.4 基于语言模型检验的N-Best 同义短语改进扩展算法  64-66
  4.4 几种扩展算法的中间结果  66-68
  4.5 扩展方法对比实验设计  68-72
    4.5.1 实验语料以及评测指标  68-69
    4.5.2 扩展算法的对比实验  69-72
  4.6 本章小结  72-73
结论  73-74
参考文献  74-79
致谢  79

相似论文

  1. 统计机器翻译中结构转换技术的研究,TP391.2
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 网络搜索引擎的相关技术研究,G354
  4. 面向查询的XML文本摘要技术,TP391.1
  5. 短语级复述的识别与抽取,TP391.1
  6. 基于关联词的复句语言模型,TP391.1
  7. 基于聚类的XML文档检索反馈机制研究,TP391.3
  8. 基于语言模型的XML信息检索的研究与实现,TP391.3
  9. 基于领域本体扩展查询的文本信息检索研究,TP391.3
  10. 基于本体的语义搜索技术研究与实现,TP391.3
  11. 基于模型驱动的动态Web服务组合方法,TP393.09
  12. 基于信息几何的高阶纯相关模型及其应用,TP391.1
  13. 基于词典和概率统计的中文分词算法研究,TP391.1
  14. 英汉跨语言问答系统中的文档语义检索,TP391.1
  15. 词义消歧语料库自动获取方法研究,TP391.1
  16. Web检索中的查询扩展及结果聚类技术研究,TP391.3
  17. 统计和规则相结合的语言模型在中文输入法中的应用研究,TP391.14
  18. 基于词片和Lattice的汉语语音检索技术研究,TP391.41
  19. 基于本体的语义检索原型系统的设计与实现,TP391.3
  20. 基于统计语言模型和Passage特征的信息检索模型研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com