学位论文 > 优秀研究生学位论文题录展示

基于语义分析的文档排序方法研究

作　者: 陈水银
导　师: 张茂元
学　校: 华中师范大学
专　业: 计算机应用技术
关键词: 信息检索标签主题模型概念语义语义相关度语义贡献度
分类号: TP391.1
类　型: 硕士论文
年　份: 2014年
下　载: 0次
引　用: 0次
阅　读: 论文下载

内容摘要

随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为互联网信息时代所面临的机遇和挑战。本文分析了语义相关度计算和主题模型的国内外研究方法,发现在现有的研究中大都是简单的从统计学的角度来对查询语句和文档进行匹配而忽略了对文档语义知识的挖掘。因此,本文从这个方面对每篇文档的潜在语义进行深入挖掘,进而从文档的语义上来和查询语句进行匹配,使得检索到的结果更全面、更准确。在本文中,我们提出一种基于标签主题模型的文档排序方法。我们运用这个方法我们得到了三个很重要的矩阵：“文档—标签”概率分布矩阵、“标签—主题”概率分布矩阵和“主题—词”概率分布矩阵,获得了词对文档的语义贡献度,将词对文档的贡献度进行了量化分析,而不是简单的按照词频和反文档频率进行打分,并且标签主题模型有严密的数学推导证明,能从理论和实验上证明从标签和主题的角度研究信息检索技术的正确性。基于标签主题模型的文档排序方法充分考虑了文档的语义信息和词语歧义性等问题。本文提出了一种基于概念语义分析的文档排序方法,该方法首先利用标签主题模型对文档进行建模并经过矩阵运算得到“文档—词”矩阵,并将此矩阵按语义相关度进行映射得到词对文档贡献度。这个方法充分利用了查询语句和文档标签之间的关系,把查询语句和文档紧密的联系起来,一次映射使得与查询语句越相关的词在文档中的权重越大,而那些与查询语句不太相关的词将被过滤掉,从而提高文档排序的准确率。本文是在NTCIR-5中文信息检索语料上对本文提出的两个方法进行了相关的实验,并利用TREC评测工具对实验结果进行评测。实验结果表明,本文所提出的基于标签主题模型的文档排序方法和基于概念语义分析的文档排序方法能更好的提高检索排序的准确率,也间接地证明了本文从语义的角度研究信息检索方法的有效性。

全文目录

摘要  5-6
Abstract  6-10
第一章绪论  10-14
  1.1 研究背景以及意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文主要研究内容的简介  13
  1.4 本文的内容安排  13-14
第二章相关理论与技术研究  14-25
  2.1 信息检索的发展  14-15
  2.2 语义相关度计算的发展  15-19
    2.2.1 基于语义词典的方法  15-17
    2.2.2 基于语料库的方法  17-18
    2.2.3 基于维基百科的语义相关度计算方法  18-19
  2.3 主题模型简介  19-23
    2.3.1 隐语义索引模型  19-21
    2.3.2 概率隐语义索引模型(PLSI)  21-22
    2.3.3 LDA模型  22-23
    2.3.4 标签主题模型  23
  2.4 本章小结  23-25
第三章基于标签主题模型的文档排序方法  25-36
  3.1 主题模型研究背景  25
  3.2 基于标签主题模型的检索系统框架  25-27
    3.2.1 查询模块  26
    3.2.2 索引模块  26
    3.2.3 标签主题模型模块  26-27
    3.2.4 排序模块  27
  3.3 基于标签主题模型的文档排序方法  27-32
    3.3.1 相关公式  27-31
    3.3.2 算法描述  31-32
  3.4 实验设计及结果分析  32-35
    3.4.1 实验语料及对比系统  32-33
    3.4.2 实验流程  33
    3.4.3 实验结果  33-35
  3.5 本章小结  35-36
第四章基于概念语义分析的文档排序方法  36-47
  4.1 本章研究背景  36
  4.2 基于概念语义分析的检索系统框架  36-38
    4.2.1 查询模块  37
    4.2.2 概念语义分析模块  37-38
    4.2.3 文档排序模块  38
  4.3 基于概念语义分析的文档排序方法  38-43
    4.3.1 基于距离的语义相关度计算  38-41
    4.3.2 标签主题模型建模  41-42
    4.3.3 概念语义分析  42-43
  4.4 实验设计及结果分析  43-46
    4.4.1 语义相关度计算实验  43-44
    4.4.2 标签主题模型实验参数  44
    4.4.3 实验结果和分析  44-46
  4.5 本章小结  46-47
第五章工作总结以及未来展望  47-49
  5.1 总结  47
  5.2 进一步工作  47-49
参考文献  49-52
攻读硕士学位期间公开发表的学术论文与参加的科研项目  52-53
致谢  53-54

基于语义分析的文档排序方法研究

内容摘要

全文目录

相似论文