学位论文 > 优秀研究生学位论文题录展示

基于语义分析的文档排序方法研究

作 者: 陈水银
导 师: 张茂元
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 信息检索 标签主题模型 概念语义 语义相关度 语义贡献度
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 0次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为互联网信息时代所面临的机遇和挑战。本文分析了语义相关度计算和主题模型的国内外研究方法,发现在现有的研究中大都是简单的从统计学的角度来对查询语句和文档进行匹配而忽略了对文档语义知识的挖掘。因此,本文从这个方面对每篇文档的潜在语义进行深入挖掘,进而从文档的语义上来和查询语句进行匹配,使得检索到的结果更全面、更准确。在本文中,我们提出一种基于标签主题模型的文档排序方法。我们运用这个方法我们得到了三个很重要的矩阵:“文档—标签”概率分布矩阵、“标签—主题”概率分布矩阵和“主题—词”概率分布矩阵,获得了词对文档的语义贡献度,将词对文档的贡献度进行了量化分析,而不是简单的按照词频和反文档频率进行打分,并且标签主题模型有严密的数学推导证明,能从理论和实验上证明从标签和主题的角度研究信息检索技术的正确性。基于标签主题模型的文档排序方法充分考虑了文档的语义信息和词语歧义性等问题。本文提出了一种基于概念语义分析的文档排序方法,该方法首先利用标签主题模型对文档进行建模并经过矩阵运算得到“文档—词”矩阵,并将此矩阵按语义相关度进行映射得到词对文档贡献度。这个方法充分利用了查询语句和文档标签之间的关系,把查询语句和文档紧密的联系起来,一次映射使得与查询语句越相关的词在文档中的权重越大,而那些与查询语句不太相关的词将被过滤掉,从而提高文档排序的准确率。本文是在NTCIR-5中文信息检索语料上对本文提出的两个方法进行了相关的实验,并利用TREC评测工具对实验结果进行评测。实验结果表明,本文所提出的基于标签主题模型的文档排序方法和基于概念语义分析的文档排序方法能更好的提高检索排序的准确率,也间接地证明了本文从语义的角度研究信息检索方法的有效性。

全文目录


摘要  5-6
Abstract  6-10
第一章 绪论  10-14
  1.1 研究背景以及意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文主要研究内容的简介  13
  1.4 本文的内容安排  13-14
第二章 相关理论与技术研究  14-25
  2.1 信息检索的发展  14-15
  2.2 语义相关度计算的发展  15-19
    2.2.1 基于语义词典的方法  15-17
    2.2.2 基于语料库的方法  17-18
    2.2.3 基于维基百科的语义相关度计算方法  18-19
  2.3 主题模型简介  19-23
    2.3.1 隐语义索引模型  19-21
    2.3.2 概率隐语义索引模型(PLSI)  21-22
    2.3.3 LDA模型  22-23
    2.3.4 标签主题模型  23
  2.4 本章小结  23-25
第三章 基于标签主题模型的文档排序方法  25-36
  3.1 主题模型研究背景  25
  3.2 基于标签主题模型的检索系统框架  25-27
    3.2.1 查询模块  26
    3.2.2 索引模块  26
    3.2.3 标签主题模型模块  26-27
    3.2.4 排序模块  27
  3.3 基于标签主题模型的文档排序方法  27-32
    3.3.1 相关公式  27-31
    3.3.2 算法描述  31-32
  3.4 实验设计及结果分析  32-35
    3.4.1 实验语料及对比系统  32-33
    3.4.2 实验流程  33
    3.4.3 实验结果  33-35
  3.5 本章小结  35-36
第四章 基于概念语义分析的文档排序方法  36-47
  4.1 本章研究背景  36
  4.2 基于概念语义分析的检索系统框架  36-38
    4.2.1 查询模块  37
    4.2.2 概念语义分析模块  37-38
    4.2.3 文档排序模块  38
  4.3 基于概念语义分析的文档排序方法  38-43
    4.3.1 基于距离的语义相关度计算  38-41
    4.3.2 标签主题模型建模  41-42
    4.3.3 概念语义分析  42-43
  4.4 实验设计及结果分析  43-46
    4.4.1 语义相关度计算实验  43-44
    4.4.2 标签主题模型实验参数  44
    4.4.3 实验结果和分析  44-46
  4.5 本章小结  46-47
第五章 工作总结以及未来展望  47-49
  5.1 总结  47
  5.2 进一步工作  47-49
参考文献  49-52
攻读硕士学位期间公开发表的学术论文与参加的科研项目  52-53
致谢  53-54

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于Web的未登录词翻译技术研究,TP391.2
  3. 英汉可比较语料库的构建与应用研究,TP391.1
  4. 外文数据库无障碍信息检索的策略研究,G354
  5. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  6. 基于分布式的垂直搜索引擎的研究与实现,TP391.3
  7. 隐私保护信息检索协议及其应用研究,TP393.08
  8. 基于词语权重的中文文本分类算法的研究,TP391.1
  9. 跨语言文本分类的研究,TP391.1
  10. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  11. 排序学习损失函数的研究,TP181
  12. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  13. 英汉跨语言问答系统中的文档语义检索,TP391.1
  14. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  15. 基于OWL的地名本体构建与检索机制研究,P208
  16. 面向地名本体服务的空间信息检索研究,P208
  17. 基于掌上设备的搜索引擎技术的研究,TP391.3
  18. 基于本体的个性化信息系统的应用研究,F49
  19. 基于地理本体的地理信息语义表达与查询方法研究,P208
  20. 基于技术接受模型的信息检索可视化研究,G252.7
  21. 基于Lucene的企业文档搜索引擎研究与应用,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com