学位论文 > 优秀研究生学位论文题录展示
基于词共现的语言模型信息检索方法研究
作 者: 赵祥重
导 师: 印桂生
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 信息检索 语言模型 词共现 主题词抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
随着电子计算机应用技术的日益成熟和互联网应用的迅速发展,社会信息化进程加快,人类进入了一个信息爆炸的时代。因此能够使人们在海量数据中实现快速查找有用信息的信息检索技术应运而生。为了更好地解决信息检索中存在的问题,对诸如检索模型、排序算法、文档表示模型以及查询扩展等方面的研究迅速发展。其中,检索模型一直都是该领域研究的热点,尤其是语言模型在该领域的应用,极大地促进了检索模型研究的发展,并取得了较为丰硕的研究成果。但是经典的语言模型忽略了词汇间的潜在语义关联性。本文主要针对这一问题进行研究,发挥面向单一专业领域文档集的优势,挖掘词汇间的潜在语义关联并改进语言模型。本文主要分成以下三个部分进行研究:1.通过关联规则挖掘文档集中词共现对,并利用共现词对构建文档集词共现图和文档词共现图,发现文档中词汇间存在的语义联系。2.提出一种基于词共现的多因素混合文本主题词抽取方法。首先,对影响主题词的多种因素进行详细地研究与分析,并利用多种因素对词汇权重进行基础评分。然后,在文档中通过文档词共现图分析词汇间联系,并对词汇权重基础评分做出调整,最后完成主题词抽取。该部分研究为检索模型的建立提供了重要保障。3.提出一种基于词共现的语言模型。主要思想是,对面向专业领域文档集的各文档进行主题词标注,构建领域主题词表。在领域主题词表的基础上,将文档分成非领域主题词和领域主题词两部分。对于非领域主题词部分按照经典语言模型进行计算;对于领域主题词部分分别从两种不同角度分析词汇和主题词关系:宏观词共现和微观词共现,估计词汇与主题词之间的相似度进行计算,进而估算查询信息与文档的相似度。本文通过实验验证了基于词共现的主题词抽取方法的优越性,并证明了基于词共现的语言信息检索模型在面向专业领域的准确性。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-17 1.1 课题背景与意义 10-11 1.2 国内外研究现状 11-13 1.2.1 信息检索及检索模型 11-13 1.2.2 主题词抽取 13 1.3 本文动因 13-15 1.4 主要研究内容 15 1.5 本文组织结构 15-17 第2章 相关理论 17-31 2.1 信息检索 17 2.2 统计语言模型 17-22 2.2.1 统计语言模型概述 18-19 2.2.2 平滑方法 19-21 2.2.3 Kullback-Leibler 距离检索框架 21-22 2.2.4 语言模型的优点 22 2.3 词共现 22-30 2.3.1 词共现与主题 23-24 2.3.2 共现词对抽取流程 24-26 2.3.3 词共现图 26-30 2.4 本章小结 30-31 第3章 基于词共现的多因素混合主题词抽取方法 31-42 3.1 影响主题词的多种因素 31-33 3.2 权重计算 33-35 3.3 主题词抽取算法 35 3.4 实验结果及分析 35-41 3.4.1 实验数据集 35-36 3.4.2 测评指标 36-37 3.4.3 结果分析 37-41 3.5 本章小结 41-42 第4章 基于词共现的语言模型 42-58 4.1 模型建立 42-45 4.1.1 主题词表 42-43 4.1.2 基于词共现的语言模型 43-45 4.2 词汇与主题词相关度 45-50 4.2.1 宏观词共现关系 46-48 4.2.2 微观词共现关系 48-49 4.2.3 相关度计算 49-50 4.3 实验结果及分析 50-56 4.3.1 实验数据集 50-51 4.3.2 测评指标 51 4.3.3 结果分析 51-56 4.4 本章小结 56-58 结论 58-60 参考文献 60-65 致谢 65
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 词义消歧语料库自动获取方法研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
- 英汉可比较语料库的构建与应用研究,TP391.1
- 外文数据库无障碍信息检索的策略研究,G354
- 基于因特网的动态规范词表的系统构建研究,G354
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 面向行业搜索引擎的研究与实现,TP391.3
- 音频特征与社会标签相结合的音乐推荐系统,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 隐私保护信息检索协议及其应用研究,TP393.08
- 基于词语权重的中文文本分类算法的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|