学位论文 > 优秀研究生学位论文题录展示
基于贝叶斯网络的信息检索研究
作 者: 白田恬
导 师: 邢永康
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 贝叶斯网络 信息检索模型 关联规则挖掘 向量空间模型 查全率 查准率
分类号: TP183
类 型: 硕士论文
年 份: 2007年
下 载: 233次
引 用: 4次
阅 读: 论文下载
内容摘要
贝叶斯网络是以统计学为基础,是数据挖掘技术的一种方法。本质上贝叶斯网络是一个有向无循环的图表模型,直观地表述了多个变量之间的依赖关系。它通过一个有向无循环图来描述各个节点之间的因果关系,通过一个条件概率分布表来描述各个节点之间的关系密切程度。并且,贝叶斯网络可以有效地把先验知识和现有数据结合起来,使得网络的推理结果更加的合理。特别是在当前数据较少或者较难获得的情况下,贝叶斯网络的这一优点更加明显。现在随着因特网技术的迅速发展,因特网上的信息成几何级数增长,传统的信息检索服务已不能满足用户的检索需求,因此智能信息检索成为重要的研究课题。影响一个检索系统的性能有很多因素,最关键的还是信息检索的模型。信息检索的模型的效率决定了整个信息检索效果。本文从介绍了信息检索的三类数学模型——集合模型、代数模型和概率模型着手,对这三类信息检索模型的检索效果进行了分析。并分析了利用贝叶斯网络来进行信息检索的几个优势:贝叶斯网络方法有坚实的理论基础;贝叶斯网络有成熟的概率推理算法和开发软件;贝叶斯网络更适合于信息检索模型;贝叶斯网络具有很强的学习能力。同时结合信息检索本身的特点,本文在推理网络模型的基础上设计了一个贝叶斯网络模型。并对信息检索中的贝叶斯网络模型做了若干改进,通过对贝叶斯模型中的概率进行限定,由此简化了计算的工作量。同时由于用户在输入查询关键词的时候,往往由于自身的种种原因,而不够准确、细致,这时会严重的影响到信息检索的结果。为了解决这个问题,本文在再次基于贝叶斯网络、利用关联规则挖掘的方法对检索词进行了扩展,这样可以有效地解决用户输入的查询关键词不准确的问题。本文最后通过实验在查全率和查准率上对我们提出的信息检索模型和其他三种传统的信息检索模型做了比较,结果证明我们提出的信息检索模型是十分有效的。
|
全文目录
摘要 3-4 ABSTRACT 4-9 1 绪论 9-14 1.1 课题的提出背景 9 1.2 国内外研究的现状与发展 9-11 1.2.1 智能化信息检索 9-10 1.2.2 贝叶斯网络的应用 10-11 1.3 本文研究的意义、目标与主要内容 11-13 1.4 论文的框架与组织 13-14 2 现有信息检索模型综述 14-24 2.1 集合模型 14-18 2.1.1 布尔模型 14-15 2.1.2 扩展布尔模型 15-17 2.1.3 总结 17-18 2.2 代数模型 18-20 2.3 概率模型 20-21 2.4 三种模型的比较 21-23 2.4.1 概率模型与向量空间模型的关系 21-22 2.4.2 三种模型的综合比较 22-23 2.5 本章小结 23-24 3 贝叶斯网络的概述 24-29 3.1 贝叶斯网络基本概念 24-26 3.1.1 贝叶斯网的产生 24-25 3.1.2 贝叶斯网的表示方法 25-26 3.2 贝叶斯网络与神经网络的关系 26-27 3.3 应用贝叶斯网络进行信息检索的优势 27-28 3.4 本章小结 28-29 4 基于贝叶斯网络的信息检索模型 29-37 4.1 符号约定 29 4.2 检索模型的结构框架 29-30 4.3 推理网络模型 30-33 4.4 贝叶斯网络模型 33-35 4.5 贝叶斯网络模型的简化计算 35-36 4.6 本章小结 36-37 5 基于贝叶斯网络对检索项进行扩展 37-44 5.1 扩展检索项的贝叶斯网络 37-38 5.2 关联规则挖掘的基本概念和问题描述 38-39 5.3 关联规则挖掘算法——APRIORI 算法 39-40 5.4 利用频繁项目集对用户检索项进行扩展计算 40-42 5.5 本章小结 42-44 6 模型的性能评估 44-51 6.1 总述 44 6.2 实验介绍 44-46 6.2.1 数据的采集 44 6.2.2 关键词的扩展与权重的计算 44-45 6.2.3 计算查询项与文档之间的相似度 45-46 6.3 评价模型的两个指标 46-48 6.4 影响模型性能的因素 48-49 6.4.1 数据采集 48 6.4.2 贝叶斯概率推理 48 6.4.3 适应性 48-49 6.5 未来工作的展望 49-50 6.5.1 信息检索模型的发展 49 6.5.2 增量挖掘技术 49-50 6.6 本章小结 50-51 7 结束语 51-52 致谢 52-53 参考文献 53-58 附录 58
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 多传感器信息融合及其在可穿戴计算机上的应用,TP202
- 黄磷储罐区安全评价方法研究,TQ126.317
- 基于SVM分类算法的主题爬虫研究,TP391.3
- FPSO在石油卸载过程中的风险评估,U698
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 基于贝叶斯网络的软件风险管理模型研究与实现,TP311.52
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于贝叶斯网络的电机故障诊断方法研究,TM307.1
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 一种基于用户偏好的服务组合可信模型的研究,TP393.09
- 基于多实体贝叶斯网络的空中目标意图识别方法研究,E072
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 人工神经网络与计算
© 2012 www.xueweilunwen.com
|