学位论文 > 优秀研究生学位论文题录展示
基于查询扩展的油田网络舆情监控系统
作 者: 韩开旭
导 师: 尚福华
学 校: 东北石油大学
专 业: 计算机应用技术
关键词: 查询扩展 舆情监控 信息检索 同义词
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的疾速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活泼已到达史无前例的程度,不管是国内还是国际严重事件,都能立刻形成网上言论,到达任何部门、机构都无法无视的田地。能够说,互联网已成为思维文化信息的集散地和社会言论的放大器,进而推进了网络舆情监测的发展。油田企业为国家输送重要的战略资源,是国家经济腾飞的顶梁柱,然而互联网的虚拟性导致那些不利于乃至破坏油田企业形象、声誉的信息恣意传播,甚至干扰了油田企业的正常运行,对油田企业的社会形象带来了严重的不良影响。针对这些突发的,影响极其恶劣的不良信息事件,已有的基于信息检索的舆情监控系统在查全率和查准率上的表现均不够理想,尤其是在具体的应用的领域内,例如油田。为了解决上述问题,尤其是解决油田信息监管的难题,将油田领域的敏感信息尽可能准确的全面的提取成为舆情监控所研究的一项重要技术。在现有的信息检索技术的基础上,如何更有效的更全面的判定信息是否为油田相关信息为此技术的难点。本文主要研究工作如下:(1)介绍了课题的研究背景,包括信息检索的概念、起源现状和面临的问题以及信息检索在舆情监控中的应用,概述了舆情监控与信息检索的关系以及相关理论。(2)针对当前已有的查询扩展方法在油田舆情监控应用上的缺点,改进传统信息检索系统的查询扩展算法,提出了基于相近术语群和同义词的查询扩展方法。该方法能够将充分体现用户领域特点的用户自定义的词库融入相近术语群中,最终使得扩展词的权重更加合理,也提高了查全率和查准率,从而保证查询扩展的结果更趋于用户的真实想法。(3)结合扩展词库和向量空间模型,改进了已有的文本相似度算法。使得文本相似计算中词语的权重更接近真实,从而准确的影响文本的相似度。(4)设计并实现了油田网络舆情监控系统,将本文的研究合理的应用到了实际中,为油田舆情监控带来了帮助。
|
全文目录
摘要 4-5 ABSTRACT 5-7 创新点摘要 7-10 第一章 绪论 10-17 1.1 引言 10-12 1.1.1 研究背景 10-11 1.1.2 研究目的及意义 11-12 1.2 现状以及面临问题 12-15 1.2.1 信息检索起源和现状 12-14 1.2.2 面临的问题 14-15 1.3 论文主要研究内容 15-16 1.4 论文的内容安排 16-17 第二章 相关理论 17-24 2.1 信息检索相关概念 17-19 2.1.1 分词理论 17-18 2.1.2 向量空间模型 18-19 2.2 垂直搜索 19 2.3 查询扩展 19-23 2.3.1 基于用户反馈的查询扩展 19-22 2.3.2 基于局部分析的查询扩展 22 2.3.3 基于潜在语意和相似词典的查询扩展 22-23 2.4 小结 23-24 第三章 基于相近术语群和同义词的查询扩展 24-32 3.1 基于万维网的查询扩展思想 24 3.2 术语获取 24-25 3.2.1 聚类 24-25 3.2.2 术语获取 25 3.3 相近术语群的自动获取 25-26 3.4 查询扩展 26-29 3.4.1 初次结果集的主题相近术语群 26-27 3.4.2 同义词库与相近术语群 27-29 3.5 系统流程 29 3.6 实验结果与分析 29-31 3.7 小结 31-32 第四章 基于向量空间模型和用户定义扩展词库的文本相似 32-39 4.1 基于向量空间模型的相似度算法 32-33 4.2 特征属性选择 33-34 4.2.1 特征项频率和文档频率 33-34 4.2.2 基于向量空间模型的TF*IDF 34 4.2.3 改进的DF 算法 34 4.3 改进的基于向量空间模型的文本相似度方法 34-38 4.3.1 基于VSM 的TF*IDF 算法的不足 35 4.3.2 基于自定义的扩展词库的特征贡献 35-36 4.3.3 实验结果与分析 36-38 4.4 小结 38-39 第五章 油田网络舆情监控系统的设计与实现 39-49 5.1 系统概述 39 5.2 系统框架结构 39-40 5.3 系统主要模块设计 40-44 5.3.1 数据采集模块 40-41 5.3.2 预处理模块 41 5.3.3 索引模块 41-43 5.3.4 查询扩展模块 43 5.3.5 查询模块 43 5.3.6 图形图表 43-44 5.4 系统主要功能 44-48 5.4.1 系统功能框架结构 44 5.4.2 舆情信息采集子系统 44-45 5.4.3 舆情检索监控子系统 45-48 5.5 系统特点 48 5.6 小结 48-49 结论 49-50 参考文献 50-53 发表文章目录 53-54 致谢 54-55 论文摘要 55-62
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 俄语同义词的性质、功能与分布研究,H35
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 数据驱动模式视角下的英语专业学生搭配习得研究,H319
- 基于语料库的同义词辨析研究,H313
- 汉韩同形词与对韩汉语词语教学,H195.3
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 增量文本聚类在舆情监控中的研究与实现,TP391.1
- 汉老相对应词对比,H195
- 《潜夫论》同义词研究,H131
- 《北梦琐言》同义词研究,H131
- 《世说新语》名词同义词研究,H131
- “开心”类词的多维辨析及其教学探讨,H195
- 网络舆情监控系统的研究与实现,TP393.09
- 大规模汉语语义词典构建,TP391.1
- 《新标准韩国语》中的中韩汉字词对比研究,H55
- 《论语正义》中刘宝楠对同义词的研究,H131
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|