学位论文 > 优秀研究生学位论文题录展示
面向舆情监控的热点人物及事件分析技术
作 者: 孙振龙
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 舆情监控 人名识别 人物分类 倾向性分析 热点人物排序
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet在全球范围内的广泛普及,互联网已经成为社会舆论的放大器和思想文化信息的集散地。舆情信息反映了民众思想状况,在Web2.0的强大传播力之下,对舆情信息的研究显得极其重要。面对每天更新的海量的信息,高效准确的挖掘出热点新闻和舆论走势已经成为亟待解决的问题。一般情况下,事件的发生和发展都与人物有关,很多热点事件都是围绕着人在进行。在这种背景下,本文以分析热点人物为切入点,找到并分析发生在他们身上的事件,进而把握网络舆情。围绕着热点人物及事件分析技术,本文的研究主要涉及以下几个方面:(1)提出了融合多种词法分析工具识别人名的方法和基于Lingo聚类策略的人名消歧方法。首先利用现有的分词及标注工具中人名标注功能初步识别人名,并根据最长原则融合几种人名识别方法的结果。同时,尝试了几种噪声人名的去除方法,并基于Lingo聚类算法进行人名消歧。实验表明,融合策略在不降低人名识别正确率的前提下提高了人名识别的召回率,人名去噪及消歧方法能够很好的满足应用需求。(2)研究了有监督的人物分类技术,提出一种基于SVM的人物分类方法。首先从包含人物的文本中抽取能够描述人物的一定长度的文本片段,然后利用信息增益提取出代表人物的有用属性特征,最后用SVM算法对人物进行分类。实验表明,这种方式能有效的预测人物的所属领域。(3)研究了基于信息熵和情感词典相结合的特征提取技术,并用其进行热点人物事件的倾向性分析。信息熵计算特征的区分能力,而情感词典解决覆盖率问题。本文提取的特征分为从训练集中提取的特征和从情感词典中提取的特征。训练集中提取的特征是与语料相关的,或者说与领域相关的。而情感词典具有通用性,其中含有训练集提取的特征集中没有的特征。实验结果显示,将两种特征融合到一起能够有效地提高事件倾向性分析的性能。同时,本文尝试了用同义词词林将候选特征集合进行聚合,即将同义的两个特征映射到一个特征上,这样做既降低了空间向量的维数,又不丢失语义信息,达到了两者兼顾的效果,而且提高了语义相似度计算的精度。在特征聚类过程中将特征的同义词也加入,从而达到扩展重要特征的效果,提高了事件倾向性分析过程的特征识别能力。(4)提出了一种面向舆情监控的热点人物排序模型。该模型综合考虑人物的曝光率、热度趋势变化和所属领域的权重这些因素来计算分数,然后根据分数生成热点人物排行榜。其中人物曝光率就是人物一天内在新闻和评论中出现的次数;热度趋势变化程度由KL距离的变形来衡量;人物所属领域的权重根据该领域人物信息在舆情监控中的重要程度来设置,而人物的所属领域由人物自动分类技术实现。实验结果表明热点人物排序模型能够将舆情监控中的重要人物放到排行榜前段。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-17 1.1 本文研究的目的和意义 10-11 1.2 国内外研究现状 11-14 1.3 本文的主要研究内容 14-15 1.4 论文的组织结构 15-17 第2章 人名识别及消歧 17-25 2.1 引言 17 2.2 人名识别 17-20 2.2.1 基于词法分析工具的人名识别 18-19 2.2.2 融合多种词法分析结果的人名识别 19 2.2.3 人名识别的性能测试 19-20 2.3 噪声人名去除 20-21 2.3.1 基于模式匹配的噪声人名去除 20-21 2.3.2 基于词典的噪声人名去除 21 2.4 基于 LINGO 聚类算法的人名消歧 21-24 2.4.1 Lingo 聚类算法描述 21-22 2.4.2 人名消歧中的特征提取 22-23 2.4.3 人名消歧的过程 23 2.4.4 实验及结果分析 23-24 2.5 本章小结 24-25 第3章 基于 SVM 的自动人物分类 25-39 3.1 引言 25 3.2 预处理 25-28 3.2.1 分词及去停用词 25-26 3.2.2 文本表示模型 26-28 3.3 人物分类中的特征提取技术 28-33 3.3.1 常用的特征选择技术 28-31 3.3.2 人物分类中的特征选择技术 31-33 3.4 人物分类算法描述 33-36 3.4.1 常用的文本分类算法 33-35 3.4.2 基于 SVM 的人物分类算法 35-36 3.5 实验结果及分析 36-38 3.5.1 数据集 36-37 3.5.2 评价方法 37 3.5.3 结果及分析 37-38 3.6 本章小结 38-39 第4章 热点人物事件的倾向性分类 39-46 4.1 引言 39 4.2 倾向性分类中的特征提取技术 39-41 4.3 倾向性分类中的特征聚合和扩展技术 41-43 4.4. 实验结果及分析 43-45 4.4.1. 数据集及实验设置 43 4.4.2 评价方法 43-44 4.4.3 结果及分析 44-45 4.5 本章小结 45-46 第5章 热点人物排序及事件分析流程设计 46-56 5.1 引言 46 5.2 热点人物排序模型 46-49 5.2.1 基于 KL 距离的人物趋势计算 46-48 5.2.2 模型描述 48 5.2.3 实验及结果分析 48-49 5.3 热点人物排序及事件分析流程 49-52 5.3.1 流程设计 49-50 5.3.2 关键技术与实现策略 50-52 5.4 实验系统展示 52-54 5.5 本章小结 54-56 结论 56-57 参考文献 57-61 攻读硕士学位期间发表的论文 61-63 致谢 63
|
相似论文
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 中文人名跨文档指代消解研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于规则与统计的汉语自动分词研究,TP391.1
- 互联网文本视频过滤技术研究与应用,TP391.41
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- 基于Web的股评观点倾向性分析研究,TP391.1
- 增量文本聚类在舆情监控中的研究与实现,TP391.1
- 基于HowNet的中文语义倾向性分析技术研究,TP391.1
- 陶渊明诗歌中的人物分类论,I207.22
- 基于查询扩展的油田网络舆情监控系统,TP393.09
- 互联网舆情监控分析系统的研究与实现,TP393.09
- 基于共现链的微博情感分析技术的研究与实现,TP393.092
- 网络舆情监控系统的研究与实现,TP393.09
- 基于移动平台股票资讯搜索与预测系统研究,TP393.09
- 基于语义搭配的评论倾向性分析,TP391.1
- 基于统计和规则混合策略的中国人名识别研究,TP391.43
- 中文分词系统的设计和实现,TP391.1
- 质检总局舆情监控系统中信息抽取的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|