学位论文 > 优秀研究生学位论文题录展示
多粒度融合的汉语句子主观性和情感分类方法研究
作 者: 王昕
导 师: 付国宏
学 校: 黑龙江大学
专 业: 计算机应用技术
关键词: 意见挖掘 主观性分类 情感分类 模糊集合论
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 56次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的迅猛发展,特别是Web2.0的兴起,越来越多的人们以网络为媒介发表他们对某个事件或事物的意见和评论。意见挖掘得到了广泛地应用,并引起了自然语言处理等相关领域的极大关注,主观性识别和情感分类是意见挖掘中的两个关键问题,其主要任务就是将文本中人们所表达的意见信息从客观性的信息中识别出来,并确定其情感倾向。这两个问题的解决对意见问答系统、信息抽取、和意见文摘等自然语言处理系统都有着极其重要的意义。本文在统计方法和模糊集合论框架下研究汉语句子的主观性识别和情感分类问题。为了降低问题的复杂性,提高系统性能,本文根据汉语句子的特点分析句子中不同粒度层面的主观性及情感倾向,并以它们为基本任务线路,根据不同层次粒度的融合策略解决汉语句子层面的主观性识别和情感分类问题。具体地讲,本文从如下四个方面进行研究:1.主观性识别是意见挖掘中首先要解决的问题之一。面向大规模开放应用,本文提出了一整套汉语句子主观性识别解决方案,包括:(1)在分析汉语主观性表述的基础上,给出了一种基于Chi-square的主观性特征选择方法;(2)针对汉语主观性意见表述与客观事实表述的差异性,引入情感密度概念,提出一种基于情感密度的汉语句子主观性识别方法;(3)在汉语句子的情感密度的基础上,以句子的情感密度区间为特征,描述了一种情感密度和贝叶斯分类器相融合的汉语句子主观性分类方法。实验结果表明,本文提出的汉语句子主客观分类方法具有较强的适应性,能够有效地将文本中的主观性意见表述从客观性事实陈述中分离出来,并取得了较理想的实验结果。2.词语是构成自然语言的基本单位,其主观性是进一步进行短语和句子主观性分析的基础。针对汉语词语主观性存在的兼类问题和强度问题,本文在计算词语的主观性权重的基础上,提出一种对数线性模型和模糊集合相结合的汉语词语主观性强度学习方法。其基本思想是先采用对数线性模型对语料中的候选主观性词语进行主观性权重预测,然后再在模糊集合的框架下融合词语的主观性权重相关信息,构造词语主观性强度的模糊集合及对应的隶属函数并以此判别词语的主观性强度类别,最后应用于汉语句子的主观性识别之中。实验结果表明,由于引入词语的主观性强度类别,本文方法取得了良好的效果。3.引入汉语词语的结构信息有助于汉语词语的情感倾向预测。针对汉语词语情感倾向难于预测的问题,本文在深入分析了汉语词语结构与词语情感倾向的规律的基础上,针对其中较难分辨的未登录词极性预测问题,将词语中语素等结构特征有效结合,提出了一种统计方法框架下的基于语素的汉语词语情感倾向自动预测方法。并在讨论词汇层面极性预测的基础上,提出了一种基于规则的短语极性计算方法,最后在词语和短语的极性计算基础上,给出了基于阈值法的句子情感分类方法。实验结果表明,与其他方法相比较由于引入句子中多层面的语言信息,本文方法较好的解决了汉语句子情感分类问题。4.本文最后主要研究基于多粒度融合的汉语句子情感分类方法。在深入研究了语素、词语和短语层面的主观性及情感倾向的基础上,针对情感句子表述的隐晦性和模糊性,并结合汉语本身的特点,将上下文的多粒度信息融合并引入到整个句子的情感分类中,提出了一个基于多粒度融合与模糊集合相结合的汉语句子分类方法。实验结果表明,与传统的情感分类方法相比,本文提出的基于模糊集合的多粒度融合的汉语句子情感分类方法,从细粒度到粗粒度较精确的识别了汉语句子中各层次的情感强度及情感倾向,因此明显地提高汉语句子级别的情感分类的精确率和召回率。
|
全文目录
中文摘要 2-4 Abstract 4-9 第1章 绪论 9-19 1.1 引言 9-10 1.2 意见挖掘研究的研究现状 10-14 1.2.1 主观性识别的研究现状 11-12 1.2.2 情感分类的研究现状 12-14 1.3 意见挖掘研究存在的主要问题和发展趋势 14-15 1.4 意见挖掘研究的研究意义 15-16 1.5 本章主要研究内容与组织 16-19 第2章 基于情感密度和贝叶斯分类器的汉语句子主观性识别方法 19-31 2.1 引言 19-20 2.2 汉语句子主观性特征及情感密度计算 20-26 2.2.1 中文意见句子的主观性特征 20-21 2.2.2 汉语句子情感密度及基于密度阈值的主客观分类 21-23 2.2.3 基于情感密度和贝叶斯方法的主观性分类 23-26 2.3 实验结果与分析 26-30 2.3.1 实验设置 26-27 2.3.2 实验结果 27-30 2.4 本章小结 30-31 第3章 基于汉语词汇主观性强度的汉语句子主客观分类 31-43 3.1 引言 31-32 3.2 主观性词语的抽取 32-34 3.3 基于模糊集合的主观性词语的识别 34-38 3.3.1 词语主观性强度集合的隶属函数 34-37 3.3.2 区分主观性词语 37-38 3.4 基于复合规则的主客观分类 38-39 3.5 实验结果与分析 39-41 3.5.1 实验设置 39 3.5.2 实验结果 39-41 3.6 本章小结 41-43 第4章 基于情感语素的汉语句子情感分类 43-54 4.1 引言 43-45 4.2 汉语语素词语及短语的情感强度 45-48 4.2.1 情感语素抽取 45-46 4.2.2 词语的极性计算 46-47 4.2.3 短语的极性计算 47-48 4.3 情感词的动态极性识别方法 48-50 4.4 基于语素的汉语句子的情感分类 50-51 4.5 实验结果与分析 51-53 4.5.1 实验设置 51 4.5.2 实验结果 51-53 4.6 本章小结 53-54 第5章 基于多粒度融合与模糊集合的汉语句子情感分类方法 54-69 5.1 引言 54-56 5.2 多粒度的句子情感强度计算 56-63 5.2.1 汉语语素的情感计算 56-60 5.2.2 汉语词语的情感计算 60-61 5.2.3 汉语短语的情感计算 61-63 5.3 基于情感模糊子集的情感句分类 63-66 5.4 实验结果与分析 66-68 5.4.1 实验设置 66-67 5.4.2 实验结果 67-68 5.5 本章小结 68-69 结论 69-71 参考文献 71-79 致谢 79-80 攻读硕士学位期间发表的学术论文 80-81
|
相似论文
- 音乐内容和歌词相结合的歌曲情感分类方法研究,TP391.3
- 领域间适应性情感分类方法研究,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 面向情感的电影背景音乐分类方法研究,TP391.1
- 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
- 网络舆情话题情感倾向性分析技术研究,TP393.09
- 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
- 网络舆情热点发现与分析研究,TP393.09
- 基于共现链的微博情感分析技术的研究与实现,TP393.092
- 网上产品评价的意见挖掘模型研究,F49
- 基于意见挖掘的产品排名技术研究,TP391.1
- 中文意见挖掘的特征层次构建和抽取算法,TP391.1
- 面向Web文本的产品意见挖掘算法研究,TP391.1
- 中文意见挖掘中的特征词提取以及情感倾向分析,TP391.1
- 面向产品评论的意见挖掘关键技术研究,TP391.1
- 基于潜在语义分析和最大熵的中文情感分析研究,TP391.1
- 基于Web舆情的意见挖掘关键技术研究,TP391.1
- 基于模糊集合论的犯罪网络分析研究,TP399-C2
- 基于特定领域汉语意见型问答系统的研究,TP311.52
- 虚拟社区热点话题意见挖掘模型研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|