学位论文 > 优秀研究生学位论文题录展示
产品评价对象与情感词搭配关系的抽取
作 者: 许力波
导 师: 周延泉
学 校: 北京邮电大学
专 业: 计算机技术
关键词: 评价搭配抽取 条件随机场 词语对齐 随机漫步
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
产品评论挖掘是采用自然语言处理技术从网络评论文本中抽取出用户的产品评价信息,从而帮助用户在购买产品或服务前作决定、为商家或生产企业改进产品和提高服务质量作决策提供有价值的信息。产品评价对象与评价词搭配关系的抽取是产品评论挖掘中一个非常重要的研究课题,是情感分析的基础任务,也是情感信息抽取中非常重要的一部分。本文借助自然语言处理、机器学习、统计机器翻译等技术,针对中文网络评论信息,抽取出其中的评价对象和评价词的搭配关系。本文根据评价搭配关系在中文文本中的特性以及基于前人研究的基础上,进行了两种方法的研究和比较。1、本文将评价搭配抽取问题转化为序列标注问题,构建词本身、词性、依存关系、词位置等特征,基于条件随机场的模型抽取评论文本中评价对象和评价词的搭配关系。此方法适合比较规则、长度短的文本句子,并且需要人工标注一部分训练语料。2、本文的另一个方法是将评价对象和评价词的搭配关系问题转化为词语对齐问题,利用基于信源信道的统计机器学习方法,从平行语料中抽取出词语与词语之间的对应关系,把对齐概率大于阈值的两个词语则认为是候选评价搭配关系。得到候选评价搭配关系后,利用随机漫步的原理经过多次迭代计算得到每个候选词语的收敛概率,分别设定评价词语和评价对象的阈值,过滤小于阈值的词语。剩下的词语之间若在候选评价搭配中,则认为它们是最终的评价搭配关系。此方法适合大规模评价语料,无需人工标注。最后,本文使用两种不同语料分别对上述两种方法进行实验,实验结果表明,本文提出的两个方法在抽取产品评价搭配关系上是可行的,并且获得较好的准确率和召回率。这些方法的研究将对情感分析的其他任务具有重要的参考价值。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 课题研究的背景及意义 9-11 1.1.1 课题背景 9-10 1.1.2 课题意义 10-11 1.2 研究现状 11-12 1.3 本文的主要研究内容及章节安排 12-14 1.3.1 本文主要研究内容 12-13 1.3.2 论文的组织结构 13-14 第二章 相关知识介绍 14-23 2.1 评价搭配抽取概述 14-17 2.1.1 评价对象的抽取 14-15 2.1.2 评价词语的抽取 15-16 2.1.3 评价搭配关系对的抽取 16-17 2.2 语料资源介绍 17 2.3 语料预处理 17-20 2.3.1 中文分词 17-18 2.3.2 词性标注 18-19 2.3.3 依存句法分析 19-20 2.4 条件随机场模型 20-22 2.5 本章小结 22-23 第三章 基于条件随机场的评价搭配抽取 23-31 3.1 相关研究及系统实现 23-24 3.1.1 相关研究 23-24 3.1.2 系统实现 24 3.2 训练语料的标注 24-26 3.3 基于CRFs特征模版的构造及方法 26-28 3.3.1 特征模版构造 26-27 3.3.2 特征模版构造方法 27-28 3.4 评价搭配抽取 28-30 3.4.1 搭配抽取模型的特征函数 28-29 3.4.2 评价搭配抽取的CRFs模型标注方法 29-30 3.5 本章小结 30-31 第四章 基于词对齐的评价搭配抽取 31-43 4.1 引言 31-32 4.2 基于词对齐模型的候选评价搭配抽取 32-37 4.2.1 词对齐在统计机器翻译中的应用 32-33 4.2.2 词对齐的候选评价搭配抽取 33-37 4.3 随机漫步过滤候选评价搭配 37-41 4.3.1 随机漫步及图上的随机漫步 37-38 4.3.2 过滤评价搭配的随机漫步模型 38-39 4.3.3 基于随机漫步过滤评价搭配的实现 39-41 4.4 本章小结 41-43 第五章 实验及其分析 43-51 5.1 概述 43 5.2 实验研究 43-50 5.2.1 数据集 43 5.2.2 评价指标 43-44 5.2.3 实验 44-47 5.2.4 实验结果分析 47-50 5.3 本章小结 50-51 第六章 总结与展望 51-54 6.1 本文工作总结 51-52 6.2 未来工作展望 52-54 参考文献 54-58 攻读学位期间参与的科研项目 58-59 致谢 59
|
相似论文
- 评价对象抽取研究,TP391.1
- 基于激励机制的P2P信任模型及搜索算法的研究,TP393.02
- 人脸表情识别及其在视频分类与推荐中的应用,TP391.41
- 基于高效图匹配的三维CAD模型相似评价,TP391.72
- 基于Internet的互动辅助翻译技术研究,TP391.2
- 汉英词语对齐技术研究,TP391.1
- 基于条件随机场模型的汉语框架语义角色自动标注研究,TP391.1
- 基于条件随机场的汉语多词块自动识别研究,H08
- 汉蒙词法分析及其在统计机器翻译中的应用,TP391.2
- 基于平行语料库的无监督中文词性标注研究,TP391.1
- 框架元素语义核心词自动识别研究,TP391.1
- 基于SSH和Lucene垂直搜索引擎研究,TP391.3
- 单目视频中人体运动建模及姿态估计研究,TP391.41
- 领域本体概念实例、属性及属性值提取研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于条件随机场的汉语词义消歧方法研究,TP391.1
- 汉语动宾搭配识别研究,TP391.1
- 应用条件随机场进行汉语分词和词性标注的研究,TP391.1
- 汉语复句关系自动判定研究,H146.39.330
- 基于条件随机场的汉语分词研究,TP391.1
- 基于短语的统计机器翻译模型若干关键技术研究,TP391.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|