学位论文 > 优秀研究生学位论文题录展示
基于特定领域的汉语句子意见挖掘
作 者: 李林琳
导 师: 姚天昉
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: 意见挖掘 主题识别 陈述定界 意见倾向分析 陈述选择模式 意见核函数
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 307次
引 用: 5次
阅 读: 论文下载
内容摘要
英特网上的信息与日剧增,蕴藏着巨大的信息量。对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要做出是否购买某个产品的决定。因此,意见挖掘技术应运而生。本文实现了一个基于领域的汉语句子意见挖掘系统(OMS)。该系统主要解决了意见挖掘问题中的主题识别、陈述定界和极性分析三个子问题。系统主要包含基于模式匹配的陈述选择模块和基于核函数的意见分析模块。在陈述选择模块中,我们提出了基于SPD n与SND n特征选择的单一/混合意见句识别算法,介绍了基于汽车本体的主题抽取的过程,并说明了混合意见倾向句陈述的细颗粒度分析方法。我们提出了基于“投影映射”规则的模式生成策略,以及直接模式、结点模式、混合模式三种匹配策略。针对意见倾向分析模块我们提出了基于核的意见分类思想,它通过计算输入陈述之间的极性相似度对句子的极性进行识别。通过良好的核函数定义,基于核的方法能够从上下文和句法层面捕获极性信息,从而可以提高分类的准确率。
|
全文目录
摘要 4-5 ABSTRACT 5-12 1 引言 12-16 1.1 课题的定义 12-13 1.2 目的和意义 13-14 1.3 本文的贡献 14 1.4 论文的组织结构 14-16 2 相关研究概述 16-28 2.1 主题抽取 16-17 2.2 陈述的选择 17-19 2.3 意见倾向分析 19-22 2.3.1 文本层 19-20 2.3.2 词汇、短语层 20-21 2.3.3 句子层 21-22 2.4 典型意见挖掘系统 22-25 2.4.1 Pulse 22-23 2.4.2 WebFoundation 23-24 2.4.3 Opinion Observer 24-25 2.5 结论 25-28 3 汉语句子意见挖掘系统:OMS 28-36 3.1 研究动机 28-30 3.2 任务分析 30-31 3.3 OMS 的系统结构 31-34 3.4 总结 34-36 4 基础资源构建 36-46 4.1 语料 36-37 4.2 标注 37-41 4.2.1 粗语料标注 37-39 4.2.2 模式标注 39-41 4.3 极性词词典 41-46 4.3.1 极性词的含义 41 4.3.2 词典构建 41-42 4.3.3 词典的局限性 42-46 5 陈述定界 46-74 5.1 单一/混合意见句的识别 46-49 5.2 主题抽取 49-50 5.3 陈述的细颗粒度分析 50-64 5.3.1 基于“投影映射”的模式生成 54-58 5.3.2 模式泛化 58-60 5.3.3 模式匹配 60-64 5.4 实验、分析和讨论 64-73 5.4.1 MCS 模块 64-66 5.4.2 FGCA 模块 66-73 5.5 结论 73-74 6 意见倾向分析 74-95 6.1 意见倾向与极性词的关系 74-76 6.2 核方法简介 76-77 6.3 基于核的意见倾向分类 77-87 6.3.1 极性分类任务分析 77-79 6.3.2 概念定义 79-83 6.3.3 语言学解释 83-86 6.3.4 意见倾向分类核函数 86-87 6.4 实验、分析和讨论 87-94 6.5 结论 94-95 7 结论及未来工作 95-98 7.1 总结 95 7.2 未来工作 95-98 参考文献 98-103 附录 103-110 致谢 110-111 攻读学位期间发表的学术论文 111
|
相似论文
- 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
- 互联网文本视频过滤技术研究与应用,TP391.41
- 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
- 网络舆情热点发现与分析研究,TP393.09
- 基于共现链的微博情感分析技术的研究与实现,TP393.092
- 网上产品评价的意见挖掘模型研究,F49
- 基于意见挖掘的产品排名技术研究,TP391.1
- 中文意见挖掘的特征层次构建和抽取算法,TP391.1
- 面向Web文本的产品意见挖掘算法研究,TP391.1
- 中文意见挖掘中的特征词提取以及情感倾向分析,TP391.1
- 面向产品评论的意见挖掘关键技术研究,TP391.1
- 基于Web舆情的意见挖掘关键技术研究,TP391.1
- 基于特定领域汉语意见型问答系统的研究,TP311.52
- 虚拟社区热点话题意见挖掘模型研究,TP393.09
- 基于主动学习的语料自动标注方法研究,TP391.1
- 企业文化演化及其影响因素研究,F270
- 汉语文本主题分析技术的研究与实现,TP391.1
- 科技英语语篇的主题识别,H315
- 基于Web Community识别的专业搜索引擎研究,TP391.3
- 基于领域本体的意见挖掘系统,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|