学位论文 > 优秀研究生学位论文题录展示
基于近似文本分析的意见挖掘
作 者: 刘健
导 师: 吴耿锋
学 校: 上海大学
专 业: 控制理论与控制工程
关键词: 部分解析 情感分类 近似文本分析 意见抽取 意见挖掘
分类号: TP311.13
类 型: 博士论文
年 份: 2007年
下 载: 569次
引 用: 2次
阅 读: 论文下载
内容摘要
本文对如何将部分解析技术引入意见挖掘,以提高分析的有效性问题进行了研究,其成果概括如下:(1)提出了基于部分解析的超解析方法及其增量式实现近似文本分析(ATA)(见第2章)。超解析通过放宽归约的严格程度(即允许非紧邻的成份进行归约,允许一个语言成份参与多个归约关系),从而最大限度地寻找关于给定文本(或文本片段)的各种可能解释。为了优化归约时对有效语言成份组合穷举的过程,提出了候选者队列算法(CLA)。作为超解析的实现,本文提出近似文本分析,其系统由两部分构成:分析部件与广义归约部件。分析部件以缓冲队列作为核心的数据结构,从而将超解析的问题转化为了广度优先的搜索问题。而广义归约部件是CLA算法的增量式实现,负责语言成份的归约。(2)提出了基于“近似文本分析”的情感分类方法ATA-SC,及其软件实现ATAFilter(见第3章)。ATA-SC方法考虑了实体词汇与情感词汇之间的语义关联,因此对于情感的识别能力要强于基于单对象假设的情感分类方法。而情感分类模块ATAFilter已集成于邮件过滤软件VIHunter中,在技术测试中展示了良好的性能,同时在实际应用中也获得令人满意的效果,取得了较好的社会效益。(3)提出了一种新的意见抽取任务即意见实例抽取(OIE),及其解决方法FC-OIE;提出了基于位置线索的语义关系识别(SARPC)方法,用于在FC-OIE中识别对象与特性之间语义关联(见第4章)。意见实例抽取任务的目标是保持意见表达的数据结构与源文本之间的关联,使得我们可以通过考察意见元组中各构成要素在原文中的地位,来发掘更深层次的信息。为了解决这一新的抽取任务,FC-OIE采取的策略是:通过SARPC方法为每个特性实例寻找语义关联最强的对象实例,构成“对象实例-特性实例”对偶;对于每个对偶,通过ATA-SC对所含的对象实例与特性实例周围的文本进行情感分析,判断语义方向。(4)提出并实现了用于意见实例抽取与检索的意见搜索系统(OSS)(见第5章)。OSS的目的是从网络评论中抽取意见实例,并根据用户的检索兴趣进行反馈。该系统通过网络爬虫从互联网上抓取评论网页,通过文本清洗得到正文;然后以FC-OIE技术从文本中抽取意见实例,构成意见库;最后通过人机交互将意见库中的信息直观地反馈给系统的用户。
|
全文目录
中文摘要 6-8 英文摘要 8-18 第一章 绪论 18-44 1.1 文本分析与理解 20-26 1.1.1 句法解析 20-22 1.1.2 健壮解析 22-24 1.1.3 部分解析 24-26 1.2 情感分类 26-33 1.2.1 传统的分类问题 27-28 1.2.2 主观性分类 28-29 1.2.3 词汇、短语级的情感分类 29-32 1.2.4 句子、文档级的情感分类 32-33 1.3 意见抽取 33-38 1.3.1 传统的信息抽取 33-36 1.3.2 意见抽取 36-38 1.4 意见挖掘系统 38-39 1.5 本文研究工作概况 39-44 1.5.1 研究思路 39-41 1.5.2 内容安排 41-44 第二章 近似文本分析(ATA) 44-74 2.1 超解析 47-51 2.1.1 基本概念 47-50 2.1.2 超解析的过程 50-51 2.2 候选者队列算法 51-58 2.2.1 算法描述 52-55 2.2.2 遍历优化 55-56 2.2.3 权重机制 56-57 2.2.4 队列清理 57-58 2.3 近似文本分析 58-66 2.3.1 基本概念 60-64 2.3.2 处理过程 64-66 2.4 分析实例 66-67 2.5 方法改进 67-70 2.5.1 省略的自动补全 69-70 2.5.2 文意转承的感知 70 2.6 讨论 70-72 2.7 小结 72-74 第三章 基于近似文本分析的情感分类(ATA-SC) 74-98 3.1 问题的提出 74-75 3.2 整体结构与流程 75-78 3.3 组成部分 78-84 3.3.1 标记字典 78-80 3.3.2 归约规则库 80-83 3.3.3 候选者队列与语言单元 83 3.3.4 扫描器 83 3.3.5 队列,观察器与情感指标累加器 83-84 3.3.6 分类器 84 3.4 实验 84-90 3.5 应用:基于语义的邮件过滤系统 90-96 3.5.1 过滤系统的整体结构 91-93 3.5.2 系统特点 93 3.5.3 过滤效果 93-96 3.6 讨论 96-97 3.7 小结 97-98 第四章 意见实例抽取(OIE) 98-134 4.1 主要任务 99-102 4.2 对象实例-特性实例的语义关系识别 102-110 4.2.1 特性实例-对象实例语义依赖的主观认知 103-105 4.2.2 特性实例-对象实例语义依赖的客观线索 105-106 4.2.3 基于位置线索的语义关系识别方法 106-110 4.3 对象实例-特性实例的语义方向识别 110-116 4.3.1 为情感分类选定文本片段 111-113 4.3.2 情感分类的方法 113-115 4.3.3 构造分类器 115-116 4.4 实验 116-131 4.4.1 实验数据的准备 116-117 4.4.2 对象实例-特性实例的语义关系识别 117-124 4.4.3 对象实例-特性实例的情感分类 124-131 4.5 讨论 131-132 4.6 小结 132-134 第五章 意见搜索系统(OSS) 134-146 5.1 系统框架 135-136 5.2 组成模块 136-144 5.2.1 评论网页的搜寻 136-139 5.2.2 文本清洗 139-140 5.2.3 知识学习 140-142 5.2.4 意见实例抽取 142 5.2.5 人机交互与可视化 142-144 5.3 讨论 144-145 5.4 小结 145-146 第六章 总结与展望 146-150 6.1 总结 146-148 6.2 进一步的工作 148-150 参考文献 150-172 作者在攻读博士期间发表的论文 172-174 作者在攻读博士期间获得的研究成果 174-176 作者在攻读博士期间参与的项目 176-178 致谢 178
|
相似论文
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 面向情感的电影背景音乐分类方法研究,TP391.1
- 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
- 网络舆情话题情感倾向性分析技术研究,TP393.09
- 基于朴素贝叶斯的中文文本情感倾向分类研究,TP391.1
- 旅行目的地中文评论的情感分析研究,TP391.1
- 基于情感字典与机器学习相结合的文本情感分类,TP391.1
- 《呼啸山庄》的情感分析,I561
- 面向网络舆情的中文评论文本情感倾向分析研究,TP391.1
- 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
- 中文新闻情感分类系统的研究与实现,TP393.09
- 网络舆情热点发现与分析研究,TP393.09
- 情感组块与机器学习相结合的文本倾向性分析,TP181
- 基于共现链的微博情感分析技术的研究与实现,TP393.092
- 基于依存关系的旅游景点评论文本倾向分析,TP391.1
- 不同来源在线评论对消费者行为影响研究,F274;F224
- 基于树核函数的句子级别情感分类研究,TP391.1
- 网上产品评价的意见挖掘模型研究,F49
- 自动化音乐情感分类问题的研究,TP18
- 中文词语情感倾向研究,TP391.1
- 基于最大熵方法的评论信息抽取研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|