学位论文 > 优秀研究生学位论文题录展示

基于近似文本分析的意见挖掘

作　者: 刘健
导　师: 吴耿锋
学　校: 上海大学
专　业: 控制理论与控制工程
关键词: 部分解析情感分类近似文本分析意见抽取意见挖掘
分类号: TP311.13
类　型: 博士论文
年　份: 2007年
下　载: 569次
引　用: 2次
阅　读: 论文下载

内容摘要

本文对如何将部分解析技术引入意见挖掘，以提高分析的有效性问题进行了研究，其成果概括如下：(1)提出了基于部分解析的超解析方法及其增量式实现近似文本分析(ATA)(见第2章)。超解析通过放宽归约的严格程度(即允许非紧邻的成份进行归约，允许一个语言成份参与多个归约关系)，从而最大限度地寻找关于给定文本(或文本片段)的各种可能解释。为了优化归约时对有效语言成份组合穷举的过程，提出了候选者队列算法(CLA)。作为超解析的实现，本文提出近似文本分析，其系统由两部分构成：分析部件与广义归约部件。分析部件以缓冲队列作为核心的数据结构，从而将超解析的问题转化为了广度优先的搜索问题。而广义归约部件是CLA算法的增量式实现，负责语言成份的归约。(2)提出了基于“近似文本分析”的情感分类方法ATA-SC，及其软件实现ATAFilter(见第3章)。ATA-SC方法考虑了实体词汇与情感词汇之间的语义关联，因此对于情感的识别能力要强于基于单对象假设的情感分类方法。而情感分类模块ATAFilter已集成于邮件过滤软件VIHunter中，在技术测试中展示了良好的性能，同时在实际应用中也获得令人满意的效果，取得了较好的社会效益。(3)提出了一种新的意见抽取任务即意见实例抽取(OIE)，及其解决方法FC-OIE；提出了基于位置线索的语义关系识别(SARPC)方法，用于在FC-OIE中识别对象与特性之间语义关联(见第4章)。意见实例抽取任务的目标是保持意见表达的数据结构与源文本之间的关联，使得我们可以通过考察意见元组中各构成要素在原文中的地位，来发掘更深层次的信息。为了解决这一新的抽取任务，FC-OIE采取的策略是：通过SARPC方法为每个特性实例寻找语义关联最强的对象实例，构成“对象实例-特性实例”对偶；对于每个对偶，通过ATA-SC对所含的对象实例与特性实例周围的文本进行情感分析，判断语义方向。(4)提出并实现了用于意见实例抽取与检索的意见搜索系统(OSS)(见第5章)。OSS的目的是从网络评论中抽取意见实例，并根据用户的检索兴趣进行反馈。该系统通过网络爬虫从互联网上抓取评论网页，通过文本清洗得到正文；然后以FC-OIE技术从文本中抽取意见实例，构成意见库；最后通过人机交互将意见库中的信息直观地反馈给系统的用户。

全文目录

中文摘要  6-8
英文摘要  8-18
第一章绪论  18-44
  1.1 文本分析与理解  20-26
    1.1.1 句法解析  20-22
    1.1.2 健壮解析  22-24
    1.1.3 部分解析  24-26
  1.2 情感分类  26-33
    1.2.1 传统的分类问题  27-28
    1.2.2 主观性分类  28-29
    1.2.3 词汇、短语级的情感分类  29-32
    1.2.4 句子、文档级的情感分类  32-33
  1.3 意见抽取  33-38
    1.3.1 传统的信息抽取  33-36
    1.3.2 意见抽取  36-38
  1.4 意见挖掘系统  38-39
  1.5 本文研究工作概况  39-44
    1.5.1 研究思路  39-41
    1.5.2 内容安排  41-44
第二章近似文本分析(ATA)  44-74
  2.1 超解析  47-51
    2.1.1 基本概念  47-50
    2.1.2 超解析的过程  50-51
  2.2 候选者队列算法  51-58
    2.2.1 算法描述  52-55
    2.2.2 遍历优化  55-56
    2.2.3 权重机制  56-57
    2.2.4 队列清理  57-58
  2.3 近似文本分析  58-66
    2.3.1 基本概念  60-64
    2.3.2 处理过程  64-66
  2.4 分析实例  66-67
  2.5 方法改进  67-70
    2.5.1 省略的自动补全  69-70
    2.5.2 文意转承的感知  70
  2.6 讨论  70-72
  2.7 小结  72-74
第三章基于近似文本分析的情感分类(ATA-SC)  74-98
  3.1 问题的提出  74-75
  3.2 整体结构与流程  75-78
  3.3 组成部分  78-84
    3.3.1 标记字典  78-80
    3.3.2 归约规则库  80-83
    3.3.3 候选者队列与语言单元  83
    3.3.4 扫描器  83
    3.3.5 队列,观察器与情感指标累加器  83-84
    3.3.6 分类器  84
  3.4 实验  84-90
  3.5 应用:基于语义的邮件过滤系统  90-96
    3.5.1 过滤系统的整体结构  91-93
    3.5.2 系统特点  93
    3.5.3 过滤效果  93-96
  3.6 讨论  96-97
  3.7 小结  97-98
第四章意见实例抽取(OIE)  98-134
  4.1 主要任务  99-102
  4.2 对象实例-特性实例的语义关系识别  102-110
    4.2.1 特性实例-对象实例语义依赖的主观认知  103-105
    4.2.2 特性实例-对象实例语义依赖的客观线索  105-106
    4.2.3 基于位置线索的语义关系识别方法  106-110
  4.3 对象实例-特性实例的语义方向识别  110-116
    4.3.1 为情感分类选定文本片段  111-113
    4.3.2 情感分类的方法  113-115
    4.3.3 构造分类器  115-116
  4.4 实验  116-131
    4.4.1 实验数据的准备  116-117
    4.4.2 对象实例-特性实例的语义关系识别  117-124
    4.4.3 对象实例-特性实例的情感分类  124-131
  4.5 讨论  131-132
  4.6 小结  132-134
第五章意见搜索系统(OSS)  134-146
  5.1 系统框架  135-136
  5.2 组成模块  136-144
    5.2.1 评论网页的搜寻  136-139
    5.2.2 文本清洗  139-140
    5.2.3 知识学习  140-142
    5.2.4 意见实例抽取  142
    5.2.5 人机交互与可视化  142-144
  5.3 讨论  144-145
  5.4 小结  145-146
第六章总结与展望  146-150
  6.1 总结  146-148
  6.2 进一步的工作  148-150
参考文献  150-172
作者在攻读博士期间发表的论文  172-174
作者在攻读博士期间获得的研究成果  174-176
作者在攻读博士期间参与的项目  176-178
致谢  178

基于近似文本分析的意见挖掘

内容摘要

全文目录

相似论文