学位论文 > 优秀研究生学位论文题录展示

支持决策研讨的文本分析方法研究

作　者: 邓莎莎
导　师: 张朋柱
学　校: 上海交通大学
专　业: 管理科学与工程
关键词: 研讨文本分析意义构建欺骗识别网络民意建模社会化媒体言语行为视角
分类号: C934
类　型: 博士论文
年　份: 2013年
下　载: 169次
引　用: 0次
阅　读: 论文下载

内容摘要

社会化媒体的快速增长带来了人们日常交流、决策讨论方式的巨大改变。面对面的会议方式不再是组织内部讨论问题、制定决策的唯一沟通手段。利用社会化媒体支持商业决策研讨的方式已经被越来越多的组织所采用。尽管在线研讨方式给组织带来了巨大的价值，但是，互联网环境中在线研讨文本数据分析存在各种挑战。“如何有效利用研讨文本数据支持决策研讨？”仍然是组织面临的现实问题。本文着重研究了支持决策研讨的文本分析方法。首先，本文介绍了研究背景和研究意义、将研讨文本数据作为研究对象。在完成了对研讨文本数据相关领域的文献综述后，对目前研究现状进行了评述。在此基础上，提出了本文的四个研究问题。本文主要的工作和创新点如下：（1）提出了支持在线研讨意义构建的基于LAP文本分析方法。本文以言语行为视角为理论依据，提出了能够有效支持在线研讨意义构建的基于LAP文本分析方法。该方法包括基于LAP的文本分析框架以及在此基础上提出的若干研究假设。该方法实现了将杂乱无章的发言转化为可以支持在线研讨意义构建的SATrees。以往对文本的分析研究大多停留在对语法和语义理解层次，例如：分词、词性识别和情感分析，同时也难以解决相邻语轮紊乱的问题。SATrees不仅能识别发言之间回复关系还能理解发言者的意图。在基于LAP文本分析方法的指导下，本文设计并开发了LTAS系统。实验结果表明：1）LTAS系统生成的SATrees能够有效地提高对会话结构和行为意图的描述；2）SATrees中更为准确的回复关系能够提高研讨参与者之间社交网络中心度的测量；3）相对于其他基准方法，SATrees使得用户更加容易并且方便地完成用户意义构建任务，其中包括理解群体研讨中内在的行为（action）、情景行为（situated action）和符号行为（Symbolic action）。（2）提出了一系列在线研讨文本自动分析算法，包括包括会话主题拆解算法、连贯性分析以及言语行为分类算法。本文提出了自动识别在线研讨发言之间回复关系和发言言语行为的分析算法。①利用发言之间改进的相似度计算方法，本文提出了用于识别会话主题的研讨文本拆解算法（DSA）。与其它5个主题聚类算法的比较实验显示，本文提出的DSA算法无论是在精度召回率还是F值都优于其他5个算法，并且具有显著性差异；②本文还引入了研讨逻辑特征，并将它作为到TBL分类器的特征，结合本文提出的剩余匹配算法（RM），构成了本文提出的连贯性分析方法TBL-RM。该方法能够自动识别发言之间的回复关系。实验表明研讨逻辑特征是一个非常有效的特征。另外，TBL-RM与其它3个自动算法的比较实验证明，TBL-RM方法具有良好的性能。而且该结果与采用人工方法识别并没有显著性的差异；③在言语行为分类算法研究中，我们提出了一个两阶段方法，其中包括初始的分类方法和基于核心树的分类方法。对比试验表明，本文提出的两阶段方法明显优于其他5个基准算法。（3）提出了加入欺骗语言特征的在线评论欺骗识别方法。现在越来越多的人愿意在社会化媒体平台上发布自己的观点和评论。那么，相应地包含用户评论的网站也成为虚假评论的攻击目标。在现有的欺骗研究中，训练语料来自于人工标注的语料，而本文中的虚假评论则是由用户专门撰写的欺骗性评论。这些虚假评论来自作者的想象力，与真实评论十分相似。结合心理学相关的欺骗理论与社会化媒体平台上的欺骗行为特点，我们提出了11个欺骗性语言线索共3类特征集，其中包括词语词频、信息丰富度和内容信服度。接下来，我们设计并开发了在线评论欺骗识别系统并比较各种组合特征集的欺骗识别效果。在由我们自己产生的评论数据集上，系统对虚假评论识别的精度接近80%。最后，欺骗性语言线索分析揭示了虚假评论与之前欺骗识别理论之间的关系。本文的研究结果有助于识别依靠想象力撰写的并且比较复杂的虚假评论。（4）提出了“主题-利益相关群体-情感”的网络民意建模方法之前，对于网络民意的分析大多停留在对结构化信息的处理上。本文从研讨文本内容理解的角度，提出了面向研讨问题的网络民意建模系统框架。该框架由数据准备和网络民意建模两部分组成。数据准备部分实现从互联网中收集并过滤与研讨问题相关的网络评论，并对其文字内容进行语义标准。在此基础上，网络民意建模通过对研讨问题主题解析、评论内容与主题相似度计算、利益相关群体发现以及情感分析四个步骤，最终构建了“主题-利益相关群体-情感”模型。该模型可以快速地把握互联网上对于某个具体研讨问题相关的网络评论的情感倾向程度。我们从各大网站和论坛收集了一年的研讨文本数据作为实验语料，并选择了“职工高额医药费用负担”和“农村合作医疗制度”作为研讨问题。案例分析表明，本文提出的网络民意建模方法能够很好地帮助用户了解互联网上普通网民的意见。

全文目录

摘要  5-7
ABSTRACT  7-9
目录  9-12
表格目录  12-13
Index of Table  13-14
图表目录  14-15
Index of Figure  15-16
第1章绪论  16-48
  1.1 研究背景  16-18
  1.2 研究对象与意义  18-20
    1.2.1 研究对象  18-19
    1.2.2 研究意义  19-20
  1.3 研究文献综述  20-39
    1.3.1 研讨文本数据分析简述  20-25
    1.3.2 在线研讨中欺骗问题研究简述  25-28
    1.3.3 社会化媒体数据集成研究简述  28-31
    1.3.4 决策支持系统研究简述  31-37
    1.3.5 研究评述  37-39
  1.4 研究问题的提出  39
  1.5 研究思路与论文框架  39-45
    1.5.1 研究思路  39-40
    1.5.2 研究方法  40-41
    1.5.3 研究内容  41-43
    1.5.4 技术路线  43-45
  1.6 论文主要创新之处  45-48
第2章支持在线研讨意义构建的文本分析方法研究  48-76
  2.1 引言  48
  2.2 在线研讨中的意义构建与语言行为视角  48-51
    2.2.1 意义构建理论  48-49
    2.2.2 语言行为视角  49-50
    2.2.3 基于 LAP 文本分析框架  50-51
  2.3 研究假设  51-61
    2.3.1 会话主题拆解理论假设  51-53
    2.3.2 连贯性分析理论假设  53-58
    2.3.3 言语行为分类理论假设  58-60
    2.3.4 意义构建理论假设  60-61
  2.4 基于 LAP 文本分析系统  61-73
    2.4.1 会话主题拆解  62-65
    2.4.2 连贯性分析  65-70
    2.4.3 言语行为分类  70-73
    2.4.4 言语行为树  73
  2.5 小结  73-76
第3章 LTAS 系统的实验与评估  76-102
  3.1 实验总体设计  76-77
  3.2 实验 1: 会话主题拆解算法实验与评估  77-81
    3.2.1 实验设计  77-78
    3.2.2 性能指标  78-79
    3.2.3 结果与讨论  79-81
  3.3 实验 2: 连贯性分析方法实验与评估  81-86
    3.3.1 实验 2a: 连贯性分析特征  81-83
    3.3.2 实验 2b: 连贯性分析方法对比试验  83-86
  3.4 实验 3: 言语行为分类算法实验与评估  86-90
    3.4.1 言语行为类别定义  86-87
    3.4.2 言语行为人工标注  87-89
    3.4.3 结果与讨论  89-90
  3.5 实验 4: 面向意义构建的信息质量分析  90-94
    3.5.1 实验 4a: SATrees 与 Conversation Tree 准确性比较  91-92
    3.5.2 实验 4b: 社交网络中心性测量  92-94
  3.6 实验 5: 面向意义建构的用户实验  94-100
    3.6.1 面向意义建构的问卷设计  94-95
    3.6.2 实验设计  95-97
    3.6.3 测试试验与数据收集  97-98
    3.6.4 结果与讨论  98-100
  3.7 小结  100-102
第4章在线研讨过程中欺骗识别研究  102-128
  4.1 引言  102-103
  4.2 在线评论欺骗行为相关研究  103-112
    4.2.1 欺骗的定义  103-104
    4.2.2 欺骗理论  104-108
    4.2.3 文体分析研究  108-109
    4.2.4 文本分类方法概述  109-112
  4.3 数据集的构建  112-114
    4.3.1 虚假评论的构建  112-113
    4.3.2 真实评论的构建  113-114
  4.4 特征选取  114-118
    4.4.1 词语词频  114
    4.4.2 信息丰富度  114-116
    4.4.3 内容信服度  116-117
    4.4.4 特征汇总  117-118
  4.5 在线评论欺骗识别系统设计  118-120
    4.5.1 系统架构  118-119
    4.5.2 预处理  119
    4.5.3 特征抽取  119-120
    4.5.4 文本分类  120
  4.6 结果与讨论  120-126
    4.6.1 实验设计  120-121
    4.6.2 三种分类算法的实验结果  121-122
    4.6.3 词语词频特征集分析  122-123
    4.6.4 感觉特征集分析  123-124
    4.6.5 词性特征分析  124-125
    4.6.6 语言接近程度特征分析  125-126
    4.6.7 分类技术比较分析  126
  4.7 小结  126-128
第5章面向研讨问题的网络民意分析研究  128-142
  5.1 背景介绍  128-129
  5.2 相关研究  129-132
    5.2.1 网络民意与网络舆论  129-130
    5.2.2 文本意见挖掘  130-131
    5.2.3 在线研讨中利益相关者  131-132
  5.3 面向研讨问题的网络民意建模  132-137
    5.3.1 网络评论网页采集  133
    5.3.2 HTML 页面的解析  133-134
    5.3.3 面向研讨问题的主题分析  134
    5.3.4 相似度计算  134-135
    5.3.5 利益相关群体提取  135-136
    5.3.6 情感分析  136-137
    5.3.7 “主题-利益相关群体-情感”模型  137
  5.4 应用案例与分析  137-140
    5.4.1 网络评论数据  137-138
    5.4.2 决策问题解析  138
    5.4.3 网络民意建模  138-140
  5.5 小结  140-142
第6章结论  142-146
  6.1 论文的主要工作与创新点  142-144
  6.2 研究不足及展望  144-146
附录 1 意义构建实验问卷  146-148
附录 2 虚假评论问卷  148-150
附录 3 真实评论问卷  150-152
附录 4 ICTPOS 词性标注集及含义  152-154
参考文献  154-166
致谢  166-168
攻读博士学位期间的学术论文和科研课题  168-169

支持决策研讨的文本分析方法研究

内容摘要

全文目录

相似论文