学位论文 > 优秀研究生学位论文题录展示

面向网络评论的观点分析技术

作　者: 林煜明
导　师: 周傲英
学　校: 华东师范大学
专　业: 计算机应用技术
关键词: 网络评论观点分析特征表示集成学习组合优化垃圾评论检测
分类号: TP391.1
类　型: 博士论文
年　份: 2013年
下　载: 101次
引　用: 0次
阅　读: 论文下载

内容摘要

随着网络技术的快速发展与普及,越来越多用户喜欢在网络上通过评论的方式表达自己的观点。这些评论数据由于包含丰富的用户观点,使其在网络环境中的重要性也日益凸显,特别对很多新型的Web应用而言,它们的价值更为重要,例如电子商务/政务智能系统、网络舆情分析、个性化的推荐服务等。这类应用的成功与否和能否正确识别用户的观点具有密切的关系。因此,在海量用户共同评论的环境下,自动对用户的观点进行分析成为亟需解决的问题,从而受到越来越多研究人员关注。相对于传统的文本分析,用户观点表达的多样性和复杂性使得观点分析更加困难,特别是在公共开放的网络环境中,用户评论书写的随意性和数据量巨大的特点又带来了更多新的挑战。另一方面,观点分析包括了更多的研究内容,它涉及了观点文本的质量控制、观点信息的抽取、观点识别、观点总结和检索多方面的内容,这些内容贯穿了从数据收集整理到向用户或下级应用提供分析结果的整个过程。在此过程中,观点文本的质量控制为后续的应用和研究提供可靠的数据来源,而观点识别为观点总结和检索提供关键的处理数据。因此,本文针对网络评论围绕这两部分重要的研究内容展开探讨,主要贡献包括以下几个方面：1.提出一个整合了词项情感信息和词项贡献的特征函数,形成了一种新的特征表示方法,打破了传统文本分类方法中由于特征函数并未考虑特征情感信息而导致在观点分类问题中效果不佳的局限。该方法首先通过词项与情感标签的互信息(mutual information)捕获词项的情感倾向；然后将词项的情感信息结合它对文档的贡献度确定词项的特征值。多个评论领域上进行的实验结果表明,在该方法的基础上进行观点分类比使用现有的特征函数具有更高的分类准确度。2.设计了一个面向观点分析的三阶段多分类器集成学习框架,在该框架中系统自动选择一组最优的分类器,通过集成学习的方法将多个分类器的预测结果进行整合,从而提高了观点识别的准确度。在此框架中,首先提出了一种综合考虑了分类器准确度和多样性的分类器组合质量评估策略,然后利用该策略选择一组质量最高的分类器进行训练,最后提出了一种基于stacking技术的多分类器集成学习算法以实现多分类器预测结果的整合,从而使最终的观点识别准确度比传统单分类器方法的效果有较大的提升。3.设计了一个分类器组合选择的的贪心算法,解决了分类器组合选择时面临的组合爆炸问题。首先,本文将分类器组合选择问题转化为最优化问题；然后在此基础上设计了一个分类器组合选择的贪心算法,并证明该算法是2-近似的,保证了选择得到的分类器组合具有高的质量；最后分析了该贪心算法的时间复杂度为O(n),其中n为备选分类器的数量,因此大大提高了三阶段多分类器集成学习框架的可用性。4.提出了六种基于评论内容和评论人行为建模的垃圾评论识别特征,并设计了有监督的和无监督的两种垃圾评论在线检测算法,解决了现有的垃圾评论检测技术不能及时发现垃圾评论的缺点。文中提出的两种在线检测算法对垃圾评论的识别都具有较高的准确度和查全率,特别是无监督的方法在不需要标注样本的情况下也能达到较好的识别效果。综上所述,本文重点研究了针对观点分析的特征表示方法、面向观点分析的多分类器集成学习、分类器组合的优化选择和垃圾观点在线检测四个问题。这四个问题的研究具有连贯性和可持续性,形成一个相对完整的整体。本文的工作建立在对已有理论、技术和方法进行详尽分析和大量实验的基础上。理论分析和真实数据集上进行的大量实验都表明,本文中针对以上四个问题提出的解决方法都具有好的效果。

全文目录

摘要  6-8
ABSTRACT  8-15
第一章引言  15-23
  1.1 研究背景  15-20
    1.1.1 观点分析的主要研究内容  15-18
    1.1.2 观点分析技术的应用现状和前景  18-19
    1.1.3 观点分析研究面临的挑战  19-20
  1.2 本文的主要贡献  20-21
  1.3 本文章节的安排  21-23
第二章背景知识与相关领域研究现状  23-43
  2.1 观点文本的质量控制  23-28
    2.1.1 输入约束或政策激励  23-24
    2.1.2 评论质量的评估  24-26
    2.1.3 垃圾评论的检测  26-28
  2.2 观点识别  28-34
    2.2.1 词语级别的观点识别  28-30
    2.2.2 文档级别的观点识别  30-32
    2.2.3 商品特征的观点识别  32-34
  2.3 观点分析中常用技术和评价指标  34-39
    2.3.1 常用的方法和模型  34-36
    2.3.2 常用的评价指标  36-39
  2.4 观点分析中常用的评论数据集  39-41
  2.5 本章小结  41-43
第三章面向观点识别的特征表示方法  43-57
  3.1 问题定义  43-45
  3.2 传统特征表示方法中存在的局限  45-47
  3.3 词项的情感信息量化  47-48
  3.4 识别文档的观点极性  48-50
  3.5 实验与结果分析  50-55
    3.5.1 实验数据和设置  50-51
    3.5.2 结果与分析  51-55
  3.6 本章小结  55-57
第四章面向观点识别的集成学习模型  57-69
  4.1 传统单分类器方法的局限  57-58
  4.2 基于集成学习的观点识别框架  58-60
  4.3 成员分类器组的质量评估机制  60-62
  4.4 基于stacking的多分类器集成算法  62-63
  4.5 实验与结果分析  63-67
    4.5.1 实验数据和设置  63-64
    4.5.2 结果与分析  64-67
  4.6 本章小结  67-69
第五章集成学习模型中成员分类器的优化选择技术  69-87
  5.1 分类器组选择策略优化的必要性  69
  5.2 成员分类器组的近似最优选择策略  69-75
    5.2.1 成员分类器选择的贪心算法  70-75
    5.2.2 CSGA的时间复杂度分析  75
  5.3 实验与结果分析  75-85
    5.3.1 实验数据和设置  75-77
    5.3.2 结果与分析  77-85
  5.4 本章小结  85-87
第六章垃圾评论的在线检测技术  87-105
  6.1 垃圾评论检测的问题描述  87-89
  6.2 垃圾评论的检测模型  89-94
    6.2.1 评论内容的建模  89-93
    6.2.2 评论人行为的建模  93-94
  6.3 垃圾评论的在线检测算法  94-97
    6.3.1 有监督的垃圾评论在线检测算法  95-96
    6.3.2 无监督的垃圾评论在线检测算法  96-97
  6.4 实验与结果分析  97-104
    6.4.1 数据准备和评价标准  97-100
    6.4.2 结果与分析  100-104
  6.5 本章小结  104-105
第七章总结与展望  105-109
  7.1 总结  105-107
  7.2 未来工作展望  107-109
参考文献  109-121
攻读博士学位期间的论文成果  121-123
致谢  123-125
附录A 部分提供与观点分析相关功能的网站  125

面向网络评论的观点分析技术

内容摘要

全文目录

相似论文