学位论文 > 优秀研究生学位论文题录展示

面向Web文本的产品意见挖掘算法研究

作 者: 肖芬
导 师: 徐蔚然
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 意见挖掘 中文依存句法分析 二部图模型 情感分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 140次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的广泛应用,在Blog.BBS.Wiki等Web站点中出现了大量的针对商品或服务的客户评论。本文针对这样的Web评论文本,主要研究从文本中提取产品属性词和评价情感词,然后对客户持有的意见进行极性判断。文中使用到的方法经过实验都证明了方法的适用性,相对应所开发出来的系统也具有很好的鲁棒性。本文的研究内容主要如下:1、针对网络资源,首先用基于HTML标签的模式匹配的信息抽取方式从特定的网页中抽取产品属性词建立基本的评价对象词典,然后利用搜索引擎采集评论文本从中抽取情感词,然后基于HowNet计算这些词的倾向性,建立具有口语化特征的情感词表。2、利用中文依存句法分析,结合其他的语义特征进行属性词的抽取,以扩大属性词典,然后使用二部图模型,对属性词和情感词进行反复的互训练,最后将新训练的属性词和情感词分别写入词典,且将匹配的属性词和情感词以二元组的方式写入文本。3、手工构造了否定词、转折词和程度词表,然后定义了评论情感词的评分模型,对抽取出来的评价情感词进行打分,最后确定其极性,即客户对产品属性所持有的意见或者态度。通过上述工作,本文实现了对Web文本的意见挖掘,即属性词和情感词的抽取及意见的褒贬分析,并建立了相关资源。本文最后探索如何实现跨领域,在一定程度上表明了方法的可行性。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-16
  1.1 研究背景及意义  9-10
  1.2 产品意见挖掘的研究现状  10-13
    1.2.1 Web文本的特征  10
    1.2.2 产品意见挖掘的理论研究  10-12
    1.2.3 现有的意见挖掘系统  12-13
  1.3 意见挖掘所涉及的技术及应用领域  13-15
  1.4 本文的工作及内容安排  15-16
第二章 产品属性词与情感词基本词典构建  16-31
  2.1 引言  16-17
  2.2 构建基本产品属性词典  17-26
    2.2.1 信息抽取的概念  17-19
    2.2.2 信息抽取技术  19-23
    2.2.3 属性词典的构建  23-26
  2.3 情感词典的构建  26-29
    2.3.1 提取网络情感词  26-27
    2.3.2 利用HowNet计算情感词的倾向性  27-29
    2.3.3 网络情感词典的构建  29
  2.4 小结  29-31
第三章 属性词与情感词的自动更新  31-45
  3.1 引言  31-32
  3.2 中文依存句法分析  32-40
    3.2.1 句法分析的统计模型  32-36
    3.2.2 句法分析的标注体系及其含义  36-37
    3.2.3 属性词的自动更新  37-40
  3.3 二部图模型  40-42
  3.4 属性词与情感词的互训练  42-44
    3.4.1 方案设计  42-43
    3.4.2 算法描述  43-44
  3.5 小结  44-45
第四章 评价对象的倾向性分析  45-54
  4.1 引言  45
  4.2 情感词倾向性分析  45-47
    4.2.1 已有资源扩展生成情感倾向词典  46
    4.2.2 无监督机器学习的方法  46
    4.2.3 基于人工标注语料库的学习方法  46-47
  4.3 评价对象的倾向性评分模型  47-50
    4.3.1 一些相关工作  47-49
    4.3.2 评分模型的建立  49-50
  4.4 实验  50-54
    4.4.1 数据集与工具包  50
    4.4.2 实验结果与评测方法  50-52
    4.4.3 实验结果分析  52-54
第五章 跨领域探索  54-56
  5.1 命名实体识别  54
  5.2 算法探索与设计  54-56
第六章 总结  56-58
  6.1 对以前工作的总结  56-57
  6.2 对以后工作的展望  57-58
参考文献  58-65
致谢  65-66
攻读学位期间发表的学术论文  66

相似论文

  1. 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
  2. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  3. 基于英文博客空间文本的情感分析研究,TP391.1
  4. 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
  5. 网络舆情热点发现与分析研究,TP393.09
  6. 基于共现链的微博情感分析技术的研究与实现,TP393.092
  7. 网上产品评价的意见挖掘模型研究,F49
  8. 基于意见挖掘的产品排名技术研究,TP391.1
  9. 中文意见挖掘的特征层次构建和抽取算法,TP391.1
  10. 基于潜在语义分析和最大熵的中文情感分析研究,TP391.1
  11. 高校贫困生受助后的负性情感分析及对策,B844.2
  12. 中文网络客户评论中的产品特征挖掘方法研究,TP391.1
  13. 基于近似文本分析的意见挖掘,TP311.13
  14. 面向中文情感分析的词类组合模式研究,TP391.1
  15. 面向主题的中文文本观点检索研究,TP391.1
  16. 基于主动学习的语料自动标注方法研究,TP391.1
  17. 基于消费者网络评论情感的产品模糊推理研究,F49
  18. 面向产品领域的细粒度情感分析技术,TP391.1
  19. 基于情感分析的新闻浏览平台关键技术研究,TP391.1
  20. 面向中文Web评论的情感分析技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com