学位论文 > 优秀研究生学位论文题录展示

中文意见挖掘的特征层次构建和抽取算法

作 者: 张鹏
导 师: 朱征宇
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 意见挖掘 tdf/idf pmi bootstrapping
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 107次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Web技术的发展,网络上现存的主观意见表述文本陡增。主观WEB文本不仅能给其他用户提供客观的参考价值,并且产品生产方也可以及时根据用户的意见言论来调正自己的产品设计以及营销策略。因此主观意见文本的处理也随之受到人们的重视。近年来也成为了WEB数据挖掘的热点。在中文意见挖掘中,相关学者都将如何准确得到意见词的语义情感倾向作为他们的着手点,对准确获取特征以及特征之间的关系相对研究较少。而特征的相关层次关系分析将对后面的语义情感分析和对整篇评论的理解起到重要作用。因此,为了研究特征词的抽取方法和特征层次关系的获取方法,本文主要做了如下几方面的研究工作:①由于语料在中文文本挖掘中的重要作用,描述了不同语料在意见挖掘中的运用,分析了不同语料对于特征词提取的作用。并针对不同语料介绍了不同的特征词抽取算法。②描述了中文语料中能够体现概念上下位与部分整体关系的特定语法结构,并从统计的角度探索和深入地分析了汉语“的”字结构短语中的概念上下位关系,总结出一种利用Tdf/idf公式判定“的”字前后概念上下位关系的方法。③研究给出了基于网络的PMI统计算法的一种新应用。通过使用特定语法结构短语在现有比较成熟的网络搜索引擎中进行搜索,来获取词汇和加入特定语法结构的短语在网络中被搜索到的次数,用于判断词汇之间的关系。④分析了现有中文评论特征词与意见词所形成的词对的抽取算法。并将Bootstrapping算法和关联规则算法对特征词的抽取效果作了对比和分析。通过较充分的实验,验证了PMI算法用于特征层次提取的可行性和有效性。论文研究为基于网络的PMI算法在中文意见挖掘的应用提供了新的可供借鉴的方向和思路,具有较好的学术意义和一定的应用参考价值。

全文目录


中文摘要  3-4
英文摘要  4-7
1 绪论  7-12
  1.1 研究背景  7
  1.2 研究意义  7-8
  1.3 意见挖掘的研究现状  8-11
  1.4 文章组织结构  11-12
2 基于本体关系构建产品特征层次  12-26
  2.1 本体与特征层次的区别  12-15
    2.1.1 特征层次的定义  12-13
    2.1.2 本体相关概念  13-14
    2.1.3 本体和特征层次之间的关系  14-15
  2.2 已有产品特征层次构建方法  15-18
    2.2.1 规则文本的特征关系提取算法  15-16
    2.2.2 非规则文本的特征关系提取算法  16-18
    2.2.3 已有特征层次构建算法  18
  2.3 基于本体关系的构建方法  18-25
    2.3.1 含本体概念关系的语法结构  18-22
    2.3.2 文本特征抽取算法TDFIDF  22
    2.3.3 基于网络的词互信息算法  22-24
    2.3.4 新特征层次构建算法  24-25
  2.4 本章小结  25-26
3 特征词、意见词对的抽取  26-36
  3.1 概述  26
  3.2 中文词性标注  26-28
  3.3 特征词、意见词对的抽取方法  28-35
    3.3.1 基于关联规则的特征抽取算法  28-30
    3.3.2 Bootstrapping 算法  30-32
    3.3.3 对 Bootstrapping 算法中模式评估方式的改进  32-33
    3.3.4 特征词、意见词对在语义情感分析中的应用  33-35
  3.4 本章小结  35-36
4 实验与分析  36-47
  4.1 实验环境  36-37
  4.2 实验流程架构  37-38
  4.3 实验数据  38-40
  4.4 实验评估手段  40
  4.5 实验数据预处理  40-41
  4.6 算法实验与分析  41-46
    4.6.1 关于规格文档的特征层次提取实验  41
    4.6.2 采用Bootstrapping 算法自动提取特征词、意见词对的实验  41-43
    4.6.3 “的”短语抽取算法的实验  43-45
    4.6.4 采用基于网络的PMI 算法自动获取特征次层次关系的实验  45-46
  4.7 本章小结  46-47
5 总结与展望  47-48
致谢  48-49
参考文献  49-52
附录  52
  作者在攻读学位期间发表的论文目录  52

相似论文

  1. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  2. LTE-A中的下行反馈技术研究,TN929.5
  3. 长期演进系统下入侵检测关键技术的研究,TP393.08
  4. 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
  5. 网络舆情热点发现与分析研究,TP393.09
  6. 基于共现链的微博情感分析技术的研究与实现,TP393.092
  7. 网上产品评价的意见挖掘模型研究,F49
  8. 基于意见挖掘的产品排名技术研究,TP391.1
  9. 面向Web文本的产品意见挖掘算法研究,TP391.1
  10. 以PMI基因为选择标记露地菊转PtDHAR基因体系的建立,S682.11
  11. 中文意见挖掘中的特征词提取以及情感倾向分析,TP391.1
  12. 面向产品评论的意见挖掘关键技术研究,TP391.1
  13. 基于Web舆情的意见挖掘关键技术研究,TP391.1
  14. 基于特定领域汉语意见型问答系统的研究,TP311.52
  15. 基于近似文本分析的意见挖掘,TP311.13
  16. 意见挖掘中若干关键问题研究,TP391.1
  17. 基于领域本体的意见挖掘系统,TP311.52
  18. 基于特定领域的汉语句子意见挖掘,TP391.1
  19. 基于主动学习的语料自动标注方法研究,TP391.1
  20. 虚拟社区热点话题意见挖掘模型研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com