学位论文 > 优秀研究生学位论文题录展示

基于机器学习的中文文本主题分类及情感分类研究

作 者: 樊小超
导 师: 张重阳
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 文本分类 互信息 情感分类 情感句 关键句 特征融合
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 70次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数据的关键技术应运而生并取得了快速的发展。基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加权方法TFIDF具有更好的分类性能。情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的基于主题的文本分类有所不同。本文选用了在网络上被广泛使用的中文情感分类数据集,采用机器学习方法,对比分析了在机器学习的各个过程中不同方法对情感分类性能的影响。由于情感分类的语料更加复杂多变,传统的机器学习方法很难在情感分类中取得较高的性能。本文通过对评论性文本的分析,结合基于词典和规则的方法将文本划分成情感句集合和细节句集合,进一步提取出文中的关键句集合,分别对全部文本,情感句集合和关键句集合进行训练得到不同的分类器,最后使用投票策略将得到的3个分类器进行融合,得到最终分类结果,通过实验表明此方法可以有效的提高情感分类的性能。

全文目录


摘要  3-4
Abstract  4-8
1 绪论  8-15
  1.1 研究背景及意义  8-9
  1.2 国内外发展情况  9-12
  1.3 国际会议和评测任务  12-13
  1.4 存在的问题和挑战  13-14
  1.5 本文研究内容与组织结构  14-15
2 文本分类方法综述  15-27
  2.1 基于机器学习方法  15-25
    2.1.1 文本预处理过程  16
    2.1.2 文本的表示  16-17
    2.1.3 特征选择  17-20
    2.1.4 特征加权  20-21
    2.1.5 分类方法  21-23
    2.1.6 评价标准  23-25
  2.2 基于语义的方法  25-26
    2.2.1 分词和词性标注  25
    2.2.2 情感词的获取  25-26
    2.2.3 计算词语语义倾向  26
    2.2.4 计算句子和篇章的情感倾向  26
  2.3 本章小结  26-27
3 基于互信息的文本特征加权方法  27-36
  3.1 TFIDF特征加权算法  27-28
  3.2 传统的互信息方法  28-30
  3.3 基于改进的互信息的特征加权方法  30-32
    3.3.1 基于词频的改进  30-31
    3.3.2 基于文档频率的改进  31
    3.3.3 类别相关度平衡因子  31-32
  3.4 实验  32-35
    3.4.1 数据集  32
    3.4.2 实验设置  32-33
    3.4.3 传统特征选择函数加权效果比较  33-34
    3.4.4 改进的互信息特征加权方法  34-35
  3.5 本章小结  35-36
4 机器学习方法在情感分类中的对比分析研究  36-47
  4.1 中文预处理对情感分类的影响  36-37
  4.2 特征选择对情感分类的影响  37-38
  4.3 特征加权与分类方法对情感分类的影响  38
  4.4 实验  38-46
    4.4.1 实验数据集  38-39
    4.4.2 实验结果及分析  39-46
  4.5 本章小结  46-47
5 基于情感句抽取的分类器融合情感分类方法研究  47-56
  5.1 主客观句的识别  47-49
  5.2 关键句集合的抽取  49-51
  5.3 特征融合方法  51-52
  5.4 实验  52-55
    5.4.1 实验数据集  53
    5.4.2 实验设置  53
    5.4.3 实验结果分析  53-55
  5.5 本章总结  55-56
6 总结与展望  56-58
  6.1 总结  56
  6.2 展望  56-58
致谢  58-59
参考文献  59-65
附录  65

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 水下目标特征的压缩与融合技术研究,TN911.7
  6. 基于内容的唐卡图像检索技术研究,TP391.41
  7. 基于数据分布特征的文本分类研究,TP391.1
  8. 基于分类器融合的人脸识别研究,TP391.41
  9. XXZ海森堡链的热态量子协错,O413.1
  10. 基于本体的食品投诉文档文本分类研究,TP391.1
  11. 基于本体的中文科技论文分类研究,TP391.1
  12. 基于支持向量机的视频目标检测方法研究,TP391.41
  13. 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
  14. 多粒度融合的汉语句子主观性和情感分类方法研究,TP391.1
  15. 音乐内容和歌词相结合的歌曲情感分类方法研究,TP391.3
  16. 领域间适应性情感分类方法研究,TP391.1
  17. 基于多特征和人工免疫优化算法的医学图像配准方法研究,TP391.41
  18. 基于鱼眼图像的车辆检测算法的研究与实现,TP391.41
  19. 基于粗糙集理论的文本分类研究,TP18
  20. 非刚性医学图像准算法研究和实现,TP391.41
  21. 多图像源信息融合与增强技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com