学位论文 > 优秀研究生学位论文题录展示

中文文本倾向性分类系统研究

作 者: 邓忠莹
导 师: 严馨
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 文本倾向性分类 向量空间模型 特征降维 主成分分析 相似度计算 决策树 神经网络
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 80次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本倾向性分类是文本分类的重要组成部分,它研究文本中的词、短语、句子或者文档,挖掘其表达的主观因素并进行情感分析,鉴定其所属的褒贬类别;文本倾向性分类在信息过滤、产品推荐、信息安全、舆情分析、自动文摘提取、信息挖掘等方面有较大的实用价值,是目前文本分类技术领域中的研究热点。本文的研究基于文本主题性分类技术中的成熟方法,以文本中的词语作为研究对象,分别采用基于统计学分类技术中的相似度计算方法和基于机器学习自动分类技术中的决策树方法和神经网络方法对中文文本进行了倾向性分类研究,主要取得以下几个方面的研究成果:1)词语资源构建方面:提出以《褒义词词典》和《贬义词词典》作为基础,将语料中具有行业褒贬特征且词典中未包含的字或者词作为扩充部分,并在系统中将此部分词语赋以加倍权重;将词典中未包含的具有褒贬色彩的单字补入;将词典中未包含的否定词语补入;最后将伴随网络发展出现的“超”、“赞”、“强”、“顶”等非正规但褒贬意味强的词语补入。2)特征项的选择方面:提出褒贬义特征词条分别采用不同的方法进行特征选取办法,褒义特征项仅选择“名词”、“形容词”作为特征词条,贬义特征项则选择“名词”、“形容词”、“动词”、“名形词”、“成语”、“副词”、“名动词”、“副形词”八种词性作为特征词条,该方法较好地解决了在相似度倾向性分类中因褒贬义特征词条数目不均衡所导致的分类准确率较低问题。3)根据上述研究成果,采用C语言设计实现了特征词条选择模块、项的权重设置模块和向量空间模型建立模块,并使用主成分分析和特征选择两种方法对模型进行降维处理。在实验过程中采用相似度计算、决策树和神经网络三种分类方法,特征选择和主成分分析两种降维方法,进行了七个中文文本倾向性分类实验。实验结果表明:相似度计算方法在开放测试中的平均F1值达到68.7%;决策树方法在开发测试中的平均F1值达到75.8%;神经网络方法在开放测试中的平均F1值达到74.9%;其中PCA降维方法与决策树分类方法相组合的模式能够使得中文文本倾向性分类取得较好的分类性能,F1值达到89.6%。

全文目录


摘要  3-5
Abstract  5-7
目录  7-9
第一章 绪论  9-17
  1.1 选题背景及研究意义  9-10
    1.1.1 选题背景  9
    1.1.2 研究意义  9-10
  1.2 文本分类技术  10-11
  1.3 倾向性分类研究现状  11-14
    1.3.1 国外研究现状  11-12
    1.3.2 国内研究现状  12-14
  1.4 问题的提出  14-15
  1.5 本文研究内容  15-16
  1.6 论文的组织  16-17
第二章 文本倾向性分类  17-29
  2.1 文本分类  17-18
  2.2 倾向性分类技术  18-19
  2.3 分词技术  19-20
  2.4 文本表示方法  20-22
    2.4.1 文本表示方法  20-21
    2.4.2 向量空间模型基本思想  21-22
  2.5 项的选择及权重计算方法  22-23
    2.5.1 特征词条选择方法  22
    2.5.2 特征项的权重计算  22-23
  2.6 特征降维技术  23-25
  2.7 分类方法  25-27
  2.8 评估方法  27-28
  2.9 本章小结  28-29
第三章 分类系统设计  29-52
  3.1 实验环境  29
  3.2 基本步骤  29-31
  3.3 实验语料  31-32
    3.3.1 语料来源  31
    3.3.2 语料整理  31-32
  3.4 系统设计  32-36
    3.4.1 功能部件说明  32-34
    3.4.2 实验过程描述  34-36
  3.5 详细设计  36-51
    3.5.1 分词系统选择  36-38
    3.5.2 词典及扩充方法  38-40
    3.5.3 VSM模块的设计  40-45
    3.5.4 特征项选择模块的设计  45-48
    3.5.5 基于TF计算权重模块的设计  48-49
    3.5.6 特征降维设计  49-51
  3.6 本章小结  51-52
第四章 基于相似度计算方法的分类  52-56
  4.1 引言  52
  4.2 相似度计算方法基本思想  52-53
  4.3 分类数据模型准备  53
  4.4 分类过程描述  53-54
  4.5 实验测试及结果分析  54-55
  4.6 本章小结  55-56
第五章 基于决策树方法的分类  56-64
  5.1 决策树方法基本思想  56-57
  5.2 分类数据模型准备  57
  5.3 分类过程描述  57-59
  5.4 实验测试及结果分析  59-63
  5.5 本章小结  63-64
第六章 基于神经网络方法的分类  64-70
  6.1 BP神经网络基本思想  64-65
  6.2 分类过程描述  65
  6.3 实验测试及结果分析  65-69
  6.4 本章小结  69-70
第七章 总结与展望  70-73
  7.1 总结  70-71
  7.2 展望  71-73
致谢  73-74
参考文献  74-79
附录A 攻读学位期间发表论文  79-80
附录B 汉语文本词性标注标记集  80-81

相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
  4. 多邮件自动文摘的关键技术研究,TP391.1
  5. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  6. 红外超光谱图像的虚拟探测器研究,TP391.41
  7. 基于停用词处理的汉语语音检索方法,TP391.1
  8. 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
  9. 基于神经网络的水厂投药预测控制研究,TP273.1
  10. 视觉伺服四自由度机械臂的研究,TP242.6
  11. 机械臂视觉伺服系统的研究,TP242.6
  12. 压电驱动微工作台的控制与校正技术研究,TP273
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 某武器检测装置的控制系统设计,TP183
  15. 市级旅游用地规划环境影响评价研究,X820.3
  16. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  17. 珠三角地区高性能混凝土配合比智能化系统,TU528
  18. 改进的主成分分析方法在学科建设中的应用,G642.4
  19. 大学生综合素质测评研究,G645.5
  20. 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
  21. 基于并行算法的模糊综合评价模型的设计与应用,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com