学位论文 > 优秀研究生学位论文题录展示

中文文本分类算法研究

作 者: 马鹏飞
导 师: 王建宇;康其桔
学 校: 南京理工大学
专 业: 控制理论与控制工程
关键词: 中文文本分类 支持向量机 特征选择 信息增益
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 163次
引 用: 3次
阅 读: 论文下载
 

内容摘要


几十年信息技术和网络的发展,极大地方便了人们的交流和沟通,人类文明的发展得到了很大推动,但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题,如何在海量数据环境下有效地管理并快速地将所需的数据进行分类,成为信息科学领域迫切需要解决的问题。随着技术的发展,文本分类作为一门有着很大实用价值的独立学科成长了起来,并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。由于文本用向量空间模型表示存在维度高、稀疏性大的特点,对于文本的分类有一定的难度。信息增益是目前最为常用的文本特征选择方法,但是对于非平衡集的分类效果不佳。支持向量机是最适合文本分类的方法,但是支持向量机目前仍然存在复杂度较高、花费时间较长、对参数敏感性较强等问题,在实际应用中仍在存在着一些难题。本文针对上述问题做了如下工作:总结分析了文本分类的研究背景和相关技术;研究了特征选择方法和支持向量机的基础理论并总结了它们目前依然存在的问题;针对信息增益没有考虑特征项分布信息而导致的在非平衡集上效果不佳的问题,结合Theil熵定义了类间离散度和类内离散度,提出了一种基于Theil熵的信息增益特征选择方法T-IG;针对支持向量机对参数的敏感性,结合GLOA优化算法提出了一种新的分类算法GLOA-SVM,并实验证明了算法在分类上的有效性;基于T-IG方法和GLOA-SVM算法设计并实现了一个中文文本分类原型系统,实验验证了T-IG方法和GLOA-SVM算法在中文文本分类领域的效果。

全文目录


相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  4. 音乐结构自动分析研究,TN912.3
  5. 基于三维重建的焊点质量分类方法研究,TP391.41
  6. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  7. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  14. 语音情感识别的特征选择与特征产生,TP18
  15. 基于车载3D加速传感器的路况监测研究,TP274
  16. 不匹配信道下耳语音说话人识别研究,TN912.34
  17. 基于文本挖掘的学者简历自动生成,TP391.1
  18. 基于特征选择的入侵检测研究,TP393.08
  19. 基于数据分布特征的文本分类研究,TP391.1
  20. 数据流特征选择策略的研究,TP311.13
  21. 领域间适应性情感分类方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com