学位论文 > 优秀研究生学位论文题录展示

基于LDA与SVM的文本分类研究

作 者: 谢静
导 师: 李昆仑
学 校: 河北大学
专 业: 通信与信息系统
关键词: 文本分类 特征选择 LDA模型 多类分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 292次
引 用: 1次
阅 读: 论文下载
 

内容摘要


文本自动分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展,它是机器学习和自然语言处理的关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域,它在分类效果和灵活性上都比传统的文本分类模式有所发展,成为相关领域研究和应用的范例。特征选择和分类算法是文本分类中两项关键的技术。在文本分类中,特征空间维数过高引起“维数灾难”,传统特征选择方法在处理文本数据时,特征降维效果不佳,且易忽视词间语义关系,直接影响分类性能。实际文本数据具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点,传统分类算法在分类精度和速度上不能兼顾。本文对文本分类及其相关技术进行研究,从降低文本数据的维数,提高分类性能出发,提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面:(1)在文本预处理阶段加入词频和文档频度过滤,在经典的LDA特征选择算法基础上融入类别信息,发掘不同类别文档内部潜在主题的差异性,采取双重特征选择方法以期选择对分类最有意义的特征词。(2)针对大规模文本数据的特点,在各类别训练数据集上分别用LDA模型进行主题建模,利用Gibbs抽样参数推理,间接计算模型参数,把每个文本表示为固定隐含主题集上的概率分布,从而获得文本集的隐含主题-文本矩阵,简化了文本数据,取得了显著降维效果,缩短了分类算法的训练时间。(3)在上述工作的基础上应用SVM分类算法,将LDA良好的文本特征表示性能和SVM强大的分类能力结合起来。在中英文语料库上实验表明,与其它特征选择方法和分类算法结合相比,本文的方法特征降维效果明显,F1值、Macro-F1、Micro-F1和精确率等分类性能指标都有良好的改善。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 研究背景  10-11
  1.2 研究意义  11-12
  1.3 文本分类技术研究现状  12-14
    1.3.1 国内外研究现状  12-14
    1.3.2 存在的主要问题  14
  1.4 主要研究内容及章节结构  14-16
第2章 文本分类系统概述  16-29
  2.1 文本预处理  16-18
  2.2 特征选择  18-22
  2.3 特征加权  22-23
  2.4 文本表示  23-25
    2.4.1 布尔模型  23
    2.4.2 向量空间模型  23-24
    2.4.3 概率模型  24
    2.4.4 统计主题模型  24-25
  2.5 常用分类算法  25-27
    2.5.1 贝叶斯分类法  25
    2.5.2 KNN(K 最近邻)  25-26
    2.5.3 决策树  26
    2.5.4 支持向量机  26-27
  2.6 分类性能评估体系  27-29
第3章 基于 LDA 模型的文本特征处理  29-43
  3.1 统计主题模型简介  29-34
    3.1.1 TF-IDF 模型  30-31
    3.1.2 一元混合模型(Mixture of unigrams)  31
    3.1.3 LSI 模型  31-33
    3.1.4 PLSI 模型  33-34
  3.2 LDA 模型  34-38
    3.2.1 相关工作  34-35
    3.2.2 模型介绍  35-37
    3.2.3 抽样算法  37-38
  3.3 基于类别信息 LDA 模型的文档特征提取  38-39
  3.4 实验结果与分析  39-43
    3.4.1 最优主题数目的确定  39-40
    3.4.2 特征选择方法的比较  40-43
第4章 LDA 与 SVM 相结合的多类文本分类  43-53
  4.1 引言  43-44
  4.2 支持向量机  44-48
    4.2.1 2-类 SVM  44-46
    4.2.2 多类 SVM 分类  46-48
  4.3 LDA 与 SVM 相结合的多类文本分类  48-53
    4.3.1 实验设置  48-50
    4.3.2 实验结果与分析  50-53
第5章 总结与展望  53-55
  5.1 本文的主要工作  53
  5.2 进一步研究工作的展望  53-55
参考文献  55-59
致谢  59-60
攻读学位期间取得的科研成果  60
攻读学位期间参与的科研项目情况  60

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 基于特征选择的入侵检测研究,TP393.08
  5. 基于查询扩展的信息抽取技术研究及应用,TP391.1
  6. 基于本体的中文科技论文分类研究,TP391.1
  7. 数据流特征选择策略的研究,TP311.13
  8. 基于粗糙集理论的文本分类研究,TP18
  9. 滚动轴承故障诊断中的特征提取与选择方法,TH165.3
  10. 集合多标签文本分类研究,TP391.1
  11. 基于Hadoop的文本分类研究,TP391.1
  12. 基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
  13. 流形学习的方差最小化准则,TP181
  14. 中国民族音乐特征提取与分类技术的研究,J607
  15. 基于社会标签系统的推荐技术研究,TP391.3
  16. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  17. 半监督学习方法研究,TP181
  18. 网络舆情分析关键技术研究与实现,TP393.09
  19. 关节式物体检测识别及应用,TP391.41
  20. 基于CT图像的周围型非小细胞肺癌分型诊断模型研究,TP391.41
  21. 基于元信息的文本分类与优化技术研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com