学位论文 > 优秀研究生学位论文题录展示

基于LDA与SVM的文本分类研究

作　者: 谢静
导　师: 李昆仑
学　校: 河北大学
专　业: 通信与信息系统
关键词: 文本分类特征选择 LDA模型多类分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 292次
引　用: 1次
阅　读: 论文下载

内容摘要

文本自动分类是信息检索与数据挖掘领域的研究热点，近年来得到了广泛的关注和快速的发展，它是机器学习和自然语言处理的关键技术之一。近几年，人们开始将机器学习的方法应用到文本自动分类领域，它在分类效果和灵活性上都比传统的文本分类模式有所发展，成为相关领域研究和应用的范例。特征选择和分类算法是文本分类中两项关键的技术。在文本分类中，特征空间维数过高引起“维数灾难”，传统特征选择方法在处理文本数据时，特征降维效果不佳，且易忽视词间语义关系，直接影响分类性能。实际文本数据具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点，传统分类算法在分类精度和速度上不能兼顾。本文对文本分类及其相关技术进行研究，从降低文本数据的维数，提高分类性能出发，提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面：（1）在文本预处理阶段加入词频和文档频度过滤，在经典的LDA特征选择算法基础上融入类别信息，发掘不同类别文档内部潜在主题的差异性，采取双重特征选择方法以期选择对分类最有意义的特征词。（2）针对大规模文本数据的特点，在各类别训练数据集上分别用LDA模型进行主题建模，利用Gibbs抽样参数推理，间接计算模型参数，把每个文本表示为固定隐含主题集上的概率分布，从而获得文本集的隐含主题-文本矩阵，简化了文本数据，取得了显著降维效果，缩短了分类算法的训练时间。（3）在上述工作的基础上应用SVM分类算法，将LDA良好的文本特征表示性能和SVM强大的分类能力结合起来。在中英文语料库上实验表明，与其它特征选择方法和分类算法结合相比，本文的方法特征降维效果明显，F1值、Macro-F1、Micro-F1和精确率等分类性能指标都有良好的改善。

全文目录

摘要  5-6
Abstract  6-10
第1章绪论  10-16
  1.1 研究背景  10-11
  1.2 研究意义  11-12
  1.3 文本分类技术研究现状  12-14
    1.3.1 国内外研究现状  12-14
    1.3.2 存在的主要问题  14
  1.4 主要研究内容及章节结构  14-16
第2章文本分类系统概述  16-29
  2.1 文本预处理  16-18
  2.2 特征选择  18-22
  2.3 特征加权  22-23
  2.4 文本表示  23-25
    2.4.1 布尔模型  23
    2.4.2 向量空间模型  23-24
    2.4.3 概率模型  24
    2.4.4 统计主题模型  24-25
  2.5 常用分类算法  25-27
    2.5.1 贝叶斯分类法  25
    2.5.2 KNN（K 最近邻）  25-26
    2.5.3 决策树  26
    2.5.4 支持向量机  26-27
  2.6 分类性能评估体系  27-29
第3章基于 LDA 模型的文本特征处理  29-43
  3.1 统计主题模型简介  29-34
    3.1.1 TF-IDF 模型  30-31
    3.1.2 一元混合模型（Mixture of unigrams）  31
    3.1.3 LSI 模型  31-33
    3.1.4 PLSI 模型  33-34
  3.2 LDA 模型  34-38
    3.2.1 相关工作  34-35
    3.2.2 模型介绍  35-37
    3.2.3 抽样算法  37-38
  3.3 基于类别信息 LDA 模型的文档特征提取  38-39
  3.4 实验结果与分析  39-43
    3.4.1 最优主题数目的确定  39-40
    3.4.2 特征选择方法的比较  40-43
第4章 LDA 与 SVM 相结合的多类文本分类  43-53
  4.1 引言  43-44
  4.2 支持向量机  44-48
    4.2.1 2-类 SVM  44-46
    4.2.2 多类 SVM 分类  46-48
  4.3 LDA 与 SVM 相结合的多类文本分类  48-53
    4.3.1 实验设置  48-50
    4.3.2 实验结果与分析  50-53
第5章总结与展望  53-55
  5.1 本文的主要工作  53
  5.2 进一步研究工作的展望  53-55
参考文献  55-59
致谢  59-60
攻读学位期间取得的科研成果  60
攻读学位期间参与的科研项目情况  60

基于LDA与SVM的文本分类研究

内容摘要

全文目录

相似论文