学位论文 > 优秀研究生学位论文题录展示
基于LDA与SVM的文本分类研究
作 者: 谢静
导 师: 李昆仑
学 校: 河北大学
专 业: 通信与信息系统
关键词: 文本分类 特征选择 LDA模型 多类分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 292次
引 用: 1次
阅 读: 论文下载
内容摘要
文本自动分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展,它是机器学习和自然语言处理的关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域,它在分类效果和灵活性上都比传统的文本分类模式有所发展,成为相关领域研究和应用的范例。特征选择和分类算法是文本分类中两项关键的技术。在文本分类中,特征空间维数过高引起“维数灾难”,传统特征选择方法在处理文本数据时,特征降维效果不佳,且易忽视词间语义关系,直接影响分类性能。实际文本数据具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点,传统分类算法在分类精度和速度上不能兼顾。本文对文本分类及其相关技术进行研究,从降低文本数据的维数,提高分类性能出发,提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面:(1)在文本预处理阶段加入词频和文档频度过滤,在经典的LDA特征选择算法基础上融入类别信息,发掘不同类别文档内部潜在主题的差异性,采取双重特征选择方法以期选择对分类最有意义的特征词。(2)针对大规模文本数据的特点,在各类别训练数据集上分别用LDA模型进行主题建模,利用Gibbs抽样参数推理,间接计算模型参数,把每个文本表示为固定隐含主题集上的概率分布,从而获得文本集的隐含主题-文本矩阵,简化了文本数据,取得了显著降维效果,缩短了分类算法的训练时间。(3)在上述工作的基础上应用SVM分类算法,将LDA良好的文本特征表示性能和SVM强大的分类能力结合起来。在中英文语料库上实验表明,与其它特征选择方法和分类算法结合相比,本文的方法特征降维效果明显,F1值、Macro-F1、Micro-F1和精确率等分类性能指标都有良好的改善。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-16 1.1 研究背景 10-11 1.2 研究意义 11-12 1.3 文本分类技术研究现状 12-14 1.3.1 国内外研究现状 12-14 1.3.2 存在的主要问题 14 1.4 主要研究内容及章节结构 14-16 第2章 文本分类系统概述 16-29 2.1 文本预处理 16-18 2.2 特征选择 18-22 2.3 特征加权 22-23 2.4 文本表示 23-25 2.4.1 布尔模型 23 2.4.2 向量空间模型 23-24 2.4.3 概率模型 24 2.4.4 统计主题模型 24-25 2.5 常用分类算法 25-27 2.5.1 贝叶斯分类法 25 2.5.2 KNN(K 最近邻) 25-26 2.5.3 决策树 26 2.5.4 支持向量机 26-27 2.6 分类性能评估体系 27-29 第3章 基于 LDA 模型的文本特征处理 29-43 3.1 统计主题模型简介 29-34 3.1.1 TF-IDF 模型 30-31 3.1.2 一元混合模型(Mixture of unigrams) 31 3.1.3 LSI 模型 31-33 3.1.4 PLSI 模型 33-34 3.2 LDA 模型 34-38 3.2.1 相关工作 34-35 3.2.2 模型介绍 35-37 3.2.3 抽样算法 37-38 3.3 基于类别信息 LDA 模型的文档特征提取 38-39 3.4 实验结果与分析 39-43 3.4.1 最优主题数目的确定 39-40 3.4.2 特征选择方法的比较 40-43 第4章 LDA 与 SVM 相结合的多类文本分类 43-53 4.1 引言 43-44 4.2 支持向量机 44-48 4.2.1 2-类 SVM 44-46 4.2.2 多类 SVM 分类 46-48 4.3 LDA 与 SVM 相结合的多类文本分类 48-53 4.3.1 实验设置 48-50 4.3.2 实验结果与分析 50-53 第5章 总结与展望 53-55 5.1 本文的主要工作 53 5.2 进一步研究工作的展望 53-55 参考文献 55-59 致谢 59-60 攻读学位期间取得的科研成果 60 攻读学位期间参与的科研项目情况 60
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于特征选择的入侵检测研究,TP393.08
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 基于本体的中文科技论文分类研究,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 基于粗糙集理论的文本分类研究,TP18
- 滚动轴承故障诊断中的特征提取与选择方法,TH165.3
- 集合多标签文本分类研究,TP391.1
- 基于Hadoop的文本分类研究,TP391.1
- 基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
- 流形学习的方差最小化准则,TP181
- 中国民族音乐特征提取与分类技术的研究,J607
- 基于社会标签系统的推荐技术研究,TP391.3
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
- 半监督学习方法研究,TP181
- 网络舆情分析关键技术研究与实现,TP393.09
- 关节式物体检测识别及应用,TP391.41
- 基于CT图像的周围型非小细胞肺癌分型诊断模型研究,TP391.41
- 基于元信息的文本分类与优化技术研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|