学位论文 > 优秀研究生学位论文题录展示
基于KPCA和SOFM神经网络的文本分类算法研究
作 者: 王欣欣
导 师: 赖惠成
学 校: 新疆大学
专 业: 通信与信息系统
关键词: 文本分类 特征降维 核主成分分析 SOFM 神经网络 RBF
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 79次
引 用: 0次
阅 读: 论文下载
内容摘要
在网络信息快速增长的时代,通过网络快速、准确地获取有效信息已成为目前研究的焦点问题之一。文本分类检索算法是实现信息检索的重要手段,智能化文本分类技术成为基于内容的文本信息管理的基础,被广泛应用于文本过滤、文本组织、话题追踪与探测等领域。本文在深入研究目前文本分类检索算法技术的基础上,针对文本数据非线性的特点和传统的特征降维算法、分类算法的不足,提出基于核主成分分析的特征降维算法和自组织特征映射神经网络文本分类算法。核主成分分析(KPCA)是一种对多元数据进行统计分析的技术,在处理高维非线性问题中有着极大优势,而且相对于特征选择能够提供更多的信息,自组织特征映射(SOFM)神经网络算法能进行大规模分布和并行数据信息处理,此外,具有学习能力强、收敛速度快、能实现全局最优和自组织聚类的功能。本文结合KPCA特征降维和SOFM神经网络分类算法各自具有的优势,构建文本分类检索模型。首先针对文本数据的非线性特点,采用基于核主成分分析(KPCA)算法进行特征提取和降维,该算法利用输入空间中预先定义的核函数直接计算特征空间中的向量点积,可以对特征空间实施降噪、降维和去相关性,完成分类前的准备工作;然后利用SOFM神经网络进行文本分类,该算法有很强的学习、联想、容错能力和鲁棒性;最后,对基于BP神经网络的文本分类算法和基于RBF神经网络的文本分类算法进行了实验对比。通过实验仿真对比,本文算法较之基于BP神经网络和基于RBF神经网络的文本分类算法,有更高的分类精度和更快的分类速度。
|
全文目录
摘要 3-4 ABSTRACT 4-9 第一章 引言 9-13 1.1 研究背景和意义 9-10 1.2 国内外相关研究概述 10-11 1.3 文本分类方法概述 11 1.4 本文研究内容概要 11-12 1.5 本文组织结构 12-13 第二章 文本分类的基础知识 13-25 2.1 文本分类系统 13-14 2.2 文本预处理 14 2.3 文本表示 14-15 2.4 文本的特征提取 15-18 2.4.1 文本频率 DF (Document Frequency) 15-16 2.4.2 信息增益(Information Gain,IG) 16 2.4.3 互信息(Mutual Information,MI) 16-17 2.4.4 2统计量(CHI) 17-18 2.5 文本分类算法 18-24 2.5.1 朴素贝叶斯(Naive Bayes) 19 2.5.2 k 近邻(K-Nearest Neighbor,KNN) 19-20 2.5.3 支持向量机(Support Vector Machine,SVM) 20-22 2.5.4 神经网络(Neural Networks ,NN) 22-24 2.6 本章小结 24-25 第三章 核主成分分析的文本特征提取 25-32 3.1 特征选择算法 25-26 3.2 基于主成分分析的特征选择算法 26-27 3.3 核主成分分析 27-31 3.3.1 核主成分分析模型 30-31 3.4 本章小结 31-32 第四章 SOFM 神经网络 32-36 4.1 SOFM 神经网络 32 4.2 SOFM 网络结构与运行原理 32-33 4.3 自组织神经网络学习算法 33-35 4.4 SOFM 网络功能特点 35 4.5 本章小结 35-36 第五章 基于 KPCA 和 SOMF 的文本分类 36-48 5.1 SOMF 网络的设计基础 36-38 5.1.1 输出层设计 36-37 5.1.2 权值初始化设计 37 5.1.3 优胜邻域NE j t 的设计 37-38 5.1.4 学习率 t 的设计 38 5.2 SOFM 神经网络用于文本分类 38-44 5.2.1 实验语料集 39 5.2.2 特征表示模块 39-40 5.2.3 基于 KPCA 和 SOFM 网络的文本分类模型 40-41 5.2.4 特征降维模块 41-42 5.2.5 分类算法模块 42-43 5.2.6 性能评价 43 5.2.7 实验对比设置 43-44 5.3 实验结果和分析 44-47 5.3.1 SOFM 网络分类算法 44-45 5.3.2 基于 KPCA 的分类算法性能比较 45-46 5.3.3 基于 KPCA 的 RBF 网络和 SOFM 网络分类算法 46-47 5.4 本章小结 47-48 第六章 总结和展望 48-50 6.1 总结 48-49 6.2 展望 49-50 参考文献 50-54 攻读硕士期间发表的论文 54-55 致谢 55
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 红外超光谱图像的虚拟探测器研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 视觉伺服四自由度机械臂的研究,TP242.6
- 机械臂视觉伺服系统的研究,TP242.6
- 压电驱动微工作台的控制与校正技术研究,TP273
- 某武器检测装置的控制系统设计,TP183
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 大学生综合素质测评研究,G645.5
- 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于神经网络辨识的同步发电机励磁控制研究,TM31
- 基于BP神经网络的水稻干燥智能控制研究,S226.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|