学位论文 > 优秀研究生学位论文题录展示
中文文本分类特征提取方法的研究与实现
作 者: 林少波
导 师: 杨丹
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 文本分类 特征降维 特征提取 类别正相关性 类别强相关度
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 186次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机网络技术的迅猛发展,文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速,准确地查找相关知识信息,提高生活工作效率,因此对文本分类技术的研究具有较大的研究意义和实用价值。本文首先对文本分类关键技术进行研究分析,在此基础上对特征提取方法进行了重点研究,提出了新特征提取方法,并利用新特征提取方法设计开发了一个中文文本分类系统,实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下:①分析了对文本分类过程及关键技术,研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后,发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰,本文提出一个基于类别正相关和类别强相关的特征提取方法SP (Strong Correlation and Positive Correlation,正相关与强相关),S P方法通过优先选择正相关特征和强相关特征,有效地减少了负相关特征和弱相关特征的干扰,从而保证高质量文本特征的提取。②设计与实现了一个中文文本分类系统,把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计,分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene,并将二者结合作为中文文本分类系统搭建解决方案,最终实现了中文文本分类系统。③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,在中文文本分类中表现出良好的特征提取效果,反映了类别间的差异度。
|
全文目录
摘要 3-4 ABSTRACT 4-7 1 绪论 7-12 1.1 研究背景及意义 7-8 1.2 国内外研究现状 8-10 1.3 本文主要研究内容 10 1.4 本文的组织结构 10-12 2 文本分类的相关技术 12-30 2.1 文本分类概述 12 2.2 文本预处理 12-17 2.2.1 中文分词 13-16 2.2.2 停用词删除 16-17 2.2.3 词条选择 17 2.3 文本表示模型 17-19 2.4 文本特征降维 19-23 2.4.1 文本特征析取 19 2.4.2 文本特征提取 19-23 2.5 文本特征加权 23-24 2.6 文本分类算法 24-26 2.6.1 K 近邻 24-25 2.6.2 朴素贝叶斯 25-26 2.6.3 支持向量机 26 2.7 分类器性能评价 26-30 2.7.1 评价方法 26-27 2.7.2 评价指标 27-30 3 基于类别相关的新文本特征提取方法 30-38 3.1 文本特征提取的过程 30-31 3.2 常用的特征提取方法 31-33 3.2.1 文本频数 31 3.2.2 信息增益 31-33 3.2.3 互信息 33 3.2.4 x~2 统计 33 3.3 基于类别相关的新文本特征提取方法 33-37 3.3.1 特征与类别的相关性 34-35 3.3.2 特征与类别的相关度 35 3.3.3 SP 文本特征提取方法 35-37 3.4 本章小结 37-38 4 中文文本分类系统的设计与实现 38-62 4.1 中文文本分类系统的总体设计 38-49 4.1.1 系统需求 38-39 4.1.2 开发平台 39-40 4.1.3 系统关键问题解决方案 40-47 4.1.4 系统整体设计 47-49 4.2 中文文本分类系统模块设计 49-55 4.2.1 文本预处理模块设计 49-51 4.2.2 文本特征提取模块设计 51-53 4.2.3 文本特征加权模块设计 53-54 4.2.4 文本分类及性能评价模块设计 54-55 4.3 中文文本分类系统的实现 55-61 4.3.1 文本预处理模块实现 55-57 4.3.2 文本特征提取模块实现 57-59 4.3.3 文本特征加权模块实现 59-60 4.3.4 文本分类及性能评价模块实现 60-61 4.4 本章小结 61-62 5 实验结果分析 62-69 5.1 实验介绍 62-63 5.1.1 实验数据集 62-63 5.1.2 实验参数设定 63 5.2 实验结果及分析 63-68 5.3 本章小结 68-69 6 总结与展望 69-71 6.1 研究总结 69 6.2 下一步工作 69-71 致谢 71-72 参考文献 72-75 附录 75
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|