学位论文 > 优秀研究生学位论文题录展示
基于语义分析的文本挖掘研究
作 者: 陆洋
导 师: 刘端阳
学 校: 浙江工业大学
专 业: 计算机应用技术
关键词: 文本分类 语义分析 特征提取 有指导方法 特征加权
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 147次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的不断发展,以电子形式存储的文本开始泛滥,很多人们需要的信息往往被大量的垃圾信息所淹没,如何自动地从这些文本中挖掘出有用的信息将成为一个重要的课题。中文作为使用最多的语言之一,其文本挖掘就非常重要。文本分类作为文本挖掘中的一个重要分支,其步骤为:训练样本的选取、文本表示、特征提取、构造分类器、验证分类器性能。传统的文本挖掘方法是一种基于统计的方法,它以词频作为分类结果的主要影响因素,而不考虑词序、词义等更多的语义信息,在加权阶段采用了无指导的特征加权方法,没有充分利用已带类标签的训练数据。相对于基于统计的文本挖掘方法,基于语义分析的方法能考虑更多的文本信息,从而大大提高文本挖掘的性能。语义分析主要集中在特征提取这个处理步骤中,采用词典这种基于外部语义知识的方法对文本挖掘有着很大的帮助。为此提出了一种基于语义分析的特征提取方法以及针对加权步骤提出了一种改进的有指导的加权方法:1.基于《同义词语林》的文本特征提取:基于《同义词语林》的文本特征提取是一种基于语义分析的文本处理方法。中文的语料库相对较少且杂乱,能够拿来研究使用的也只有《同义词词林》,并且在此基础上也没有一个系统的文本分类方法。针对以上问题,提出一个完整的基于语义的文本处理方法,该方法利用了《同义词语林》编码的特性,对文本分别作了多义词消歧、同义词替换和搭配词组合的处理。2.改进的有指导的特征加权方法:传统无指导的加权方法并没有充分利用分类数据的特性,无法反映词在各个类别之间的比例关系。本文通过分析一种有指导的文本特征加权方法,虽然该方法克服了传统加权方法的缺点,却没有考虑词在整体本档之间的关系。针对以上问题,提出一种改进的基于指导的文本特征加权方法,实现了词在总体文档及各类别文档之间的综合考虑。对上述两种方法分别进行实验,结果表明,基于《同义词语林》的文本特征选择方法有效地降低了文本特征向量的维度,且两种方法都有效地提高了文本分类的精度。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-15 1.1 研究背景 10-11 1.2 研究现状 11-12 1.3 研究方向及内容安排 12-15 第二章 文本分类的理论和技术 15-26 2.1 文本分类概述 15-16 2.2 文本的表示 16-18 2.2.1 文本表示模型 16-17 2.2.2 中文分词 17-18 2.3 文本特征的提取 18-22 2.3.1 特征词的文本频率 19 2.3.2 信息增益方法 19-20 2.3.3 互信息方法 20-21 2.3.4 CHI 统计 21-22 2.4 常用的分类算法介绍 22-24 2.4.1 K-近邻法 22 2.4.2 朴素贝叶斯法 22-23 2.4.3 神经网络方法 23-24 2.4.4 支持向量机法 24 2.5 本章小结 24-26 第三章 基于语义的文本分类方法 26-40 3.1 潜在语义分析 26-30 3.1.1 潜在语义分析的背景与发展 27 3.1.2 潜在语义分析的基本原理 27-29 3.1.3 潜在语义分析的特点 29-30 3.2 外部语义知识 30-35 3.2.1 WordNet 30-32 3.2.2 HowNet 32-34 3.2.3 同义词语林 34-35 3.3 基于《同义词语林》的特征提取 35-39 3.3.1 “=”类的同义词替换 35-38 3.3.2 “#”类的近义词组合 38-39 3.4 本章小结 39-40 第四章 有指导的文本特征加权方法 40-48 4.1 特征加权方法 40-42 4.1.1 传统的特征加权方法 40-41 4.1.2 有指导的特征加权方法 41-42 4.2 特征加权方法的比较 42-44 4.3 本文提出的特征加权方法 44-47 4.3.1 一种新的特征加权方法 44-45 4.3.2 改进的有指导的特征加权方法 45-47 4.4 本章小结 47-48 第五章 实验及结果分析 48-55 5.1 实验数据构造 48-49 5.2 分词系统 49 5.3 LIBSVM 分类器 49-50 5.4 实验数据及分析 50-54 5.4.1 基于《同义词语林》的特征提取 51-52 5.4.2 改进的特征加权 52-54 5.5 本章总结 54-55 第六章 总结与展望 55-57 6.1 主要工作及创新点 55-56 6.2 今后工作展望 56-57 参考文献 57-60 致谢 60-61 攻读学位期间参加的科研项目和成果 61
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|