学位论文 > 优秀研究生学位论文题录展示
中文文本分类方法研究
作 者: 陈雅芳
导 师: 徐从富
学 校: 浙江大学
专 业: 计算机软件与理论
关键词: 中文文本分类 中文分词 N-gram Base64编码 特征选择 权重计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 132次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息技术日益发展、电子文本信息迅速膨胀的今天,文本分类作为组织和处理大量文本数据的关键技术,越来越受到人们的关注。本文研究了文本分类的相关技术,包括文本预处理技术、文本表示模型、特征选择方法、特征权重计算方法和常用的文本分类算法。在预处理阶段,为了解决传统中文文本分类在分词时引起的耗时、准确率不高等问题,去除分词所需的额外的词典信息,本文提出了一种新的文本预处理方法:使用Base64编码预处理中文文本,将其转化为英文字母和数字组成的字符串,然后使用N-gram产生特征项的方法。实验结果表明,这种方法无论在分类准确率、召回率、F1值还是时间消耗上,都比传统的基于中文分词器的文本分类方法更好。在文本表示阶段,使用目前广泛使用的向量空间模型来表示文本。同时研究了特征项在文本分类中的作用,对本文的N-gram特征和中文词特征进行了比较。通过实验对比,4-gram特征表示文本能够得到最好的分类性能。在将文本特征项集合转化为数值形式的特征向量时,对几种不同的权重计算方法进行了研究和比较。文本分类的一个重要环节就是对高维的特征空间进行降维,从而选择出最能代表文本的特征集合。因而在特征选择阶段,针对基于英文字符4-gram特征产生的高维空间,研究了不同的特征选择方法选择特征的有效性。在系统实现阶段,本文提出并实现了一个基于Base64编码的中文文本分类系统,该系统由预处理模块、特征选择模块和分类评估模块组成。通过在复旦大学语料库上进行分类实验,验证了本文预处理方法的有效性和可行性。
|
全文目录
摘要 3-4 Abstract 4-11 第1章 绪论 11-18 1.1 研究背景及意义 11-13 1.1.1 研究背景 11 1.1.2 研究意义 11-13 1.2 国内外研究现状 13-16 1.2.1 国外研究现状 13-15 1.2.2 国内研究现状 15-16 1.3 本文工作 16-18 1.3.1 本文的研究内容 16 1.3.2 本文的组织结构 16-18 第2章 文本分类技术 18-36 2.1 文本分类概述 18-20 2.1.1 文本分类的定义 18 2.1.2 文本分类的发展过程 18-19 2.1.3 文本分类的基本流程 19-20 2.2 文本预处理 20-22 2.2.1 文本格式标记的处理 20 2.2.2 文本分词 20-21 2.2.3 去除停用词(stop words)和词干化(stemming) 21-22 2.3 文本表示模型 22-24 2.3.1 布尔模型 22 2.3.2 概率模型 22-23 2.3.3 向量空间模型 23-24 2.4 特征选择方法 24-27 2.4.1 文档频率 24-25 2.4.2 信息增益 25 2.4.3 互信息 25-26 2.4.4 χ~2统计 26-27 2.5 常用文本分类算法 27-35 2.5.1 决策树(Decision Tree)算法 27-28 2.5.2 K近邻(K-Nearest Neighbor)算法 28 2.5.3 Rocchio算法 28-29 2.5.4 朴素贝叶斯(Naive Bayes)算法 29-30 2.5.5 支持向量机(Support Vector Machine)算法 30-35 2.6 本章小结 35-36 第3章 基于编码的向量空间模型 36-45 3.1 常用的文本特征权重表示方法 36-39 3.1.1 布尔权重(Binary Feature) 36-37 3.1.2 词频(Term Frequency) 37 3.1.3 IDF(Inverse Document Frequency) 37-38 3.1.4 TFIDF权重 38-39 3.2 基于编码的文本预处理方法 39-44 3.2.1 Base64编码 39-41 3.2.2 N-gram分词方法 41-43 3.2.3 构建向量空间模型 43-44 3.3 本章小结 44-45 第4章 基于编码的中文文本分类方法 45-52 4.1 传统的中文文本分类方法 45-48 4.1.1 系统框架 45-46 4.1.2 分词模块 46-48 4.2 基于编码的中文文本分类方法 48-51 4.2.1 系统框架 48-49 4.2.2 预处理模块 49-50 4.2.3 特征选择模块 50-51 4.2.4 分类模块 51 4.3 本章小结 51-52 第5章 实验结果与比较 52-62 5.1 评测指标 52-53 5.2 实验数据 53-54 5.3 实验结果 54-61 5.3.1 基于Base64编码的文本分类效果 55-59 5.3.2 与中文分词器方法的比较 59-61 5.4 本章小结 61-62 第6章 总结和展望 62-64 6.1 总结 62-63 6.2 展望 63-64 参考文献 64-69 攻读硕士学位期间主要的研究成果 69-71 致谢 71
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 近似字符串匹配研究及其在URL检测中的应用,TP393.08
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 面向Web的中文自动文摘生成的研究,TP391.1
- 中国民族音乐特征提取与分类技术的研究,J607
- 企业邮件监管系统的设计与实现,TP393.098
- 随机森林特征选择,TP311.13
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|