学位论文 > 优秀研究生学位论文题录展示

中文文本分类方法研究

作 者: 陈雅芳
导 师: 徐从富
学 校: 浙江大学
专 业: 计算机软件与理论
关键词: 中文文本分类 中文分词 N-gram Base64编码 特征选择 权重计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 132次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在信息技术日益发展、电子文本信息迅速膨胀的今天,文本分类作为组织和处理大量文本数据的关键技术,越来越受到人们的关注。本文研究了文本分类的相关技术,包括文本预处理技术、文本表示模型、特征选择方法、特征权重计算方法和常用的文本分类算法。在预处理阶段,为了解决传统中文文本分类在分词时引起的耗时、准确率不高等问题,去除分词所需的额外的词典信息,本文提出了一种新的文本预处理方法:使用Base64编码预处理中文文本,将其转化为英文字母和数字组成的字符串,然后使用N-gram产生特征项的方法。实验结果表明,这种方法无论在分类准确率、召回率、F1值还是时间消耗上,都比传统的基于中文分词器的文本分类方法更好。在文本表示阶段,使用目前广泛使用的向量空间模型来表示文本。同时研究了特征项在文本分类中的作用,对本文的N-gram特征和中文词特征进行了比较。通过实验对比,4-gram特征表示文本能够得到最好的分类性能。在将文本特征项集合转化为数值形式的特征向量时,对几种不同的权重计算方法进行了研究和比较。文本分类的一个重要环节就是对高维的特征空间进行降维,从而选择出最能代表文本的特征集合。因而在特征选择阶段,针对基于英文字符4-gram特征产生的高维空间,研究了不同的特征选择方法选择特征的有效性。在系统实现阶段,本文提出并实现了一个基于Base64编码的中文文本分类系统,该系统由预处理模块、特征选择模块和分类评估模块组成。通过在复旦大学语料库上进行分类实验,验证了本文预处理方法的有效性和可行性。

全文目录


摘要  3-4
Abstract  4-11
第1章 绪论  11-18
  1.1 研究背景及意义  11-13
    1.1.1 研究背景  11
    1.1.2 研究意义  11-13
  1.2 国内外研究现状  13-16
    1.2.1 国外研究现状  13-15
    1.2.2 国内研究现状  15-16
  1.3 本文工作  16-18
    1.3.1 本文的研究内容  16
    1.3.2 本文的组织结构  16-18
第2章 文本分类技术  18-36
  2.1 文本分类概述  18-20
    2.1.1 文本分类的定义  18
    2.1.2 文本分类的发展过程  18-19
    2.1.3 文本分类的基本流程  19-20
  2.2 文本预处理  20-22
    2.2.1 文本格式标记的处理  20
    2.2.2 文本分词  20-21
    2.2.3 去除停用词(stop words)和词干化(stemming)  21-22
  2.3 文本表示模型  22-24
    2.3.1 布尔模型  22
    2.3.2 概率模型  22-23
    2.3.3 向量空间模型  23-24
  2.4 特征选择方法  24-27
    2.4.1 文档频率  24-25
    2.4.2 信息增益  25
    2.4.3 互信息  25-26
    2.4.4 χ~2统计  26-27
  2.5 常用文本分类算法  27-35
    2.5.1 决策树(Decision Tree)算法  27-28
    2.5.2 K近邻(K-Nearest Neighbor)算法  28
    2.5.3 Rocchio算法  28-29
    2.5.4 朴素贝叶斯(Naive Bayes)算法  29-30
    2.5.5 支持向量机(Support Vector Machine)算法  30-35
  2.6 本章小结  35-36
第3章 基于编码的向量空间模型  36-45
  3.1 常用的文本特征权重表示方法  36-39
    3.1.1 布尔权重(Binary Feature)  36-37
    3.1.2 词频(Term Frequency)  37
    3.1.3 IDF(Inverse Document Frequency)  37-38
    3.1.4 TFIDF权重  38-39
  3.2 基于编码的文本预处理方法  39-44
    3.2.1 Base64编码  39-41
    3.2.2 N-gram分词方法  41-43
    3.2.3 构建向量空间模型  43-44
  3.3 本章小结  44-45
第4章 基于编码的中文文本分类方法  45-52
  4.1 传统的中文文本分类方法  45-48
    4.1.1 系统框架  45-46
    4.1.2 分词模块  46-48
  4.2 基于编码的中文文本分类方法  48-51
    4.2.1 系统框架  48-49
    4.2.2 预处理模块  49-50
    4.2.3 特征选择模块  50-51
    4.2.4 分类模块  51
  4.3 本章小结  51-52
第5章 实验结果与比较  52-62
  5.1 评测指标  52-53
  5.2 实验数据  53-54
  5.3 实验结果  54-61
    5.3.1 基于Base64编码的文本分类效果  55-59
    5.3.2 与中文分词器方法的比较  59-61
  5.4 本章小结  61-62
第6章 总结和展望  62-64
  6.1 总结  62-63
  6.2 展望  63-64
参考文献  64-69
攻读硕士学位期间主要的研究成果  69-71
致谢  71

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  6. 基于AdaBoost算法的人脸识别研究,TP391.41
  7. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  8. 近似字符串匹配研究及其在URL检测中的应用,TP393.08
  9. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  10. 主观题自动评分技术研究,TP391.1
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 中文XML压缩技术研究,TP311.11
  13. 基于群体智能的医学图像特征优化算法研究,TP391.41
  14. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  15. 流形学习的方差最小化准则,TP181
  16. 掌纹主线特征选择方法及成像系统研究,TP391.41
  17. 面向Web的中文自动文摘生成的研究,TP391.1
  18. 中国民族音乐特征提取与分类技术的研究,J607
  19. 企业邮件监管系统的设计与实现,TP393.098
  20. 随机森林特征选择,TP311.13
  21. 面向概念查询的生物医学多文档摘要技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com