学位论文 > 优秀研究生学位论文题录展示

中文文本分类方法研究

作　者: 陈雅芳
导　师: 徐从富
学　校: 浙江大学
专　业: 计算机软件与理论
关键词: 中文文本分类中文分词 N-gram Base64编码特征选择权重计算
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 132次
引　用: 0次
阅　读: 论文下载

内容摘要

在信息技术日益发展、电子文本信息迅速膨胀的今天,文本分类作为组织和处理大量文本数据的关键技术,越来越受到人们的关注。本文研究了文本分类的相关技术,包括文本预处理技术、文本表示模型、特征选择方法、特征权重计算方法和常用的文本分类算法。在预处理阶段,为了解决传统中文文本分类在分词时引起的耗时、准确率不高等问题,去除分词所需的额外的词典信息,本文提出了一种新的文本预处理方法：使用Base64编码预处理中文文本,将其转化为英文字母和数字组成的字符串,然后使用N-gram产生特征项的方法。实验结果表明,这种方法无论在分类准确率、召回率、F1值还是时间消耗上,都比传统的基于中文分词器的文本分类方法更好。在文本表示阶段,使用目前广泛使用的向量空间模型来表示文本。同时研究了特征项在文本分类中的作用,对本文的N-gram特征和中文词特征进行了比较。通过实验对比,4-gram特征表示文本能够得到最好的分类性能。在将文本特征项集合转化为数值形式的特征向量时,对几种不同的权重计算方法进行了研究和比较。文本分类的一个重要环节就是对高维的特征空间进行降维,从而选择出最能代表文本的特征集合。因而在特征选择阶段,针对基于英文字符4-gram特征产生的高维空间,研究了不同的特征选择方法选择特征的有效性。在系统实现阶段,本文提出并实现了一个基于Base64编码的中文文本分类系统,该系统由预处理模块、特征选择模块和分类评估模块组成。通过在复旦大学语料库上进行分类实验,验证了本文预处理方法的有效性和可行性。

全文目录

摘要  3-4
Abstract  4-11
第1章绪论  11-18
  1.1 研究背景及意义  11-13
    1.1.1 研究背景  11
    1.1.2 研究意义  11-13
  1.2 国内外研究现状  13-16
    1.2.1 国外研究现状  13-15
    1.2.2 国内研究现状  15-16
  1.3 本文工作  16-18
    1.3.1 本文的研究内容  16
    1.3.2 本文的组织结构  16-18
第2章文本分类技术  18-36
  2.1 文本分类概述  18-20
    2.1.1 文本分类的定义  18
    2.1.2 文本分类的发展过程  18-19
    2.1.3 文本分类的基本流程  19-20
  2.2 文本预处理  20-22
    2.2.1 文本格式标记的处理  20
    2.2.2 文本分词  20-21
    2.2.3 去除停用词(stop words)和词干化(stemming)  21-22
  2.3 文本表示模型  22-24
    2.3.1 布尔模型  22
    2.3.2 概率模型  22-23
    2.3.3 向量空间模型  23-24
  2.4 特征选择方法  24-27
    2.4.1 文档频率  24-25
    2.4.2 信息增益  25
    2.4.3 互信息  25-26
    2.4.4 χ~2统计  26-27
  2.5 常用文本分类算法  27-35
    2.5.1 决策树(Decision Tree)算法  27-28
    2.5.2 K近邻(K-Nearest Neighbor)算法  28
    2.5.3 Rocchio算法  28-29
    2.5.4 朴素贝叶斯(Naive Bayes)算法  29-30
    2.5.5 支持向量机(Support Vector Machine)算法  30-35
  2.6 本章小结  35-36
第3章基于编码的向量空间模型  36-45
  3.1 常用的文本特征权重表示方法  36-39
    3.1.1 布尔权重(Binary Feature)  36-37
    3.1.2 词频(Term Frequency)  37
    3.1.3 IDF(Inverse Document Frequency)  37-38
    3.1.4 TFIDF权重  38-39
  3.2 基于编码的文本预处理方法  39-44
    3.2.1 Base64编码  39-41
    3.2.2 N-gram分词方法  41-43
    3.2.3 构建向量空间模型  43-44
  3.3 本章小结  44-45
第4章基于编码的中文文本分类方法  45-52
  4.1 传统的中文文本分类方法  45-48
    4.1.1 系统框架  45-46
    4.1.2 分词模块  46-48
  4.2 基于编码的中文文本分类方法  48-51
    4.2.1 系统框架  48-49
    4.2.2 预处理模块  49-50
    4.2.3 特征选择模块  50-51
    4.2.4 分类模块  51
  4.3 本章小结  51-52
第5章实验结果与比较  52-62
  5.1 评测指标  52-53
  5.2 实验数据  53-54
  5.3 实验结果  54-61
    5.3.1 基于Base64编码的文本分类效果  55-59
    5.3.2 与中文分词器方法的比较  59-61
  5.4 本章小结  61-62
第6章总结和展望  62-64
  6.1 总结  62-63
  6.2 展望  63-64
参考文献  64-69
攻读硕士学位期间主要的研究成果  69-71
致谢  71

中文文本分类方法研究

内容摘要

全文目录

相似论文