学位论文 > 优秀研究生学位论文题录展示

基于知网的文本分类算法研究及应用

作　者: 王贤川
导　师: 施化吉
学　校: 江苏大学
专　业: 计算机应用技术
关键词: 文本分类知网词义消歧概念特征语义相似度
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 236次
引　用: 6次
阅　读: 论文下载

内容摘要

随着互联网的飞速发展,网络上的文本信息资源日趋丰富,互联网已经成为世界上最为巨大的信息仓库,也逐步成为公安机关新的重要公开情报源。然而面对浩如烟海的文本数据,公安机关不可能简单依靠人工去分析,文本分类是对文档信息进行自动的有序组织的方法,能够大大提高公安人员的工作效率,但传统的文本分类算法存在高维稀疏、多义词和忽略词语间语义上的联系等不足,不能满足现有公安情报分析工作的需求,在此背景下本文对文本分类算法进行了研究,并将研究成果应用到某省的实际公安情报项目中。本文首先介绍了文本分类的定义、一般过程和常用算法,总结了当前的研究现状;其次,为了更为准确地获取文本的概念特征,提出基于知网和上下文加权的词义消歧算法(HCWSD);然后,针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC)。最后,将HCWSD算法和HOTC算法应用于公安情报项目的分类系统中。本文的主要研究内容如下:(1)提出基于知网和上下文加权的词义消歧算法(HCWSD),该算法借助知网词典将歧义词的义项与其上下文语境词确定的词义计算加权的语义相关度来对歧义词进行实时消歧无需语料库训练,克服了传统算法未考虑上下文距离对相关度计算的影响和计算存在不合理性等缺点。(2)提出基于知网和统计的概念相似度计算方法,该方法充分利用了知网词典和数据集的统计信息,克服了传统方法未考虑在不同数据集中词语相似度计算的不同的缺点。提出文本语义相似度的修正公式,克服了传统公式计算量大和计算不全面的不足。(3)针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC),该算法首先利用提出的HCWSD算法对多义词进行消歧解决了多义词问题,并以消歧的概念表示文本解决了高维稀疏问题;然后以概念相似度计算文本的语义相似度,考虑了词语间语义联系;最后根据文本语义相似度对文本进行分类。(4)将本文提出的HCWSD算法和HOTC算法应用于公安情报系统中的分类子系统中。实际应用表明,利用该系统可以取得较好的文本分类效果。

全文目录

摘要  5-6
ABSTRACT  6-10
第一章绪论  10-22
  1.1 研究背景和意义  10
  1.2 国内外研究现状  10-12
  1.3 文本分类概述  12-20
    1.3.1 文本分类的定义  12
    1.3.2 文本分类的过程  12-15
    1.3.3 文本分类的评价指标  15-18
    1.3.4 常用的文本分类算法  18-20
  1.4 论文的主要工作  20-21
  1.5 论文的组织结构  21-22
第二章基于知网和上下文加权的词义消歧算法  22-32
  2.1 相关知识  23-24
    2.1.1 知网  23
    2.1.2 歧义词的分类  23-24
  2.2 语义相关度的计算  24-25
  2.3 上下文位置权重的计算  25
  2.4 算法思想  25-26
  2.5 算法描述  26-29
  2.6 实验分析  29-31
  2.7 本章小结  31-32
第三章基于知网的语义相似度计算  32-43
  3.1 相似性  32-34
    3.1.1 语义相关性、相似性与距离的关系  32-33
    3.1.2 相似性的直觉  33-34
  3.2 词语语义相似度计算常用测量方法  34-36
    3.2.1 基于路径长度的方法  34
    3.2.2 基于深度的方法  34-35
    3.2.3 基于密度的方法  35
    3.2.4 基于信息量的方法  35
    3.2.5 综合的方法  35-36
  3.3 基于知网和统计的概念相似度计算  36-40
    3.3.1 义原距离  37-39
    3.3.2 义原相似度  39
    3.3.3 概念相似度  39-40
  3.4 文本语义相似度计算  40-42
    3.4.1 最大匹配法  40-41
    3.4.2 修正的公式  41-42
  3.5 本章小结  42-43
第四章基于知网的文本分类算法  43-51
  4.1 经典的KNN文本分类算法  44-45
    4.1.1 KNN的概念  44
    4.1.2 KNN算法思想  44-45
  4.2 基于知网的文本分类算法  45-46
    4.2.1 算法思想  45
    4.2.2 算法描述  45-46
    4.2.3 算法特点  46
  4.3 实验分析  46-50
  4.4 本章小结  50-51
第五章公安情报分类系统设计与实现  51-62
  5.1 公安情报系统项目介绍  51-54
    5.1.1 系统建设背景  51-52
    5.1.2 系统业务模型  52-53
    5.1.3 系统功能结构  53-54
  5.2 系统需求  54
  5.3 系统结构  54-55
  5.4 系统流程  55
  5.5 主要模块设计  55-58
    5.5.1 训练模块  55-57
    5.5.2 分类模块  57-58
  5.6 应用实例介绍  58-60
  5.7 系统的开发环境  60-61
  5.8 本章小结  61-62
第六章结束语  62-64
  6.1 总结  62-63
  6.2 展望  63-64
参考文献  64-68
致谢  68-69
申请学位期间的研究成果及发表的学术论文  69

基于知网的文本分类算法研究及应用

内容摘要

全文目录

相似论文