学位论文 > 优秀研究生学位论文题录展示

结合本体HowNet的中文文本分类研究

作 者: 付玲玲
导 师: 熊忠阳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 文本分类 特征选择 本体 HowNet
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 57次
引 用: 1次
阅 读: 论文下载
 

内容摘要


互联网技术和信息技术的迅速发展不但使得网络上的电子文本数量急剧增加而且改变了人们获取信息的方式。如何对这样数量庞大的电子文本进行有效的组织管理以方便人们快速、准确而全面地获取潜在的、有价值的知识和信息是信息处理技术的一项重要课题。文本分类技术作为解决这一问题的关键技术之一,已经成为信息技术领域的主要研究方法。同时,作为信息检索、信息推送和信息过滤等领域的基础技术,文本分类有着重要的学术价值和广泛的应用前景。对高维特征集合进行降维,是文本分类的关键技术之一。进行特征降维的目的是:通过有效的选择方法留下那些最具有类别区分能力的特征项,构成能够表现文本内容的最优特征子集。现有的基于词频统计思想的特征选择方法存在的问题包括:一是忽略了特征项本身的语义信息,即它和类别之间的语义联系;二是特征项之间存在语义冗余;三是语义冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。在分析现有特征降维的思想和方法的基础上,本文重点探讨结合本体的特征降维方法。本体是对某个领域知识的系统描述,描述对象包括概念以及概念之间的关系。因此,把本体引入到文本分类的研究中,可以解决传统的文本表示模型和特征选择方法所存在的语义问题。在学习和研究中文本体HowNet的基础上,本文提出一种基于概念映射的二次特征降维方法。先利用传统的效果较好的特征选择方法选出一个候选特征集合,再利用HowNet对候选特征进行概念映射操作,最后进行第二次特征选择得到最终的特征子集。这样既保持了向量空间模型在文本形式化及数学计算方面的优势,又使选出的特征项尽可能携带语义信息并在一定程度上消除特征项之间的语义冗余,从而更符合特征选择的初衷----选出能表现文本内容的最优特征子集。因此,本文提出的特征选择方式并不是针对某一种具体的特征选择方法所做的改进,而是就特征选择这一问题本身进行的一些探索。最后,在中文文本分类实验平台上通过多组对比实验来考察本文提出的基于概念映射的二次特征降维方法的有效性。采用查全率、查准率和F1值等指标分析实验数据。结果表明本文提出的二次特征降维方法的效果优于传统的特征选择方法。

全文目录


中文摘要  3-4
英文摘要  4-8
1 绪论  8-12
  1.1 文本分类的研究背景及意义  8-9
  1.2 文本分类的研究现状  9-10
  1.3 本文的研究内容及组织结构  10-12
2 文本分类相关技术  12-26
  2.1 序言  12
  2.2 文本分类的定义  12-13
  2.3 文本预处理  13
  2.4 文本表示模型  13-14
  2.5 分词、去停用词  14-15
  2.6 特征降维  15-17
    2.6.1 特征选择  15-16
    2.6.2 特征抽取  16-17
  2.7 特征加权  17-18
    2.7.1 布尔权重  17
    2.7.2 TF 权重  17-18
    2.7.3 IDF 权重  18
    2.7.4 TF-IDF 权重  18
  2.8 分类算法  18-23
    2.8.1 朴素贝叶斯算法  19
    2.8.2 向量空间距离测度分类算法  19
    2.8.3 最邻近分类算法  19-20
    2.8.4 支持向量机方法  20
    2.8.5 决策树分类方法  20-22
    2.8.6 类中心分类法  22
    2.8.7 组合分类法  22-23
  2.9 文本分类系统的评价指标  23-25
  2.10 小结  25-26
3 本体概述  26-31
  3.1 序言  26
  3.2 本体的定义  26-27
  3.3 本体的构成  27
  3.4 本体分类  27-28
  3.5 HowNet 简介  28-30
  3.6 小结  30-31
4 基于概念映射的二次特征降维方法  31-37
  4.1 引言  31
  4.2 特征降维的主要方式及存在的问题  31-32
  4.3 基于HowNet 构建概念映射表  32-34
  4.4 基于概念映射的二次特征降维方法  34-35
    4.4.1 初次特征降维  34
    4.4.2 概念映射  34-35
    4.4.3 第二次特征降维  35
  4.5 改进生成文本向量的方式  35-36
  4.6 小结  36-37
5 实验方法及结果分析  37-46
  5.1 实验数据  37
  5.2 文本分类系统  37
  5.3 实验方案  37-44
    5.3.1 构建概念映射表  37-38
    5.3.2 “基于概念映射的二次特征降维方法”的处理过程  38-42
    5.3.3 在大规模语料库上实验基于概念映射的二次特征降维方法  42-44
  5.4 实验结果分析  44-46
6 总结与展望  46-48
  6.1 本文总结  46-47
  6.2 进一步的工作  47-48
致谢  48-49
参考文献  49-52
附录  52
  A 作者在攻读硕士学位期间发表的论文目录  52
  B 作者在攻读硕士学位期间参与的科研项目  52

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 哲学思想在指导中学数学教学中的作用,G633.6
  5. 语音情感识别的特征选择与特征产生,TP18
  6. 基于本体的语义检索研究,TP391.3
  7. 不同人群本体感觉差异性比较及脑机制研究,B845
  8. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  9. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  10. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  11. WordNet和《中国分类主题词表》的映射研究,G254
  12. 拉图尔的行动者网络理论研究,N02
  13. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  14. 基于数据分布特征的文本分类研究,TP391.1
  15. 220kV输电线路除冰机器人机械本体研究,TP242
  16. 基于本体的食品投诉文档文本聚类研究,TP391.1
  17. 关系数据库到RDF(S)映射方法的研究,TP311.13
  18. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  19. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  20. 基于语义的Web服务发现研究,TP393.09
  21. 本体在智能小区中的应用研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com