学位论文 > 优秀研究生学位论文题录展示

基于聚类分析的图模型文本分类

作 者: 刘小荣
导 师: 孟海东
学 校: 内蒙古科技大学
专 业: 计算机应用技术
关键词: 特征聚类 图模型 文本分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 57次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着文本信息的迅猛增长,信息处理已经成为人们获取知识不可缺少的工具。文本分类是信息处理的重要研究方向,它有效地提高了信息服务质量,使用户更加容易、准确地定位所需的信息,并被广泛应用于文本处理和信息检索的各个领域。文本分类是一个复杂的过程,包括文本预处理、文本特征提取、文本表示、文本分类算法设计与性能评估等主要步骤。本文对文本分类所涉及的关键技术进行了深入的研究和探讨。目前,一些比较成熟的文本分类算法已经被应用于文本分类中,但它们大都是基于向量空间模型的,文本向量的维数相当大,甚至可以达到几万维。本文首先通过χ2统计进行初步的特征筛选,然后根据特征项在各个类别中的分布情况,提出了一种基于χ2统计的特征聚类算法,将具有相同分布的特征构成概念簇,降低了特征维数,解决了特征空间的高维性与文本向量稀疏性之间的矛盾。针对传统向量空间模型中孤立处理特征项问题,本文又使用图模型建立了特征项之间的关联信息,在一定程度上解决了关联特征提取和向量空间维数高的问题。最后,在充分考虑了特征降维和消除歧义的基础上,运用KNN方法对基于特征聚类的图模型进行文本分类。该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数。该算法提高了分类的准确率和召回率。

全文目录


相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 基于粗糙集理论的文本分类研究,TP18
  5. 集合多标签文本分类研究,TP391.1
  6. 基于Hadoop的文本分类研究,TP391.1
  7. 中文文本分类算法研究,TP391.1
  8. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  9. 面向Web文本的数据清洗关键技术的研究与实现,TP391.1
  10. 基于RS-SVM的Web中文文本自动分类研究,TP391.1
  11. 一种新的基于特征聚类的网络motif识别算法,TP391.41
  12. 基于SIFT的车载导航图像匹配方法,TP391.41
  13. 基于Android的垃圾短信处理系统的研究与设计,TP391.1
  14. 基于语义分析的文本挖掘研究,TP391.1
  15. 基于区域的图像语义自动标注方法研究,TP391.41
  16. 基于统计与图模型的若干机器学习算法及其应用,TP181
  17. 中国农村居民消费特征及影响因素实证分析,F323.8
  18. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  19. 跨语言文本分类的研究,TP391.1
  20. 基于Brushlet变换的图像检索技术研究,TP391.41
  21. 基于概率图模型的态势估计,E917

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com