学位论文 > 优秀研究生学位论文题录展示

网络舆情分析中文本分类和聚类的研究

作 者: 翟琳琳
导 师: 郑秋生
学 校: 中原工学院
专 业: 计算机应用技术
关键词: 网络舆情分析 短文本分类 文本聚类 简单向量距离 K近邻
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的普及应用,互联网已经成为影响人们工作和生活的一种新媒介。越来越多的人们更愿意通过互联网提供的各种平台表达个人情感、表达自己对国际形势、政府政策以及社会事件等的态度和观点。因此,互联网已经是舆情传播主要媒介。为了防止网络舆情对社会治安造成负面影响,必须及时掌握网络舆情动态,并适时加以导控。在对网络舆情进行分析过程中,文本分类和文本聚类是自然语言处理中两种重要的技术。网络上的文本数据中短文本的数量相当大,因此,研究短文本分类和聚类很有必要。目前,对长文本分类的研究很多,但是专门针对短文本分类的研究很少,也没有真正适合短文本分类的算法。针对以上问题,本文首先介绍了文本分类和聚类以及短文本分类的研究现状,分析文本分类和聚类的流程,挖掘其关键技术,并对文本聚类算法做了测试。其次,基于对长文本分类的研究,提出利用长文本语料库作为训练集,形成“词典”,并对特征项权重计算公式TF-IDF做了改进。然后,将改进的简单向量距离算法(Rocchio)和改进K最近邻居分类算法(KNN)相结合形成新算法,利用该算法对短文本实现分类。最后,为了能够将改进的短文本分类算法投入应用,本文对新算法做了测试,并设计了网络舆情分析系统,给出了信息采集模块、短文本分类和文本聚类模块的流程设计。

全文目录


摘要  4-5
Abstract  5-7
目录  7-9
1.引言  9-19
  1.1 研究背景  9-11
  1.2 国内外研究现状  11-15
    1.2.1 舆情相关理论研究现状  11-12
    1.2.2 文本自动分类研究现状  12-13
    1.2.3 文本聚类研究现状  13-15
  1.3 短文本分类研究意义  15-16
  1.4 短文本分类研究现状  16-17
  1.5 论文研究内容  17-18
  1.6 本论文组织结构  18-19
2.文本分类和文本聚类  19-32
  2.1 文本分类  19-25
    2.1.1 文本分类概念及算法介绍  19-25
    2.1.2 文本分类性能评估  25
  2.2 文本聚类  25-31
    2.2.1 文本聚类理论  25-26
    2.2.2 文本聚类过程  26-28
    2.2.3 文本聚类评价标准  28
    2.2.4 文本聚类的应用  28-29
    2.2.5 算法测试及分析  29-31
  2.3 本章小结  31-32
3.短文本自动分类相关理论  32-42
  3.1 短文本应用  32-35
  3.2 短文本特点  35-36
  3.3 短文本分类相关技术  36-40
    3.3.1 文本预处理  36-38
    3.3.2 文本特征表示  38-39
    3.3.3 特征提取  39-40
    3.3.4 分类模型  40
    3.3.5 评估模型  40
  3.4 本章小结  40-42
4.基于 ROCCHIO 与 KNN 算法的短文本分类和聚类  42-51
  4.1 存在问题  42
  4.2 基于改进Rocchio与KNN算法的短文本分类  42-46
    4.2.1 模糊分类  42-45
    4.2.2 确定分类  45-46
  4.3 测试结果与分析  46-50
  4.4 本章小结  50-51
5. 网络舆情分析系统设计  51-58
  5.1 系统功能概述  51
  5.2 系统架构  51-52
  5.3 系统设计  52-53
  5.4 关键技术  53-54
    5.4.1 自动信息采集技术  53
    5.4.2 热点发现与跟踪技术  53
    5.4.3 自动摘要技术  53
    5.4.4 文本倾向性分析技术  53-54
    5.4.5 文本自动分类技术  54
    5.4.6 文本自动聚类技术  54
  5.5 子系统设计框架  54-57
    5.5.1 信息采集系统设计  54-55
    5.5.2 舆情分析系统设计  55-57
  5.6 本章小结  57-58
6.总结与展望  58-59
参考文献  59-62
附录:攻读学位期间发表的学术论文及参与项目  62-63
致谢  63-64

相似论文

  1. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 演化聚类算法及其应用研究,TP311.13
  4. 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
  5. 三峡水库入库径流中长期预报模型研究及系统开发与应用,P338
  6. 面向主题型的网页分类技术的研究与实现,TP393.092
  7. 膜蛋白跨膜螺旋结构预测研究,Q51
  8. 新闻视频故事单元分割,TP391.41
  9. 面向设计重用的设计资源动态调度技术及应用研究,TB47
  10. 基于回波包络特征的超声波入侵探测方法研究,TP274.53
  11. 企业经营范围字段自动分类方法研究,TP391.1
  12. 煤矿井巷掘进中深孔爆破智能库设计,TD235.33
  13. 深基坑与近邻轻轨高架桥基础相互影响研究,TU473.2
  14. 基于多阶段聚类支持向量机在入侵检测中的研究与实现,TP393.08
  15. 弧焊机器人关键零件的有限元分析和结构可靠性的研究,TP242.2
  16. 网络舆情分析关键技术的研究与实现,TP393.09
  17. KNNModel算法的改进及其应用,TP311.13
  18. 基于图割理论的肿瘤图像分割算法研究,TP391.41
  19. 相邻权行使的限制,D923.2
  20. 基于支持向量机的空中目标识别技术研究,TN953
  21. 高分辨率SAR图像目标分类特征提取与分析,TN957.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com