学位论文 > 优秀研究生学位论文题录展示
网络舆情分析中文本分类和聚类的研究
作 者: 翟琳琳
导 师: 郑秋生
学 校: 中原工学院
专 业: 计算机应用技术
关键词: 网络舆情分析 短文本分类 文本聚类 简单向量距离 K近邻
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 12次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的普及应用,互联网已经成为影响人们工作和生活的一种新媒介。越来越多的人们更愿意通过互联网提供的各种平台表达个人情感、表达自己对国际形势、政府政策以及社会事件等的态度和观点。因此,互联网已经是舆情传播主要媒介。为了防止网络舆情对社会治安造成负面影响,必须及时掌握网络舆情动态,并适时加以导控。在对网络舆情进行分析过程中,文本分类和文本聚类是自然语言处理中两种重要的技术。网络上的文本数据中短文本的数量相当大,因此,研究短文本分类和聚类很有必要。目前,对长文本分类的研究很多,但是专门针对短文本分类的研究很少,也没有真正适合短文本分类的算法。针对以上问题,本文首先介绍了文本分类和聚类以及短文本分类的研究现状,分析文本分类和聚类的流程,挖掘其关键技术,并对文本聚类算法做了测试。其次,基于对长文本分类的研究,提出利用长文本语料库作为训练集,形成“词典”,并对特征项权重计算公式TF-IDF做了改进。然后,将改进的简单向量距离算法(Rocchio)和改进K最近邻居分类算法(KNN)相结合形成新算法,利用该算法对短文本实现分类。最后,为了能够将改进的短文本分类算法投入应用,本文对新算法做了测试,并设计了网络舆情分析系统,给出了信息采集模块、短文本分类和文本聚类模块的流程设计。
|
全文目录
摘要 4-5 Abstract 5-7 目录 7-9 1.引言 9-19 1.1 研究背景 9-11 1.2 国内外研究现状 11-15 1.2.1 舆情相关理论研究现状 11-12 1.2.2 文本自动分类研究现状 12-13 1.2.3 文本聚类研究现状 13-15 1.3 短文本分类研究意义 15-16 1.4 短文本分类研究现状 16-17 1.5 论文研究内容 17-18 1.6 本论文组织结构 18-19 2.文本分类和文本聚类 19-32 2.1 文本分类 19-25 2.1.1 文本分类概念及算法介绍 19-25 2.1.2 文本分类性能评估 25 2.2 文本聚类 25-31 2.2.1 文本聚类理论 25-26 2.2.2 文本聚类过程 26-28 2.2.3 文本聚类评价标准 28 2.2.4 文本聚类的应用 28-29 2.2.5 算法测试及分析 29-31 2.3 本章小结 31-32 3.短文本自动分类相关理论 32-42 3.1 短文本应用 32-35 3.2 短文本特点 35-36 3.3 短文本分类相关技术 36-40 3.3.1 文本预处理 36-38 3.3.2 文本特征表示 38-39 3.3.3 特征提取 39-40 3.3.4 分类模型 40 3.3.5 评估模型 40 3.4 本章小结 40-42 4.基于 ROCCHIO 与 KNN 算法的短文本分类和聚类 42-51 4.1 存在问题 42 4.2 基于改进Rocchio与KNN算法的短文本分类 42-46 4.2.1 模糊分类 42-45 4.2.2 确定分类 45-46 4.3 测试结果与分析 46-50 4.4 本章小结 50-51 5. 网络舆情分析系统设计 51-58 5.1 系统功能概述 51 5.2 系统架构 51-52 5.3 系统设计 52-53 5.4 关键技术 53-54 5.4.1 自动信息采集技术 53 5.4.2 热点发现与跟踪技术 53 5.4.3 自动摘要技术 53 5.4.4 文本倾向性分析技术 53-54 5.4.5 文本自动分类技术 54 5.4.6 文本自动聚类技术 54 5.5 子系统设计框架 54-57 5.5.1 信息采集系统设计 54-55 5.5.2 舆情分析系统设计 55-57 5.6 本章小结 57-58 6.总结与展望 58-59 参考文献 59-62 附录:攻读学位期间发表的学术论文及参与项目 62-63 致谢 63-64
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 三峡水库入库径流中长期预报模型研究及系统开发与应用,P338
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 膜蛋白跨膜螺旋结构预测研究,Q51
- 新闻视频故事单元分割,TP391.41
- 面向设计重用的设计资源动态调度技术及应用研究,TB47
- 基于回波包络特征的超声波入侵探测方法研究,TP274.53
- 企业经营范围字段自动分类方法研究,TP391.1
- 煤矿井巷掘进中深孔爆破智能库设计,TD235.33
- 深基坑与近邻轻轨高架桥基础相互影响研究,TU473.2
- 基于多阶段聚类支持向量机在入侵检测中的研究与实现,TP393.08
- 弧焊机器人关键零件的有限元分析和结构可靠性的研究,TP242.2
- 网络舆情分析关键技术的研究与实现,TP393.09
- KNNModel算法的改进及其应用,TP311.13
- 基于图割理论的肿瘤图像分割算法研究,TP391.41
- 相邻权行使的限制,D923.2
- 基于支持向量机的空中目标识别技术研究,TN953
- 高分辨率SAR图像目标分类特征提取与分析,TN957.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|