学位论文 > 优秀研究生学位论文题录展示
面向短消息文本的聚类技术研究与应用
作 者: 范骋清
导 师: 贾华丁
学 校: 西南财经大学
专 业: 计算机应用技术
关键词: 短消息文本 文本聚类 向量空间模型 后缀树模型 K-MEANS
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 50次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网通信技术的发展、现代生活节奏的加快,手机、论坛、在线聊天、微博等大量的即时交互式工具得到广泛普及和应用,也因此产生了大量的短消息文本数据。这些短文本数据蕴含了大量的知识,对这些短消息文本进行分析和挖掘,对于网络热点信息提取、舆情把握、信息理解、商品推荐等都具有重要意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,它们大多比较规范并且文本中词语多次出现的可能性很高,同一个簇中的文本在文字上都有一定的相交或者覆盖,而两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大。短消息文本自身的语言特点决定了它在自然语言处理中的处理技术与普通长文本有所不同。短消息文本最显著的特点就是文本长度很短,文本特征极其稀少,这决定了提取短消息文本的语言特征非常困难,也最终导致在后续的自然语言处理中难度大幅增加。现实中短消息文本存在交互的特点,数据量随着时间的推移不断增加,导致每次处理的数据量都异常庞大,这对短消息文本处理技术的时间效率提出了比常规文本更高的要求。短消息文本由于其来源主要是现实交流环境中,这决定了它的表达方式都极其简洁,缩略用语、不规范用语、错误拼写比较多,这给文本处理带来了很多噪声,也进一步增加了从这些干扰较多的短消息文本中提取有用信息的难度。因此,对短消息文本进行聚类处理研究具有一定的现实意义,同时也存在着极大的挑战。本文以短消息文本挖掘为背景,以短消息文本聚类相关技术为研究内容,展开了从短消息文本采集、预处理、特征提取、相似性度量到短消息文本聚类算法比较的一系列研究。由于短消息文本具有动态性、交互性、非规范性,以及大规模性等特点,这从聚类有效性、聚类算法的时间复杂度和聚类结果可理解性三个方面对短消息文本聚类提出了要求。本文针对上述要求,以提高聚类结果有效性和聚类算法的时间复杂度为主要目标,开展了一系列面向短消息文本的相关研究和探索。本文主要研究内容及成果包括以下几点:本文首先对文本聚类的相关理论和技术进行了较为广泛和深入的比较研究,并着重于文本表示模型、文本聚类算法、聚类结果评价三个方面进行阐述与比较,并对他们的研究现状、理论基础和技术方法等方面进行了较为详细的论述。对短消息文本的数据来源以及特性进行了总结,并对短消息文本的预处理技术,包括中文分词、特征提取与选择等进行了一定的研究与说明。根据经典的向量空间模型文本聚类处理的流程与步骤,采用向量空间模型对短消息文本进行向量表示,并使用广为使用的K-Means算法对短消息数据集进行聚类处理,得到了聚类结果并对其进行了一定的分析与评价。将已在英文文本聚类中取得较好聚类效果的后缀树聚类算法(STC),应用到短消息中文文本聚类中,并结合中文文本聚类中的特征表示、特征提取和聚类算法等问题进行了改进,以适应短消息文本聚类的特点。通过对同一短消息文本数据集进行基于上述两种算法的对比实验,本文得出这样的结论:在短消息文本聚类中,基于后缀树模型的STC聚类算法比基于向量空间模型的K-Means算法在聚类结果的有效性和时间复杂度两个方面都具有相当大的优势,可以将其运用在中文短消息文本聚类中。最后根据实验结果和项目的需要设计并实现了一个面向短消息文本的聚类原型系统,该系统能抓取基于Web的短消息文本,并对短消息文本数据集进行聚类处理、发现其中的热点话题,也可以读取本地的短消息文本数据集,对其进行聚类分析并将聚类结果直观的进行展示。
|
全文目录
摘要 4-6 ABSTRACT 6-11 1. 绪论 11-16 1.1 课题研究背景 11-12 1.2 课题研究的目的和意义 12-13 1.3 短消息文本挖掘技术的现状与发展 13-15 1.4 研究内容及论文结构 15-16 2. 短消息文本聚类技术概述 16-27 2.1 文本表示与计算 16-18 2.1.1 向量空间模型 17 2.1.2 后缀树模型 17-18 2.2 文本聚类算法 18-23 2.2.1 层次式聚类 18-19 2.2.2 划分式聚类 19-20 2.2.3 自组织映射 20-21 2.2.4 空间索引聚类 21-22 2.2.5 聚类算法比较 22-23 2.3 聚类有效性评价 23-26 2.3.1 熵 23-24 2.3.2 特征准量 24-25 2.3.3 平均准确率 25 2.3.4 时间复杂度 25-26 2.4 本章小结 26-27 3. 短消息文本处理与特征提取 27-37 3.1 短消息文本来源 27-28 3.2 短消息文本特性 28-29 3.3 短消息文本预处理 29-31 3.4 基于分词的短消息文本处理与特征提取 31-34 3.4.1 中文分词处理 31-33 3.4.2 文本特征提取 33-34 3.5 基于后缀树模型的文本处理与特征提取 34-35 3.5.1 基于后缀树的特征提取 34-35 3.5.2 后缀树聚类的文本特征选择 35 3.6 本章小结 35-37 4. 基于向量空间模型的短消息文本聚类 37-48 4.1 文本向量空间模型 37-41 4.1.1 特征项 37 4.1.2 特征项的权重 37-39 4.1.3 向量空间模型 39-40 4.1.4 文本相似度计算 40-41 4.2 向量空间模型短消息文本聚类 41-43 4.2.1 数据预处理 41-42 4.2.2 文本向量表示 42 4.2.3 传统聚类算法处理 42-43 4.3 实验仿真 43-47 4.3.1 实验数据 43-45 4.3.2 K-Means聚类结果 45-47 4.4 本章小结 47-48 5. 基于后缀树的短消息文本聚类 48-61 5.1 后缀树相关概念 48-51 5.2 后缀树构建算法 51-52 5.3 后缀树聚类算法 52-54 5.3.1 文本预处理 52-53 5.3.2 短语基本类识别 53-54 5.3.3 短语类合并 54 5.4 实验仿真 54-57 5.4.1 实验数据及预处理 54-55 5.4.2 短语基本类识别 55-56 5.4.3 基本类合并及聚类结果 56-57 5.5 聚类算法比较 57-60 5.5.1 STC聚类结果 57-58 5.5.2 聚类结果比较 58-59 5.5.3 时间复杂度 59-60 5.6 本章小结 60-61 6. 短消息文本聚类原型系统 61-69 6.1 系统开发平台与环境 61 6.2 系统总体结构 61-62 6.3 详细模块设计 62-66 6.3.1 短消息文本采集 62-63 6.3.2 文本预处理 63 6.3.3 聚类处理 63-64 6.3.4 聚类结果 64-66 6.4 系统运行效果 66-68 6.5 本章小结 68-69 7. 总结与展望 69-72 7.1 总结 69-70 7.2 展望 70-72 参考文献 72-77 后记 77-78 致谢 78
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- K-means聚类优化算法的研究,TP311.13
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 演化聚类算法及其应用研究,TP311.13
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- Web新闻热点发现系统的设计与实现,TP393.09
- 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于粒子滤波的目标跟踪算法研究及DirectShow实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|