学位论文 > 优秀研究生学位论文题录展示
基于文本相似度的中文文本聚类的研究
作 者: 李艳梅
导 师: 郭庆琳
学 校: 华北电力大学(北京)
专 业: 计算机应用技术
关键词: 文本聚类 未登录词识别 特征选择 文本相似度 多文档文摘
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 436次
引 用: 2次
阅 读: 论文下载
内容摘要
文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。
|
全文目录
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 面向主题的Web文档自动文摘生成方法研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 结合本体HowNet的中文文本分类研究,TP391.1
- 支持向量机在入侵检测系统中的研究和应用,TP393.08
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 基于端口号、统计特征和协议特征字的实时数据流分类,TP311.13
- 基于粗糙集的特征选择算法,TP18
- 搜索引擎中文分词技术研究,TP391.1
- 两类仿生学算法在文本分类中的应用研究,TP391.1
- 遗传算法在林业企业市场营销中的应用研究,TP18
- 数据流特征选择策略的研究,TP311.13
- 语音情感识别的特征选择与特征产生,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|