学位论文 > 优秀研究生学位论文题录展示
基于知网的文本分类算法研究及应用
作 者: 王贤川
导 师: 施化吉
学 校: 江苏大学
专 业: 计算机应用技术
关键词: 文本分类 知网 词义消歧 概念特征 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 236次
引 用: 6次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,网络上的文本信息资源日趋丰富,互联网已经成为世界上最为巨大的信息仓库,也逐步成为公安机关新的重要公开情报源。然而面对浩如烟海的文本数据,公安机关不可能简单依靠人工去分析,文本分类是对文档信息进行自动的有序组织的方法,能够大大提高公安人员的工作效率,但传统的文本分类算法存在高维稀疏、多义词和忽略词语间语义上的联系等不足,不能满足现有公安情报分析工作的需求,在此背景下本文对文本分类算法进行了研究,并将研究成果应用到某省的实际公安情报项目中。本文首先介绍了文本分类的定义、一般过程和常用算法,总结了当前的研究现状;其次,为了更为准确地获取文本的概念特征,提出基于知网和上下文加权的词义消歧算法(HCWSD);然后,针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC)。最后,将HCWSD算法和HOTC算法应用于公安情报项目的分类系统中。本文的主要研究内容如下:(1)提出基于知网和上下文加权的词义消歧算法(HCWSD),该算法借助知网词典将歧义词的义项与其上下文语境词确定的词义计算加权的语义相关度来对歧义词进行实时消歧无需语料库训练,克服了传统算法未考虑上下文距离对相关度计算的影响和计算存在不合理性等缺点。(2)提出基于知网和统计的概念相似度计算方法,该方法充分利用了知网词典和数据集的统计信息,克服了传统方法未考虑在不同数据集中词语相似度计算的不同的缺点。提出文本语义相似度的修正公式,克服了传统公式计算量大和计算不全面的不足。(3)针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC),该算法首先利用提出的HCWSD算法对多义词进行消歧解决了多义词问题,并以消歧的概念表示文本解决了高维稀疏问题;然后以概念相似度计算文本的语义相似度,考虑了词语间语义联系;最后根据文本语义相似度对文本进行分类。(4)将本文提出的HCWSD算法和HOTC算法应用于公安情报系统中的分类子系统中。实际应用表明,利用该系统可以取得较好的文本分类效果。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-22 1.1 研究背景和意义 10 1.2 国内外研究现状 10-12 1.3 文本分类概述 12-20 1.3.1 文本分类的定义 12 1.3.2 文本分类的过程 12-15 1.3.3 文本分类的评价指标 15-18 1.3.4 常用的文本分类算法 18-20 1.4 论文的主要工作 20-21 1.5 论文的组织结构 21-22 第二章 基于知网和上下文加权的词义消歧算法 22-32 2.1 相关知识 23-24 2.1.1 知网 23 2.1.2 歧义词的分类 23-24 2.2 语义相关度的计算 24-25 2.3 上下文位置权重的计算 25 2.4 算法思想 25-26 2.5 算法描述 26-29 2.6 实验分析 29-31 2.7 本章小结 31-32 第三章 基于知网的语义相似度计算 32-43 3.1 相似性 32-34 3.1.1 语义相关性、相似性与距离的关系 32-33 3.1.2 相似性的直觉 33-34 3.2 词语语义相似度计算常用测量方法 34-36 3.2.1 基于路径长度的方法 34 3.2.2 基于深度的方法 34-35 3.2.3 基于密度的方法 35 3.2.4 基于信息量的方法 35 3.2.5 综合的方法 35-36 3.3 基于知网和统计的概念相似度计算 36-40 3.3.1 义原距离 37-39 3.3.2 义原相似度 39 3.3.3 概念相似度 39-40 3.4 文本语义相似度计算 40-42 3.4.1 最大匹配法 40-41 3.4.2 修正的公式 41-42 3.5 本章小结 42-43 第四章 基于知网的文本分类算法 43-51 4.1 经典的KNN文本分类算法 44-45 4.1.1 KNN的概念 44 4.1.2 KNN算法思想 44-45 4.2 基于知网的文本分类算法 45-46 4.2.1 算法思想 45 4.2.2 算法描述 45-46 4.2.3 算法特点 46 4.3 实验分析 46-50 4.4 本章小结 50-51 第五章 公安情报分类系统设计与实现 51-62 5.1 公安情报系统项目介绍 51-54 5.1.1 系统建设背景 51-52 5.1.2 系统业务模型 52-53 5.1.3 系统功能结构 53-54 5.2 系统需求 54 5.3 系统结构 54-55 5.4 系统流程 55 5.5 主要模块设计 55-58 5.5.1 训练模块 55-57 5.5.2 分类模块 57-58 5.6 应用实例介绍 58-60 5.7 系统的开发环境 60-61 5.8 本章小结 61-62 第六章 结束语 62-64 6.1 总结 62-63 6.2 展望 63-64 参考文献 64-68 致谢 68-69 申请学位期间的研究成果及发表的学术论文 69
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于数据分布特征的文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 基于本体的智能电网知识检索系统,TM76
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于语义分析的文本挖掘研究,TP391.1
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|