学位论文 > 优秀研究生学位论文题录展示
朴素贝叶斯分类模型的改进研究
作 者: 朱晓丹
导 师: 董槐林
学 校: 厦门大学
专 业: 计算机软件与理论
关键词: 朴素贝叶斯分类模型 单属性有效度 双属性有效度
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
分类是数据挖掘中的一个重要课题。分类的目的是为了构造出一个分类函数或者分类模型,这个模型可以将数据库中对应的数据项映射到一个给定的类。数据挖掘的分类一般用在提取描述重要数据类的模型或者预测未来数据趋势。朴素贝叶斯分类模型是当前分类算法的研究热点之一,它具有结构不复杂、分类精度高和速度快等优点。运用该模型进行分类的原理是利用训练集构造出一个分类模型,如果训练集中有存在噪声实例,那么它会降低分类器的性能。本文以优化训练集为研究内容,探讨了基于单属性有效度和结合双属性有效度的朴素贝叶斯分类改进模型,通过自定义的单属性有效度和双属性有效度淘汰数据集中的噪声样本,从而实现训练集优化,提高分类准确率的目标。本文主要工作如下:1、介绍了贝叶斯分类的基本理论和朴素贝叶斯分类模型。2、对几种常用的改进朴素贝叶斯分类模型进行分析:树扩展型贝叶斯分类模型、半朴素贝叶斯分类模型、贝叶斯信念网络分类模型。3、在使用训练集构建分类器前,基于贝叶斯理论的思想,以单属性为研究对象,通过自定义的单属性有效度淘汰训练集中的噪声实例,实现训练集的优化。4、在基于单属性有效度的改进模型的前提上,结合双属性有效度,发现和淘汰训练集中存在的更多噪声样本,进一步优化训练集。基于大规模数据及大量的实验结果表明:本文提出的改进方法是可行的,而且能有效的提高分类的准确率。
|
全文目录
摘要 4-5 Abstract 5-10 Contents 10-13 第一章 绪论 13-20 1.1 课题研究背景和意义 13-15 1.1.1 数据挖掘基本理论 13 1.1.2 数据挖掘的主要任务 13-14 1.1.3 数据挖掘的现实意义 14-15 1.2 数据挖掘中的分类 15-17 1.2.1 分类模型的种类 15-16 1.2.2 分类模型的评价标准 16-17 1.3 国内外研究现状 17-18 1.4 研究内容 18 1.5 论文的组织结构 18-20 第二章 贝叶斯理论和朴素贝叶斯分类模型分析 20-28 2.1 贝叶斯理论概论 20-22 2.1.1 条件概率和乘法定理 20-21 2.1.2 全概率公式和贝叶斯定理 21 2.1.3 极大后验假设与极大似然假设 21-22 2.1.4 事件的独立性 22 2.2 朴素贝叶斯分类模型 22-27 2.2.1 朴素贝叶斯分类模型描述 22-25 2.2.2 朴素贝叶斯分类模型的实际应用 25-26 2.2.3 朴素贝叶斯分类模型的特点 26-27 2.3 本章小结 27-28 第三章 朴素贝叶斯分类模型的改进方法研究 28-43 3.1 半朴素贝叶斯分类模型(SNBC) 28-31 3.1.1 半朴素贝叶斯分类模型工作原理 28-31 3.1.2 半朴素贝叶斯分类模型优缺点 31 3.2 贝叶斯信念网络分类模型(BBN) 31-38 3.2.1 贝叶斯信念网络工作原理 31-33 3.2.2 贝叶斯网络的应用 33-36 3.2.3 贝叶斯网络模型的优缺点 36-38 3.3 树增强朴素贝叶斯分类模型(TAN) 38-42 3.3.1 树增强朴素贝叶斯分类模型工作原理 38-41 3.3.2 树增强朴素贝叶斯分类模型的优缺点 41-42 3.4 本章小结 42-43 第四章 基于单属性有效度的朴素贝叶斯分类模型研究 43-52 4.1 单属性有效度的设定 43-46 4.1.1 单属性有效度的设定思想 43-44 4.1.2 单属性有效度的设定准则 44-46 4.2 基于单属性有效度的朴素贝叶斯分类模型 46-48 4.3 实验及结果分析 48-51 4.3.1 实验数据 48 4.3.2 实验平台 48-49 4.3.3 实验结果分析 49-51 4.4 本章小结 51-52 第五章 结合双属性有效度的朴素贝叶斯分类模型研究 52-62 5.1 双属性有效度的设定 52-55 5.1.1 双属性有效度的工作原理 52 5.1.2 双属性有效度的设定方法 52-55 5.2 结合双属性有效度的朴素贝叶斯分类模型 55-57 5.3 实验及结果分析 57-60 5.3.1 实验数据 57 5.3.2 实验平台 57 5.3.3 实验结果分析 57-60 5.4 本章小结 60-62 第六章 总结及展望 62-64 6.1 总结 62 6.2 展望 62-64 参考文献 64-69 攻读硕士期间的研究成果 69-70 致谢 70-71
|
相似论文
- 关于朴素贝叶斯分类算法的改进,TP18
- 朴素贝叶斯分类模型的研究与应用,TP183
- 基于小分子结构预测可能作用受体方法研究,R914
- 基于时序性信息的财务报表欺诈识别,F234.4
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- K-均值聚类算法的研究与改进,TP311.13
- 基于流形学习的数据降维技术研究,TP311.13
- K-means聚类优化算法的研究,TP311.13
- 公安110指挥决策业务系统,TP311.13
- 基于分治法的聚类方法研究,TP311.13
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于Web日志的用户挖掘研究与实现,TP311.13
- 基于查询接口的Deep Web模式匹配方法研究,TP311.13
- 数据集市在电信经营分析中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|