学位论文 > 优秀研究生学位论文题录展示
非平衡数据集分类方法研究及其在电信行业中的应用
作 者: 王春玉
导 师: 褚健;苏宏业
学 校: 浙江大学
专 业: 控制理论与控制工程
关键词: 电信 数据挖掘 电信欠费 非平衡数据集 海量数据 支持向量机 提升
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难点。所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式分类问题。在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降。本论文针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新的算法——AdaBoost-SVM-OBMS,该算法结合集成算法和采用错分样本点生成新样本点的过抽样技术。同时,在研究电信数据集特点和非平衡数据集分类方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测做了深入的研究和探讨。论文的主要研究工作如下:1.针对非平衡数据集分类问题,本文提出一种新的算法——AdaBoost-SVM-OBMS.该算法结合boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量与错分样本点同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别率。在AUC,F-value和G-mean等3个不同价格的评价指标下,针对8个benchmark数据集上对AdaBoost-SVM-OBMS算法进行了实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的对少数类和多数类具有较高的预测准确率。2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值的结果。
|
全文目录
致谢 5-6 摘要 6-7 ABSTRACT 7-11 第1章 绪论 11-21 摘要 11 1.1 引言 11 1.2 数据挖掘研究概述 11-16 1.2.1 数据挖掘的概念 11-13 1.2.2 数据挖掘的分类和应用 13-16 1.3 数据挖掘在电信行业的应用 16-19 1.4 论文内容与结构 19-21 第2章 非平衡数据集分类技术研究现状 21-33 摘要 21 2.1 引言 21-22 2.2 非平衡数据集分类困难的原因 22-25 2.3 非平衡数据集分类方法 25-31 2.3.1 非平衡数据集分类方法介绍 26-31 2.3.2 非平衡数据集分类方法比较 31 2.4 小结 31-33 第3章 一种新的基于过抽样技术的非平衡数据集分类方法 33-49 摘要 33 3.1 引言 33-34 3.2 ADABOOST-SVM-OBMS算法 34-39 3.2.1 AdaBoost算法 34-35 3.2.2 支持向量机 35-38 3.2.3 AdaBoost-SVM-OBMS算法 38-39 3.3 实验仿真与分析 39-46 3.3.1 评价准则 39-42 3.3.2 仿真实验 42-46 3.4 小结 46-49 第4章 非平衡数据集分类方法在电信欠费挖掘主题下的应用 49-61 摘要 49 4.1 引言 49-51 4.2 电信数据挖掘背景 51-52 4.3 电信欠费研究现状 52-53 4.4 ADABOOST-SVM-OBMS算法在电信中的应用 53-55 4.4.1 商业理解和数据理解 54 4.4.2 数据预处理 54 4.4.3 建立模型 54-55 4.5 基于属性选择聚类的电信数据挖掘方法ASC-CVM 55-60 4.5.1 问题分析 56-59 4.5.2 实验结果分析 59-60 4.6 小结 60-61 第5章 总结与展望 61-63 摘要 61 5.1 内容总结 61-62 5.2 研究展望 62-63 参考文献 63-72 附录A:个人简历 72 附录B:攻读硕士期间科研成果 72
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 大学生生态文明观的哲学思考,G641
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|