学位论文 > 优秀研究生学位论文题录展示
面向审计领域的聚类离群点检测研究
作 者: 谭艳娜
导 师: 黄少滨
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 聚类分析 DBSCAN 离群点检测 LOF 审计方法
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
离群点检测又称小事件检测、偏差检测等。在某些应用中,那些小概率发生的事件往往比经常发生的事件更有趣、更有研究价值。聚类算法实质是将数据集中的数据进行分组,使得同一组内的数据尽可能相似而不同组内的数据尽可能不同。以往的有些聚类算法,只是将离群点检测作为聚类过程的副产品,使一些重要信息丢失;而在离群点挖掘时,只注重离群点检测,不关注数据的分布情况,使得离群点分析难度加大,甚至使一些离群点失去了其实际的应用价值。如将离群点挖掘与聚类分析算法有机的结合,可以更准确的了解数据分布情况。审计方法的好坏直接影响着审计结果的质量,动态监测指标直接影响着审计的时效。传统的审计方法往往是由审计专家的经验和政策法规构建的,这存在着多处不足。利用数据挖掘技术在海量的审计数据中挖出对构建审计方法和提炼动态监测指标提供决策依据的数据,此项工作具有理论和实际意义。本文提出DBSCAN_LOF算法,将DBSCAN的核心对象判定融合到LOF算法中,并重新定义核心对象、增加了k-邻域半径的概念。该算法不但以k-近邻这个概念将聚类算法和离群点算法有机的结合起来,还打破了传统基于聚类的离群点检测算法离群点检测结果受聚类结果的影响、降低了DBSCAN对参数的敏感性及数据空间分布不均匀对聚类结果的影响,并且可以在快速聚类的同时检测离群点。通过多种数据集,比较DBSCAN_LOF算法与原有一些算法在聚类效果和时效上的差异。然后以社会保障审计数据作为实验数据,对审计数据中复合数据类型数据、不同意义的数值型数据的预处理研究;并利用DBSCAN_LOF进行实验验证,实现对审计方法构建提供决策依据数据的挖掘功能。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-15 1.1 研究背景和意义 10-11 1.2 研究现状 11-12 1.2.1 聚类、离群点检测技术 11 1.2.2 计算机审计 11-12 1.3 主要研究内容 12-13 1.4 论文结构安排 13-15 第2章 相关概念和理论 15-24 2.1 数据挖掘概述 15 2.2 离群点检测技术 15-19 2.2.1 基于统计离群点检测 16-17 2.2.2 基于近邻度的离群点检测 17 2.2.3 基于密度的局部离群点检测 17-18 2.2.4 基于聚类的离群点检测 18-19 2.3 聚类分析简介 19-23 2.3.1 数据相似关系 19-21 2.3.2 聚类方法 21-22 2.3.3 具有噪音识别的聚类算法 22-23 2.4 本章小结 23-24 第3章 聚类离群点挖掘DBSCAN LOF算法 24-41 3.1 DBSCAN研究分析 24-28 3.1.1 DBSCAN算法描述 25 3.1.2 算法复杂度分析 25-26 3.1.3 算法有效性分析 26-28 3.2 LOF研究分析 28-31 3.2.1 LOF算法描述 29-30 3.2.2 算法有效性、复杂度分析 30-31 3.3 DBSCAN LOF算法 31-37 3.3.1 DBSCAN LOF算法描述 32-34 3.3.2 算法有效性、复杂度分析 34-37 3.4 实验分析 37-40 3.5 本章小结 40-41 第4章 聚类离群点检测在审计领域中的应用 41-52 4.1 应用于社保审计的意义 41-42 4.2 算法审计应用模型 42-49 4.2.1 审计数据的获取及清理 43 4.2.2 审计数据的数据选择 43-44 4.2.3 混合数据类型的预处理 44-47 4.2.4 审计方法发现过程 47-49 4.3 社保审计数据挖掘实验与结果分析 49-50 4.4 本章小结 50-52 结论 52-53 参考文献 53-57 攻读硕士学位期间发表的论文和取得的科研成果 57-58 致谢 58
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 云南省直管县改革研究,D630
- 基于分治法的聚类方法研究,TP311.13
- 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 重庆文化产业竞争力研究,F224
- 结合蚁群算法与基于划分的DBSCAN聚类算法的研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|