学位论文 > 优秀研究生学位论文题录展示

数据挖掘在沪市公司分类的应用

作 者: 孙力
导 师: 康辉
学 校: 吉林大学
专 业: 软件工程
关键词: 财务指标 K-means聚类算法 上海证券交易所上市公司 主成分分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 184次
引 用: 2次
阅 读: 论文下载
 

内容摘要


数据挖掘技术的应用随着数据库技术的发展而不断地深入推广,它是知识发现的一个过程,利用大量的数据库内的信息,发现隐含的变量间的关系,通过逻辑上的甄别,形成业务操作的指导规则或者辅助决策、预测等。本课题的目的是研究数据挖掘分类技术的实施,以此应用到上海证券交易所上市公司的分类,对上市公司的群体进行细分,验证仅仅依据财务指标数据是否能够显著地区分不同群体经营的绩效,财务指标到底能给投资人多少可信赖的信息,同时关注是否有异常的群体,提示投资者警惕它们的变化。本文先介绍了数据挖掘的概念,当前的发展状态,及相关的算法。以实际的问题为出发点,采用了EXCEL2007、SPSS、SQL2005、C#等软件技术,按照数据收集、数据清理和转换、模型构建、模型评估和分析等步骤,实现对上市公司的分类。针对财务指标的相互之间共线性,进行了主成分分析处理,赋予不同财务指标以相应的系数。数据的结果显示,在每一类财务指标之间确实存在共同因子,可以计算提取,财务指标体系的分析必须结合专家的评审才能够有说服力。

全文目录


内容提要  4-8
第1章 数据挖掘技术背景简介  8-11
  1.1 定义:数据挖掘  8-9
  1.2 数据挖掘可以解决的几方面商业问题  9-10
  1.3 主要的厂商及产品  10
  1.4 未来的发展前景  10-11
第2章 上市公司分类的现有情况分析  11-13
  2.1 分类的意义  11
  2.2 常见的分类方法  11-12
  2.3 常见分类方法的不足  12-13
第3章 分类数据的选择和整理  13-24
  3.1 国家对国有企业绩效考核的指标体系  13-14
    3.1.1 层次结构分明  13-14
    3.1.2 主观性增强  14
    3.1.3 组织困难,成本高  14
  3.2 采用财务绩效评定的指标作为本文的输入变量  14-16
    3.2.1 盈利能力指数  14-15
    3.2.2 资产质量指数  15
    3.2.3 债务风险指数  15
    3.2.4 经营增长状况  15-16
  3.3 二级指标权重的确定  16-18
    3.3.1 不同时期各项财务指标作用大小不同  16-17
    3.3.2 主成分分析的原理及基本思想  17
    3.3.3 主成分分析步骤  17-18
  3.4 一级指标做k-means 聚类分析  18-24
第4章 数据提取的方法和数据来源  24-36
  4.1 财务数据源自internet 上的网站  24-25
  4.2 数据提取的工具软件  25
  4.3 数据提起的技术途径  25-26
  4.4 数据源的结构分析  26-36
    4.4.1 获取证券代码表  26-30
    4.4.2 搜寻当期财务指标  30
    4.4.3 获取以往的历史记录  30-34
    4.4.4 容错设计  34-36
第5章 数据挖掘的过程与分析  36-45
  5.1 商业的理解  36
  5.2 数据的理解  36-42
    5.2.1 盈利能力指数方面的数据  36-38
    5.2.2 资产质量指数方面的数据  38-40
    5.2.3 债务风险指数方面的数据  40-41
    5.2.4 经营增长指数方面的数据  41-42
  5.3 K-means 聚类分类模型  42-44
  5.4 分类的结果分析  44-45
第6章 方法的不足和改善  45-47
  6.1 序列数据的分析  45
  6.2 财务报表中蕴含的其他指标信息  45
  6.3 分类算法的改善  45-46
  6.4 分类结果的参考价值  46-47
参考文献  47-49
致谢  49-50
摘要  50-52
Abstract  52-55

相似论文

  1. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  2. 改进的主成分分析方法在学科建设中的应用,G642.4
  3. 基于遗传算法和粗糙集的聚类算法研究,TP18
  4. 高分辨率SAR影像裸土信息提取及土壤含水量反演初探,S152.7
  5. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  6. 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
  7. 太行山猕猴掌面花纹嵴数的形态学研究,Q954
  8. 赵官煤矿下组煤底板突水预测及防治技术研究,TD745
  9. 重庆文化产业竞争力研究,F224
  10. 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
  11. 基于神经树的人脸识别方法研究,TP391.41
  12. 学生数学建模能力评价体系及应用实例,O141.4-4
  13. 草原公路光环境对驾驶员生理指标的影响研究,U491.254
  14. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  15. 基于MMTD的人脸识别方法研究,TP391.41
  16. 黄冈市旅游产业的竞争力评价与发展战略,F592.7
  17. 农村信息化推动苏南区域城乡一体化快速发展对策研究,F127;F224
  18. 分子三次、分母二次有理样条权函数神经网络研究及应用,TP183
  19. 河南省文化遗产价值指标体系研究,G122
  20. 基于主成分分析法的临沂市电子政务系统绩效评价指标体系研究,G206
  21. 基于特征融合的人脸识别算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com