学位论文 > 优秀研究生学位论文题录展示
时间序列时序关联规则挖掘研究
作 者: 周勇
导 师: 向蓉美
学 校: 西南财经大学
专 业: 统计学
关键词: 时间序列 孤立点噪声数据 时间序列压缩 模式相似性 时序关联规则 时间序列相似性
分类号: F224
类 型: 博士论文
年 份: 2008年
下 载: 1124次
引 用: 7次
阅 读: 论文下载
内容摘要
时间序列的时序关联规则指时间序列局部变化趋势之间的具有时间约束的关联关系,这些局部变化趋势发生本身具有时间先后顺序,因此这种关联关系就体现出时序性。时间序列的数据密集性、随机波动性和数据海量性决定了只有通过数据挖掘方法才能获取隐含的时序关联规则。时间序列时序关联规则挖掘是一个系统工程,分为时间序列预处理、时间序列压缩、时间序列模式相似性度量、时间序列时序关联规则获取、解释和评价等步骤。目前关于各步骤挖掘方法的研究还不够完善,主要表现在以下方面:(1)在孤立点噪声数据的识别中,基于统计学识别法很难获得样本的分布参数,基于小波变换识别法改变了原始时间序列的真实性,基于似然比识别法的计算量较大;(2)在经典时间序列时序关联规则挖掘中,以给定长度和滑动步长的滑动窗口把时间序列离散成模式序列,然后获取频繁模式,最后生成强时序关联规则。由于滑动窗口的长度和滑动步长是由人为给定,这样时间序列的压缩结果具有很强的人为性,挖掘结果也就具有很强的不确定性;(3)时间序列模式相似性的度量是获取模式序列中频繁模式的基础,决定着时序关联规则获取。目前,元模式单调距离和元模式向量距离中对元模式表示都存在缺陷,所以元模式相似性的度量存在一定问题。而且,现有度量序列模式相似性的方法不能用距离法度量不同长度的两个序列模式的相似性。时间序列时序关联规则具有很强的实用价值,但正如上述,目前挖掘方法却不完善。因此,本文的研究重点是时间序列时序关联规则挖掘方法的改进和完善,提出理论模型与实证分析,力求从时间序列中获取更多可靠的时序关联规则,从而为决策者提供更好的决策帮助。本文以挖掘步骤为主线展开论述,共分八章,每章的结构安排为:首先综述国内外对本步骤所涉及的理论和研究现状,其次分析研究中存在的问题,然后提出相应的改进方法,并用实证进行分析和论证。文章主要内容包括:(1)时间序列预处理时间序列的预处理是时间序列时序关联规则挖掘的第一步:怎样清洗时间序列中的噪声数据。这部分首先对时间序列的噪声数据进行界定,其次综述已有时间序列孤立点噪声数据的识别方法,并且分析这些方法的优缺点,最后提出基于数据相对变化率的时间序列孤立点噪声数据的识别方法。(2)时间序列的压缩时间序列压缩是时间序列时序关联规则挖掘的第二步:如何把时间序列转化成模式序列。首先分析时序关联规则挖掘过程中数据压缩的必要性、目的和意义,其次综述已有时间序列压缩方法,在此基础上提出时间序列压缩方法的评价体系,并对已有压缩方法进行比较分析,然后选择有利于时序关联规则挖掘的时间序列压缩方法,最后对所选择压缩方法分割点的确定加以改进。(3)时间序列模式相似性的度量时间序列模式间相似性度量是时间序列时序关联规则的重要内容之一。只有很好地度量模式间的相似性,才能更好地完成模式序列中频繁模式和时序关联规则的获取。本文认为已有度量两个元模式相似性的方法存在弊端,考虑到序列模式的相似性度量涉及两个不同长度的模式,因而把度量两个不同维数的点间的距离的方法应用到序列模式相似性的度量上,提出序列模式相似性的动态时间弯曲距离度量法。(4)时间序列时序关联规则的获取时间序列时序关联规则挖掘的第三步:怎样从模式序列中获取频繁模式进而生成强时序关联规则。在一般时序关联规则中,对象或者事件的频繁性由其出现的次数决定。但由于时间序列模式的差异性,模式出现的次数不能决定其频繁性,而应由与其相似模式的数目决定。在时序关联规则的生成过程中,针对时间序列模式频繁性的特殊性,本文提出时序关联规则的分层获取方法,并用实证加以分析。(5)时间序列的相似性本文对时间序列的相似性研究从两方面展开。一方面研究一元时间序列序列的相似性。首先综述国内外关于时间序列相似性的研究,并分析存在问题,然后针对时间序列的时序性特点提出度量时间序列相似性的图形相似法,并分析该方法的优缺点;另一方面研究多元时间序列的相似性。首先分析度量多元时间序列相似性的必要性,然后分析该研究的难点所在,最后提出两种度量时间序列相似性的方法:基于矩阵范数和基于综合属性的多元时间序列的相似性度量方法。(6)时间序列时序关联规则挖掘平台时间序列时序关联规则挖掘平台以JAVA作为开发语言,共有六个模块,实现数据加载、时间序列的预处理、时间序列压缩、时间序列模式相似性度量、时序关联规则获取、时序关联规则评价和时间序列相似性度量等功能。一方面对各个步骤的改进方法进行实证分析,另一方面实现从时间序列中挖掘时序关联规则。本文的研究按照时序关联规则的挖掘步骤展开,从时间序列时序关联规则的第一步时间序列预处理到最后一步时序关联规则解释与评价。在每个步骤中,对已有研究进行梳理,对所涉及的理论模型进行推导,并提出改进方法。由于时间序列相似性在时间序列数据挖掘中起到重要作用,本文专门对时间序列的相似性进行探讨。本文的主要创新点归纳为:(1)在时序关联规则挖掘的时间序列预处理中,提出基于数据相对变化率的孤立点噪声数据识别方法。时间序列一般都含有噪声数据,其存在对时序关联规则的挖掘有很大影响,因此,在挖掘前必须去除噪声数据。但由于时间序列压缩对孤立点噪声数据不具有容忍性,而且孤立点的存在会影响时间序列的分割和时间序列模式表示,所以识别和删除时间序列中的孤立点噪声数据便成为时间序列预处理的重要工作之一。数据是否是时间序列的孤立点,关键是看它与周围数据的跳跃程度。本文以时间序列数据相对变化率作为判断其跳跃程度的标准,提出新的孤立点噪声数据识别方法。(2)在时间序列模式相似性度量中,提出度量两个元模式相似性的加权距离法以及可以度量两个不同长度序列模式相似性的动态时间弯曲距离法。在时序关联规则的挖掘中,元模式单调距离法、元模式向量距离法度量两个元模式相似性都不适合频繁模式的获取。因此,本文针对时间序列模式的特点提出元模式的加权距离,并在此基础之上提出度量两个序列模式相似性的动态时间弯曲距离法。(3)在时间序列时序关联规则的获取中,提出分层时序关联规则获取方法。时序关联规则的时间约束、关联规则的前、后件长度决定时序关联规则的获取。为了降低获取中的难度,只有把时序关联规则的前件分成不同的长度,由此提出分层时序关联规则的获取方法。由于频繁模式界定上的差异,这种方法有别于一般的获取方法;但也由于这种方法考虑到各种长度的关联规则前件,所以具有其他时序关联规则获取方法所不具有的优点。(4)在度量两个时间序列的相似性时,因为已有一元时间序列相似性的度量方法忽略了时间序列是以时间为变量的函数,本文经研究论证提出度量两个一元时间序列相似性的图形相似法。同时,在多元时间序列的相似性度量中,因考虑到多元时间序列的存储结构是矩阵,本文提出度量两个多元时间序列相似性的基于矩阵范数的多元时间序列相似性度量方法和基于综合性的多元时间序列相似性度量方法。
|
全文目录
摘要 3-7 ABSTRACT 7-16 1. 绪论 16-25 1.1 本文研究的背景和意义 16-18 1.2 本文的研究内容 18-19 1.3 本文的结构 19-23 1.4 本文的创新点 23-25 2. 时间序列的预处理 25-34 2.1 时间序列噪声数据及其分类 25-27 2.2 时间序列孤立点识别方法综述 27-29 2.3 识别孤立点新方法的提出—基于数据相对变化率识别法 29-32 本章小结 32-34 3. 时间序列的压缩 34-58 3.1 时间序列压缩概述 34-37 3.1.1 时间序列压缩的定义 35-36 3.1.2 时间序列压缩的必要性 36-37 3.2 时间序列压缩方法综述 37-45 3.2.1 分段平均值压缩法(PSA) 37-38 3.2.2 基于误差的在线分段压缩法(PRA) 38-41 3.2.3 基于重要点的分段压缩法(IPRA) 41-42 3.2.4 基于关键点的分段压缩法(KPRA) 42-44 3.2.5 分段多项式压缩法(PPRA) 44-45 3.3 时间序列压缩方法评价及改进 45-55 3.3.1 从理论角度评价压缩方法 45-48 3.3.2 从实用角度评价压缩方法 48-49 3.3.3 压缩时间序列分割点确定的改进 49-55 3.4 时间序列压缩后的模式表示 55-56 本章小结 56-58 4. 时间序列模式的相似性度量 58-72 4.1 时间序列模式的相似性度量方法 58-66 4.1.1 元模式及序列模式相似性的定义 58-59 4.1.2 元模式相似性的距离度量法 59-63 4.1.3 时间序列序列模式相似性度量 63-66 4.2 序列模式相似性度量新方法的提出—动态时间弯曲距离法 66-71 4.2.1 时间序列的动态时间弯曲距离 66-69 4.2.2 序列模式相似性的动态时间弯曲距离法 69-71 本章小结 71-72 5. 时间序列时序关联规则的获取 72-87 5.1 时间序列时序关联规则挖掘概述 72-75 5.1.1 时间序列时序关联规则定义 72-73 5.1.2 时间序列时序关联规则挖掘方法综述及评价 73-75 5.2 模式序列频繁模式的定义和获取 75-79 5.2.1 模式序列频繁模式的定义 75-77 5.2.2 模式序列频繁模式的获取 77-79 5.3 强时序关联规则生成方法的提出及其解释 79-86 5.3.1 强时序关联规则生成新方法的提出—分层获取法 80-84 5.3.2 时间序列时序关联规则评价和解释 84-86 本章小结 86-87 6. 时间序列的相似性度量 87-119 6.1 时间序列相似性度量 87-96 6.1.1 时间序列相似性直接计算法 87-93 6.1.2 时间序列相似性变换计算法 93-96 6.2 基于时间序列形状的相似性度量方法 96-105 6.2.1 基于时间序列形态特征的相似性度量方法综述 96-99 6.2.2 时间序列相似性度量新方法提出—基于时间序列形状的相似性度量法 99-105 6.3 多元时间序列相似性度量 105-117 6.3.1 基于矩阵范数的多元时间序列相似性度量方法 105-112 6.3.2 基于综合属性的多元时间序列相似性度量方法 112-117 6.3.3 多元时间序列相似性度量方法比较 117 本章小结 117-119 7. 时间序列时序关联规则挖掘平台 119-138 7.1 时序关联规则挖掘平台界面及功能 119-122 7.1.1 时序关联规则挖掘平台功能简介 119-120 7.1.2 数据模块功能简介 120-122 7.2 时间序列预处理模块 122-123 7.2.1 预处理模块功能简介 122-123 7.2.2 实证分析 123 7.3 时间序列压缩模块 123-126 7.3.1 时间序列压缩模块功能简介 123-125 7.3.2 实证分析 125-126 7.4 时间序列模式相似性模块 126-127 7.4.1 时间序列模式相似性模块功能简介 126-127 7.4.2 实证分析 127 7.5 时序关联规则获取模块 127-131 7.5.1 时序关联规则获取模块功能简介 127-128 7.5.2 实证分析 128-131 7.6 时间序列相似性模块 131-137 7.6.1 时间序列相似性模块功能简介 131-132 7.6.2 实证分析 132-137 本章小结 137-138 8. 结论与展望 138-141 8.1 论文的结论 138-139 8.2 研究的不足与展望 139-141 参考文献 141-149 附录 149-152 后记 152-153 致谢 153-155 在读期间科研成果目录 155
|
相似论文
- 发育于热带地区玄武岩的时间序列土壤中石英和植硅体的变化特征,S153
- 朝阳地区参考作物腾发量演变特征与预测模型研究,S161.4
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 停车诱导在智能移动终端上的设计与实现,TN929.53
- 潜江市血吸虫病疫情分析及趋势预测,R532.21
- 质量管理在网络性能指标监控中的应用研究,F626
- 国际快递市场及其周期特性的研究,F224
- 基于GPU的时间序列并行检索算法研究,TP391.41
- 基于核自组织映射的时间序列预测研究,O211.61
- 短期电力负荷预测技术研究,TM715
- 基于DTW度量的时间序列主旨模式提取,O211.61
- 基于神经网络的住宅房地产价格时间序列预测模型研究,F293.3
- 基于多社会经济因素的地铁出行需求研究,U231
- 基于时间序列理论方法的流感病毒DNA序列特征分析,R346
- 气温的统计分析及短期预测,P457.3
- 地球定向参数预报理论与方法研究,P22
- 弹性圆柱体的声散射研究,O422.5
- 基于混沌时间序列的变形分析和预测,N945.2
- 基于中原地区的经济增长模型及其机理分析,F127
- 分位数回归在时间序列中的应用,O211.61
- 动力博弈系统及混沌理论在演化中的应用研究,O225
中图分类: > 经济 > 经济计划与管理 > 经济计算、经济数学方法 > 经济数学方法
© 2012 www.xueweilunwen.com
|