学位论文 > 优秀研究生学位论文题录展示

分散度量模型中的变量选择

作 者: 王大荣
导 师: 张忠占
学 校: 北京工业大学
专 业: 概率论与数理统计
关键词: 变量选择 双重广义线性模型 异方差回归模型 Profile似然函数 扩展拟似然函数 AIC准则 BIC准则 惩罚函数 SCAD 异常点
分类号: O212.3
类 型: 博士论文
年 份: 2009年
下 载: 228次
引 用: 1次
阅 读: 论文下载
 

内容摘要


建模过程中的一个重要问题是如何从众多解释变量当中选取重要变量,即变量选择问题.已有大量文献从不同的角度研究了线性模型和广义线性模型中的变量选择问题.随着科学技术的深入发展,人们面临着越来越复杂的数据和模型结构,多重回归模型是其中重要的一类,它可以更好的解释数据变化的原因和规律.然而,当前文献大多集中于均值回归模型的变量选择,对分散度量参数赋予一个模型结构后,关于均值-分散度量参数联合建模结构下的变量选择问题却鲜有研究.我们的研究发现,如果把适用于均值模型的方法直接套用到联合建模结构中有可能会引起一些问题或做出错误的推断,因此有必要针对这样的复杂模型结构展开相关变量选择问题的研究.本文研究了均值和分散度量参数联合建模结构下的变量选择问题,以及变量选择思想方法的应用问题,主要取得了以下三点成果.针对异方差回归模型,我们研究了均值和方差联合建模结构下的同时变量选择问题.当均值模型中参数个数相对样本量较大时,方差模型中参数的极大似然估计通常是有偏的,使用这样的估计值进行变量选择将会增加模型的风险.从修正偏差的角度出发,我们采用了调整的profile似然函数作为损失函数,并基于信息论的理论基础,提出了一个新的变量选择准则PICa.与经典方法不同的是,该准则同时考虑了均值模型和方差模型中的信息,并对不同模型中的变量施以恰当的惩罚力度,达到了同时选择变量的效果.我们证明了,在一定的正则条件下,该准则具有如下渐近优良性:对均值模型,PICa准则具有模型选择的相合性;对方差模型,当样本量足够大时,由PICa准则选出的模型出现拟合不足现象的概率趋于零.Monto Carlo模拟研究显示,在许多常见情况下,新的准则优于传统方法.针对双重广义线性模型,一方面,我们针对经典的变量选择方法,利用扩展拟似然函数,推广了经典的AIC准则,并通过模拟和实例分析验证了该准则的有效性.另一方面,我们还研究了高维数据中的变量选择问题.当变量个数较大,而数据量不够大时,传统的子集选择法很难区分众多的可能模型,同时因其计算量太大而难以实施.对双重广义线性模型,不仅要估计均值模型中的参数,还要估计散度模型中的参数,计算将更加繁重.我们提出了一类非凹惩罚扩展拟似然方法,证明了所得估计具有Oracle性质,并提出了一种快速的新算法.同时,考虑到估计的优良性质依赖于罚函数中调谐参数的选择,我们从模型选择的相合性角度出发,改进了罚函数中调谐参数的选取方法.“变量选择”的思想方法作为建模的主要组成部分,对于衡量数据与模型拟合的程度具有本质的反映,因此,也可以用于建模的其他问题.我们针对回归分析中异常数据和变量变换相互影响的问题,从变量选择角度,结合模型选择的广义信息准则与构造变量方法,提出了一类数据变换与异常点的同时诊断方法.该方法同时考虑由是否存在异常点以及是否需要变换所组成的四种备选模型,在某些情况下,既可以减轻异常点对数据变换的强影响,又避免了变换数据对于异常点的掩盖效应.文章通过模拟与实例验证了该方法的有效性,并与文献中的方法进行了比较.

全文目录


摘要  4-6
Abstract  6-9
符号表  9-12
第1章 绪论  12-30
  1.1 研究的问题  12-14
  1.2 模型概论  14-20
  1.3 变量选择方法综述  20-28
    1.3.1 经典的变量选择方法  20-24
    1.3.2 适用于高维数据的变量选择方法  24-27
    1.3.3 广义线性模型中的变量选择  27-28
  1.4 本文的成果和结构  28-30
第2章 异方差回归模型中的变量选择  30-52
  2.1 引言  30
  2.2 调整的Profile信息准则PICa  30-40
    2.2.1 模型结构  30-31
    2.2.2 调整的Profile似然函数  31-38
    2.2.3 PICa准则的推导  38-40
  2.3 准则的渐近性质  40-46
  2.4 模拟结果  46-51
  2.5 本章小结  51-52
第3章 双重广义线性模型中的变量选择  52-88
  3.1 引言  52
  3.2 基于信息论的子集选择法  52-64
    3.2.1 模型结构  53
    3.2.2 扩展拟似然函数  53-54
    3.2.3 扩展AIC准则  54-57
    3.2.4 模拟研究  57-61
    3.2.5 实例分析  61-64
  3.3 针对高维数据的研究  64-87
    3.3.1 引言  64
    3.3.2 非凹惩罚扩展拟似然方法  64-65
    3.3.3 估计的渐近性质  65-78
    3.3.4 估计的计算问题  78-81
    3.3.5 模拟研究  81-87
  3.4 本章小结  87-88
第4章 通过变量选择进行数据诊断  88-101
  4.1 引言  88-89
  4.2 数据变换的诊断  89-90
  4.3 异常点的诊断  90-91
  4.4 数据变换与异常点的同时诊断  91-92
  4.5 一种确定阈值的方法  92-93
  4.6 模拟与应用  93-99
  4.7 本章小结  99-101
结论  101-104
参考文献  104-117
博士期间发表和完成的论文  117-118
致谢  118

相似论文

  1. 门槛分红策略下带两类索赔风险过程模型的研究,O211.67
  2. 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
  3. 多元回归模型中变量选择问题研究,O212.1
  4. 同行评议专家反评估模型的研究,TP182
  5. 线性回归诊断若干问题研究,O212.1
  6. 生存数据模型的变量选择,O212.3
  7. 基于时间序列分析的地铁基坑变形监测数据处理方法研究,U231
  8. 实时系统调度算法的抢占控制模型及其遗传算法实现,TP316.2
  9. 变量选择中的LARS算法及其在国民经济中的应用,O212.4
  10. 基于距离和信息熵的不确定异常点检测研究,TP311.13
  11. 主基因—多基因性状与微效多基因性状的综合选择指数研究,Q75
  12. 应用罚函数方法构建广义指数因子预报模型,F713.35;F224
  13. L1正则化logistic回归在财务预警模型中的应用,TP18;F275
  14. 基于水平集函数的数字化拓扑优化设计及制造,TH122
  15. 高密度聚乙烯装置聚合反应系统智能建模与优化,TQ325.12
  16. 静态利率期限结构的数学模型与算法的研究,F820
  17. 基于RJMCMC方法的线性回归模型异常点识别,O212.1
  18. 加权fusion方法和稀疏偏最小二乘方法的比较,O212.1
  19. 模型选择与假设检验,O212.1
  20. 用加权fusion变量选择方法对森林中蝙蝠活动数据作变量选取,S718.6
  21. 应用蚁群算法对水下高速体的优化设计,TP301.6

中图分类: > 数理科学和化学 > 数学 > 概率论与数理统计 > 数理统计 > 序贯分析
© 2012 www.xueweilunwen.com