学位论文 > 优秀研究生学位论文题录展示

数据缺失及相关因素对逐步回归变量筛选的影响

作 者: 廖慧敏
导 师: 林燧恒
学 校: 复旦大学
专 业: 流行病与卫生统计学
关键词: 缺失数据 逐步回归 变量筛选
分类号: R181.3
类 型: 硕士论文
年 份: 2011年
下 载: 94次
引 用: 1次
阅 读: 论文下载
 

内容摘要


目的:主要研究数据缺失对逐步回归变量筛选的影响;探讨不同缺失比例、不同缺失机制和缺失类型对逐步回归筛选结果的影响。附带验证待选变量之间的相关系数、待选变量个数、所设定的模型拟合程度、样本量(或者EPV)以及逐步回归变量进入和移除的显著性水平对逐步回归变量筛选的作用。方法:通过SAS软件进行蒙特卡洛数据模拟。设置真实模型(分为一般线性模型和probit模型),产生六种不同的数据集,包括:完整数据、完全随机缺失数据、线性随机缺失数据、曲线随机缺失数据、线性非随机缺失数据以及曲线非随机缺失数据。随后,在所产生的数据上进行逐步回归筛选,并记录筛选结果用于评估各个因素的作用。在线性的真实模型的情况下,我们设定了五个评价指标考察不同因素的影响,分别为:1)进入模型的真实变量平均个数;2)进入模型的噪音变量平均个数;3)综合指标G,衡量真实变量和噪音变量进入模型的综合情况,G=sensitivity*specificity,此处sensitivity=(被选入模型的真实变量个数/备选的真实变量的个数),specifcity=(1-被选入模型的噪音变量个数/备选噪音变量个数);4)筛选得到真实模型的比例;5)回归系数的估计值与真实模型中其设定值的偏差;其中前四个指标衡量不同条件下的逐步回归筛选对真实变量和噪音变量的识别能力,第五个针对系数估计的准确度。同时,为验证不同类型的结局变量模型中相关因素的影响是否一致,我们设置二分类结局变量的probit真实模型,探讨相关因素的影响。Probit模型的情况下所设定的评价指标与线性模型情况下的指标一致。模拟操作时,每种因素组合条件下模拟1000次,产生模拟结果用于因素评估。结果:真实变量进入模型的情况,回归系数的估计在一定程度上受缺失数据的影响,但缺失数据对于噪音变量进入模型的影响很小。我们的结果显示,缺失比例所产生的影响相对于缺失机制和缺失类型而言更为明显。缺失比例越大,进入模型的真实变量越少,系数估计的偏倚越大;当缺失比例较小时,各种缺失所呈现的差别很小,缺失带来的影响很大一部分跟样本量的损失有关;当缺失比例增大时,各种缺失情况的差别才开始显现。对于真实变量进入模型而言:1)完全随机缺失相对于其他缺失未表现出明显优势;2)在同种缺失机制下,线性缺失类型要优于曲线随机类型的表现;3)而在同种缺失类型下,一般随机缺失要略优于非随机缺失的表现;4)表现最差的为曲线非随机缺失。而不同种类的缺失对于回归系数估计的影响未呈现出统一的趋势性。另外,我们发现,真实变量进入模型的主要影响因素是所设定的模型拟合程度、待选变量之间的相关系数、所设定的逐步回归筛选显著水平以及样本量;而噪音进入模型的主要影响因素包括:待选变量个数和逐步回归筛选的显著性水平;对于回归系数估计的准确度以及所得到真实模型的比例,主要影响因素为:真实模型的拟合程度以及待选变量之间的相关性。结论:1)对存在缺失的数据进行逐步回归变量筛选时:缺失的影响主要体现在对真实变量的进入以及回归系数的估计上,对于噪音变量的进入其作用不明显;若缺失比例较小(如,总体缺失比例小于25%),各种缺失的差别不大,缺失对于筛选结果的影响主要可归为样本量的减少所引起;当缺失比例较高时,缺失不单单是样本量的损失所能估计,不同缺失对于实际研究中因素的效应估计以及影响因子的筛选可能产生不同影响。因此,我们不仅需要关注缺失的机制,同时需要关注缺失类型。2)我们建议研究者无论对完整数据还是缺失数据采用逐步回归变量筛选时,需要注意以下因素:待选变量相关系数、待选变量个数、样本量以及逐步回归显著性水平等因素对逐步回归筛选;正如我们的研究所示,逐步回归有其自身的缺陷性;它可能漏选真实变量、选入噪音变量并在系数估计时产生偏差;这些情况在数据存在共线性以及待选变量个数较多时尤其严重。所以,无论缺失与否,当待选变量之间相关性较高且/或待选变量个数较多时,我们不推荐采用逐步回归的方法。

全文目录


相似论文

  1. 针对零膨胀超散度计数数据的统计推断,C81
  2. 兖州矿区植物波谱变异与重金属胁迫特征研究,X173
  3. 基于SARIMA与神经网络混合模型的桥梁健康监测系统缺失数据填补,TP183
  4. 广州市森林火灾危害程度预测研究,S762
  5. 转型期我国经济增长与失业率关系研究,F249.2;F224
  6. 氟苯尼考固液相平衡模型及其超细粉体制备过程研究,TQ465.91
  7. 响应变量有缺失时变系数部分线性模型的统计推断,O212.1
  8. 我国股票市场IPO定价的实证研究,F832.51
  9. 缺失数据下两类半参数模型的估计和大样本性质,O212.1
  10. 多水平logistic模型及其在流行病学调查数据中的应用,R181.3
  11. 基于灰色Logistic回归的上市公司财务困境预测研究,F275
  12. 茶树无性系苗期抗寒特性研究,S571.1
  13. 含缺失数据的两值马氏链纵向数据的EM算法,O212.1
  14. 轮古桑南西碳酸盐岩油藏开采机理研究,TE345
  15. 北洛河流域拟步甲科(鞘翅目)物种多样性研究,Q96
  16. 基于人工神经网络的人眼前房直径预测,TP183
  17. 沪深两市上市公司IPO定价的影响因素分析,F224
  18. 织物柔软性的表征与评价,TS101.9
  19. 物流智能调度系统交通流信息处理方法综合应用研究,F224
  20. 蛮汉山樟子松、油松人工林生长规律及对环境响应研究,S791

中图分类: > 医药、卫生 > 预防医学、卫生学 > 流行病学与防疫 > 流行病学基本理论与方法 > 流行病学各论
© 2012 www.xueweilunwen.com