学位论文 > 优秀研究生学位论文题录展示

多水平logistic模型及其在流行病学调查数据中的应用

作　者: 骆华萍
导　师: 张丕德
学　校: 广东药学院
专　业: 流行病学与卫生统计学
关键词: 多水平logistic模型层次结构数据组内相关性随机效应固定效应缺失数据
分类号: R181.3
类　型: 硕士论文
年　份: 2010年
下　载: 320次
引　用: 2次
阅　读: 论文下载

内容摘要

目的:探讨多水平logistic模型的基本理论及其在流行病学调查数据上的应用,旨在研究多水平logistic模型在实际应用过程中的方法学问题,为以后层次结构数据的有效分析提供参考。方法:在流行病学中常常存在层次结构数据,这种数据的特性为组群间差异较大,而组群内的成员间趋向于一致,即呈现一定的聚集性。这时,传统模型中数据间关于相互独立和方差齐的假定有可能不成立。多水平logistic模型在处理结构数据时考虑到了数据的层次性和聚集性,其基本思想是将总残差分解到相应的各个水平,其中高水平单位之间的变异表示组间变异,低水平单位间的变异表示个体间差异,将各水平残差表示为某些变量的函数,从而可分析其影响因素及变化趋势。多水平logistic模型与一般logistic回归模型的区别是:前者可以很好地处理存在组内聚集性的数据,可同时测量个体水平变异和组水平变异,可同时考虑固定效应和随机效应,还可研究场景变量对于组群单位的影响,而这些都是后者不能分析和解决的。本研究的主要内容包括多水平logistic模型理论的基本原理与方法、实例拟合过程(包括深圳市社区居民健康状况调查和广州市居民吸烟情况调查数据)、分析步骤、方法比较及结果解释等。本研究的数据预处理采用SAS9.2软件,多水平模型分析采用MLwiN和SAS9.2软件,数据缺失值采用SAS9.2的MI过程进行处理。结果:实例应用表明多水平模型在处理层次结构数据时,能够解决其有数据层次性、聚集性的问题,并且能够根据专业知识和实际情况将解释变量处理为固定效应或者随机效应,从而能够得到更丰富,更全面的结果。将多水平模型与筛选变量后的logitistic回归模型进行比较,前者的标准误比后者更小,统计效果更显著,且对于结果比后者有更合理的解释性。将缺失值进行多元填补后,能够得到比原始数据更可靠的结果。结论:多水平logistic模型理论在处理二分类层次结构数据时,提供了比传统模型更接近于客观情况的丰富信息。一般logistic回归模型简单易行,但只能研究个体层面的信息和其固定效应,无法分析组群方面信息和哪些因素对结局变量的变异程度有影响,而且当数据存在聚集性时会出现偏误,并且对于结果不能给出合理的解释;多水平logistic模型充分考虑了数据间的相关性问题,可考虑层次信息,并且能够同时研究个体变异和组间变异,能够分析固体效应和随机效应,对研究因素可做出准确的估计和假设检验。但是,多水平模型也有一定的局限性,如多水平模型要求低级水平和高级水平的残差方差服从正态分布或多元正态分布,参数估计较复杂,等等。另外,有层次结构的数据不一定需要做多水平模型分析,首先要看其组内相关性的大小,即是否存在组内聚集性,如果不存在数据聚集性,则用一般统计模型就可以了。在实际应用中,要结合专业知识和数据特征来选择合适的统计方法。忽略层次结构数据的组群效应,将会以损失资料信息的完整性为代价,使统计结果失效,并有可能得出错误的结论。因此,在有层次结构的流行病学调查数据中,多水平logistic模型是一个很好的选择,随着多水平logistic模型理论的完善和成熟,多水平logistic模型在流行病学领域中将会有更大的优势和更广阔的应用前景。

全文目录

中文摘要  6-8
Abstract  8-10
1 前言  10-16
  1.1 国外研究进展  11-13
  1.2 国内研究进展  13-14
  1.3 软件应用  14
  1.4 国内研究待解决问题  14
  1.5 研究目的  14
  1.6 选题意义  14-16
2 原理与方法  16-34
  2.1 层次结构数据  16-19
    2.1.1 层次结构数据概念及内涵  16-18
    2.1.2 层次结构数据分析中容易出现的问题  18-19
  2.2 流行性学调查特征  19-20
    2.2.1 流行病学调查分类  19
    2.2.2 流行病学调查数据特征  19-20
  2.3 二分类结局变量多水平模型  20-31
    2.3.1 广义混合线性模型  20-21
    2.3.2 多水平logistic 模型  21-22
    2.3.3 模型假设  22-23
    2.3.4 组内相关系数ICC 和方差分配系数VPC  23-24
    2.3.5 空模型  24
    2.3.6 固定模型和随机模型  24-27
    2.3.7 参数估计  27-30
    2.3.8 模型检验  30-31
    2.3.9 模型拟合及残差检验  31
  2.4 缺失数据的处理  31-33
    2.4.1 缺失值产生原因  31-32
    2.4.2 缺失值的处理方法  32-33
  2.5 软件应用  33-34
3 实例应用  34-51
  3.1 深圳市居民健康状况调查的多水平模型的应用  34-46
    3.1.1 数据来源  34
    3.1.2 数据预处理和格式  34-36
    3.1.3 分析结果  36-46
  3.2 广州市居民吸烟现况调查的多水平模型的应用  46-49
    3.2.1 数据来源  46
    3.2.2 数据预处理  46-47
    3.2.3 数据分析结果  47-49
  3.3 填补前数据和填补后数据多水平模型比较  49-51
4 讨论  51-61
  4.1 多水平logistic 模型在流行病学的应用  51-55
    4.1.1 深圳市社区居民健康调查  51-54
    4.1.2 广州市居民吸烟现况调查  54
    4.1.3 总结  54-55
  4.2 多水平模型的用途  55-56
  4.3 多水平模型的优点及局限性  56-57
    4.3.1 多水平模型的优点  56-57
    4.3.2 多水平模型的局限性  57
  4.4 多水平模型的问题探讨  57-59
    4.4.1 数据中心化  57-58
    4.4.2 参数估计方法的选用  58
    4.4.3 收缩估计  58-59
  4.5 缺失值及填补数据在数据分析的应用  59-60
  4.6 有待进一步研究问题  60
  4.7 结论  60-61
参考文献  61-65
附录1 四种VPC 方法  65-67
附录2 PQL 和MQL 法  67-68
附录3 SAS 程序  68-71
附录4 模型线性法和模拟法VPC 的MLwiN 软件程序  71-72
综述  72-92
  参考文献  86-92
攻读硕士期间发表论文  92-93
致谢  93

多水平logistic模型及其在流行病学调查数据中的应用

内容摘要

全文目录

相似论文