如何应用一系列流行病学方法对我国第一部病因学专著不明疾病的我国第一部病因学专著进行研究

点击联系发帖人 时间：2014-12-19 11:18

病因学英文

流行病学习题集】_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
流行病学习题集】
流行病
阅读已结束，如果下载本文需要使用
想免费下载本文？
你可能喜欢流行病学概述-1_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
流行病学概述-1
适合初学者
阅读已结束，如果下载本文需要使用
想免费下载本文？
你可能喜欢科学研究中要控制混杂因素（流行病学原理与方法系列之三）
混杂在科学研究中无处不在。最浅显而著名的例子如“苗长楼高”，实际上苗长与楼高并无关联，时间因素在其中起了作用。在科学研究中，如果不注意调整混杂因素，会导致错误的结论。
在医学中，混杂偏倚常常是由于一种或多种混杂因素的影响，夸大或掩盖了暴露与疾病之间的联系，从而使真正的关联被错误的估计。混杂因素，又称混杂因子，是指既与疾病有关，又与暴露有关，在比较组之间分布不均匀，导致歪曲（夸大或缩小）暴露与疾病之间的关系的因素。混杂偏倚在观察性研究和实验性研究中均会出现，而前者更多见一些。正确应用流行病学原理和方法，是有效控制混杂的根本前提。
（一）混杂的定义可以通过可压缩准则、可比较准则、虚拟事实模型、图模型来阐述。
&&&&1.可压缩准则（collapsibility-based）：如果控制某一因素后得到的各水平上的关联度量与不控制该因素的边缘关联度量相等，则该因素不是混杂因素，并且称该因素是可压缩的。如果各层的相对危险度都相等，且与边缘相对危险度也相等，称相对危险度是可压缩的；如果各层的危险差都相等，且与边缘危险差也相等，称危险差是可压缩的；如果各层的优势比都相等，且与优势比也相等，称优势比是可压缩的。此时，可得到公共相对危险度、公共危险差、公共优势比。可能会出现某种关联度量可压缩，而其他关联度量不可压缩的情况，例如相对危险度可压缩，但危险差、优势比可能不可压缩。因此，可压缩准则依赖于用什么关联测度和背景因素的水平尺度。
2.可比较准则（comparability-based）：Miettinen与Cook基于可比较准则，认为混杂因素Z必须满足以下条件：
1）Z必须是疾病的危险因素；
2）Z在暴露总体和非暴露总体的分布不同。
另外，Z不能是暴露与疾病正在研究的这条因果链上的中间变量。判断是否是暴露与疾病因果链上的中间变量，这取决于待研究的病因通路。如研究趋化因子受体（CCR5）缺陷是否减缓进展为HIV的病程时，不能按照HIV病毒载量分层，因为它处于CCR5缺陷和HIV病程缩短的中间环节，不是混杂因素；而评价锻炼和冠心病之间的关系时，HDL水平能否作为混杂因素取决于研究的通路，如HDL处在待研究的通路上，则不是；否则是混杂变量。
可压缩准则与可比较准则是互补的，但是它们的结合也并非是判断混杂的充分条件。不过两者的结合可以尽可能地排除非混杂因素。实际工作中，流行病学家常常在考虑问题时，接受“可比较准则”，而在分析问题时，接受“可压缩准则”。两者结合构成判断混杂因素的三个必要条件：
1）对照总体中，Z是危险因素，且Z在暴露总体和非暴露总体的分布不同；
2）相对危险度关于Z是不可压缩的
3）危险差关于Z是不可压缩的
3.虚拟事实模型：用虚拟事实模型来定义混杂。该模型最基本的概念是引入潜在的虚拟结果。如果能观测到同一个个体接受干预处理和未接受干预处理的两个响应结果的话，那么，可以用这两个响应结果的差来评价该干预处理对这个个体的因果作用。但是在流行病学和医学研究中，每一个个体仅处在一个处理状态下，要么接受干预，要么未接受干预。因此，我们只能观察到一个结果，另一个响应观察不到，这个观察不到的结果是虚拟结果。虚拟事实模型开始被应用于进行因果推断，应用该模型可以给出关于因果作用最精确的定义和描述，同时给混杂完整的形式化定义。虚拟事实模型对于个体因果作用是这样定义的：它是对个体进行处理和不进行处理的结果之差，由于一个个体只能有一种处理状态，因此ICE是一种虚拟量；平均因果作用是总体中的所有个体都进行处理后的结果的平均值与所有个体都不处理的结果的平均值之差，由于任何个体只能有一种处理状态，因此ICE也是一种虚拟量。
（二）混杂的控制，阻止暴露-混杂和疾病-混杂之间至少一条关联，即可控制混杂。选择需要控制的混杂因子，通常是结合专业知识进行选择，如年龄和性别。常用的策略有：前向选择策略（从最简单的可接受的分层开始进行暴露效应估计，然后根据混杂因子作用的大小，将作用较大的混杂因子一个个增加到分层变量中）；后退选择策略（对所有能够调整的潜在混杂因子都进行调整，然后将导致变化最小的混杂因子逐一剔除，如果某变量的剔除导致的总效应估计值的变化超过某一邻界点时，删除即可终止）
1）限制：针对某些可能的混杂因素，对研究对象的入选条件加以限制。限制使混杂因素恒定，没有变异，消除了暴露-混杂，疾病-混杂的联系。优点在于概念易懂，然而缺点是符合条件的研究对象减少；筛检大量个体，只能入选其中一部分，这样效率太低；影响结果外推；限制范围太宽或不当，可能有残余混杂；不能评价交互作用。
2）随机化：研究对象随机分配于各组，以使比较组之间在混杂因素的分布上达到均衡，常用于实验性研究，以临床实验中多见。可针对已知或未知混杂，但是当样本量较小时，由于机会的原因，可能并不能完全平衡两组之间的混杂因素，样本量越大，这一问题越小。随机化不能消除混杂。
3）匹配：匹配可以是在研究对象间逐个匹配（个体匹配），或者是组间的匹配（频数匹配）。队列研究中的匹配是指不暴露的个体在混杂因素水平上与暴露个体匹配；病例对照研究中的匹配是不患病的个体在混杂因素水平上与患病个体匹配。队列研究中，如果在研究设计阶段应用匹配，则分析阶段无需再控制配比因素；而病例对照研究中，由于匹配因素与暴露因素之间的联系，因此，匹配造成在暴露组和非暴露组的选择上一种类似混杂的作用，实际上是一种选择偏倚。因此，匹配和匹配后按照匹配因素进行分层分析，是病例对照研究中控制混杂的必要条件。在病例对照研究中，匹配并非直接控制混杂，而是提高了控制混杂的效率。要防止匹配过头，因为它反而降低了研究效率：某些仅与暴露有关，而与疾病无关的因素不得匹配；暴露和疾病因果链上的中间变量也不得匹配。匹配主要用于病例对照研究中，在队列研究及实验流行病学研究中也有应用。队列研究中的匹配是暴露者与非暴露者在某因素上的匹配，因此，这种匹配阻止了暴露因素与匹配因素之间的可能关联，一旦匹配，原则上即可完全控制混杂，不必在资料分析阶段进一步控制。匹配在随访之初，匹配改变了病例来源的源人群中匹配因素的分布；而病例对照研究中的匹配是病例与对照在某因素上的匹配，由于暴露因素与匹配因素之间的关联，导致在匹配中引入选择偏倚，或者说是一种类似混杂的作用。但是这种“混杂”的方向和大小与非匹配的病例对照研究中分层分析后评估的混杂的方向和大小都可能不同。在病例对照研究中，需要在分析阶段进一步控制混杂。
匹配的优点：对于其他方法难以控制的混杂很有用，如复杂的名义变量；对于混杂变量的不同水平在病例和对照之间（或暴露和非暴露之间）达到平衡，可以提高统计学精度。
缺点：有时很难匹配，有的病例不得不舍弃，限制了样本量；一旦匹配，该因素与疾病的关系不能分析；一旦匹配，后果无法挽回，如该因素恰好是暴露与疾病的中间变量，则这条链将无法分析；如果被匹配的因素事实上并非混杂因素，则统计学精度比不匹配时还要低。匹配过头的危害包括损害统计效率、损害真实性、损害费用效益。
4）分层分析：将研究资料按照混杂因素来进行分层。若各层之间的暴露与疾病的效应值一致，可以用M-H法计算调整混杂因素后的效应估计值；若各层之间的暴露与疾病的效应值不一致，可用标准化法的方式来调整。存在混杂时，需要计算经过调整的总的关联效应估计值（加权平均，如Woolf法，M-H法），此时一定要结合临床/生物学意义进行综合分析，而不应该仅仅根据统计学结果来判断。调整后的关联效应值与粗的关联效应值的变化在10%以上时，可以认为混杂作用的存在，否则此时可以认为第三个变量没有作用，可以忽略。
目的：估计和控制混杂因子，评估和描述效应修正因子，描述随访研究中的失访问题和竞争风险，用于生存分析和诱导期分析。
分层分析缺点：一次只能分析一种暴露-疾病关联；连续性变量转变为离散性变量，丢失信息，可能造成残余混杂；需要控制的混杂较多时，分层很烦琐。
汇总分析是一种跨越各层数据，排除混杂影响，对效应进行估计的方法。汇总分析有一个重要的假设，即所要估计的效应在各层间是一样的，不变的。对每一层分别进行层特异估计(stratum-specific
estimate)后，将各层的结果予以相应权重取平均值来取得最终的总效应。权重赋予的方法是层所包含的数据越多，权重则越大。当数据不符合做汇总分析的前提假设时，应该改用标准化法(standardization)来估计因素的效应。直接合并（direct
pooling）：利用从各层资料中计算的效应估计值方差的倒数直接作为对各层效应估计值进行加权的权重。要求各层内有足够的样本，以获得比较满意的方差估计。如果样本太少，方差将较大，估计的结果将不可靠。用汇总分析法计算汇总后的估计值，前提是假定所研究的因素在各层的作用是一致的。这个假设并不就意味着各层估计的数值要完全一致，或者是非常接近，各层的结果还是可以有变化的。现实应用中，如果不是数据非常明显的违背了这个假设，都可以使用汇总分析来估计相应的指标，条件并不是很死板的。如果要严格的考察数据是不是符合前提假设，两层是不是同一个总体，应该进行异质性检验(a
test of heterogeneity)或者叫做同质性检验(a test of
homogeneity)。如果各层间非同质，可能存在效应修饰作用，则不宜进行层别估计值的合并估计和调整合并估计。对其表述可采用：分别列出每一层的估计值或标准化法或效应函数法。分别列出每层估计值的弊端在于：资料的整体性被分割，每一层的效应估计值的精确度被降低，降低资料的说服性，导致希望能够简单明了表明结果的愿望落空。
标准化是一种通过赋予分层数据一定的权重，然后求平均，从而获得单一总体值的方法。每层数值权重来自于一个标准人口。标准化法能够比较简便地得到一个单一的总体数值。粗率其实也可以看作是对分层数据进行加权后的平均值，只不过在这其中的权重与研究中实际的人口分布有关。将年龄别率假设定义为Ai/PTi(Ai是第i个年龄组中的病例数，i可以从1变化到K，PTi为这个年龄组中所有的人年数),
则可以推导出
,A代表研究中总的病例数，PT是总人年数。粗率即各层数值加权后的平均值，其中的权重是PT1,PT2,…PTk。"式中PTk是研究人群的自然权重(natural
weights)或者是隐含权重(latent
weights)。"如使式中权重值反映一个外部标准人口的年龄结构，那等式的结果就是标准化的率。标准化率是假设同样的年龄别率发生在标准人口年龄结构中所算得的粗率。
汇总分析与标准化的比较：标准化最主要的目的在于进行比较。"标准化和汇总分析其实本质上是类似的，都是对分层数据经过加权后取平均值，然后再比较。–汇总分析中的权重信息是每层数据所体现的信息量。信息量大的层相应的权重也就越大，所以汇总分析的结果实际上是从统计有效性(statistical
efficiency)出发的结果。–标准化对数据也会给出一定的权重，但是和汇总分析不同的是，权重的大小和每层数据的多少是没有关系的。汇总分析中每层的权重是来源于数据本身的，而标准化过程当中出现的权重来自于外部标准，它体现的是所选用标准的某因素分布情况，取决于具体的人口或者是强行指定。当数据非常明显的抵触于效应不变的假设时，可以用标准化的方法来估计总效应数值。这是因为进行标准化并没有对数据在各层的效应是不是一致有要求。标准化不仅可以用在指标值在各层变异很大时，即使是通常采用汇总分析进行处理的数据，标化也是个可以选用的方法。不同研究的结果，采用相同标准进行标准化后有较好的可比性。汇总分析是由数据本身决定权重的大小，从数学角度出发给出在统计上最佳结果。运用汇总分析可以得到较为精确的结果（如相对窄的可信区间），但是权重作为统计学名词，它应该源于数据外部，而且汇总分析中的权重不可能指定。标准化法的缺点是，如果将大的权重给予很小的数值时，这个方法就会变得没有效率。但是另外一方面，好处就是标准化法中的权重来源于外部。对数据进行标准化处理时，一定要把所采用的标准以及权重附在结果中。同时标准化后的结果可以用于不同研究的比较。
分层分析对于多变量而言的优势：通过对数据的分层处理，研究者可以清晰地看到暴露因素，疾病，以及潜在混杂因子的分布情况。分布上的差异能够清楚地展示；计算简便：可以从分层数据获得信息，自己进行汇总分析或标准化的计算；分层分析所要满足的前提假设要相对少：减少了得到有偏倚结果的可能性。在分析可能存在混杂的数据时，分层分析应该被视为是常规方法予以应用。在相同的条件下，多变量分析的结果很少有和单变量的分层分析相异的情况。即使是在更倾向使用多变量分析时，分层分析也仍然可以比较好地解释主要混杂因子的作用。
多因素分析：分层分析方法在控制混杂因素时的局限性，是多因素分析发展的动力。如果要控制的混杂因素很多，受样本量的影响，有时分层分析可能不适用，这时候可以用多因素分析的方法，包括协方差分析、logistic回归分析、线形回归、比例风险回归等。应用多变量分析时，必须考虑其适用条件，如变量的独立性问题、分布问题、共线性问题等，盲目使用多元分析方法极为有害。由于多变量分析可以用于控制多个混杂因素，同时考虑多个混杂因子的相互作用，所以现在很多人倾向于使用多变量分析控制混杂
前进法VS后退法：单个变量分析不存在混杂时，一起分析可能存在混杂。首选后退法，首先纳入对所有的混杂因素一起评价，以确定是否存在联合的混杂作用，计算将所有的混杂因素调整的效应估计值；然后去掉一个因素，重新计算根据剩余的因素调整的效应估计值，如果变化很小，则该因素可以去掉(相当于可压缩)；继续上述过程，直到没有可以去除的变量为止；缺点：当混杂因素很多时，每个单元格内计数非常小，分层的关联效应估计值会非常不精确。
前进法是首先纳入一个影响最大的混杂因素，然后增加一个影响较大的因素，如果调整的效应估计值发生有意义的变化，则保留此变量，依次类推。该法不存在后退法中可能遇到的开始某单元格太小而遇到的情况。但是缺点在于没有评价许多变量的联合混杂作用。
着手研究时，考虑哪些因素为混杂因素呢？
1.对于较成熟的领域，任何已有证据提示为混杂的变量都应该考虑；
2.对于崭新的领域，考虑那些与疾病有关也可能与暴露有关的因素；
3.如果难以确定，干脆对所有与疾病有关的因素都进行测量。
控制混杂可能会导致统计学偏倚，表现为过多的分层因素导致效应估计值远离无效假设，可通过向前选择策略、选择混杂因子的临界点时采用区间估计、精确估计效应值及其可信限。层数越多，也就是层间距越小的时候，控制混杂的能力会优于宽间距少层数的分法。分层分析所能够控制的仅仅是层间混杂(between-stratum
confounding)，而对层内部仍存在的那一部分混杂(within-stratum
confounding)则无能为力。层内的这部分混杂此时也被称为残余混杂(residual
confounding)，残余混杂这个名词有时也在其他情形中使用。如根本没有被控制的混杂，或者是某因素被完全控制但对它的测量从一开始就是不准确的。总之，残余混杂产生的原因：对一系列连续性混杂的分类不合适，选择的调整变量不能很好地代表需要调整的混杂效应，对混杂变量的测量有误，其他：潜伏性残余混杂因子，无法观察或认识到。为了尽量避免层内的残余混杂，应该进行更加细致地分层，增加层的数目，另外最好不要出现开区间的层(比如，大于等于55岁)。但如分层如果过于细致，会带来数据的不合理性，某些格子内的数字过小，使得结果变得不稳定。在实际应用中，应该根据需要在如何更好控制混杂和避免产生随机错误之中找到一个适当的平衡点。
混杂VS交互：混杂是我们不关心的或者讨厌的因果链，希望避免或排除；交互是对暴露和疾病之间关系的更详尽的描述，是对生物学体系充实的写照，是应该报告的，而不是消除的，是应该探索与发现的。在评价暴露与疾病的关系时，第三个变量可能是：效应修正因子、混杂变量、中间变量或无作用变量。仅仅依靠统计学检验，通过粗效应值与调整效应值之间有无统计学差异来判断有无混杂是不恰当的。有意义的差异应该根据临床/生物学意义共同判定。比如当样本量很小时，即使实际上两者之间应该差很大，也可能检验不出差异，因此，不能把粗估计值和调整估计值之间的差异仅仅看作是由于机会的作用。
流行病学交互作用& (McMahon)：When the incidence
rate of disease in the presence of two or more risk factors differs
from the incidence rate expected to the result from their
individual effects。
生物学交互作用：当2个或2个以上危险因素存在时，个体是否发生某种疾病与根据这些危险因素单独的效应所预期的情况不同。统计学交互作用只是一种由数据反映出的统计现象，并不一定具有生物学意义，只是有助于探讨病因。把统计学交互作用分析结果解释、简单推断为生物学交互作用分析的结果，是不合理的。
在一个病例对照研究中，由于无法获得率的绝对差异,因此同质性策略只能用于评价乘法交互作用的存在与否,而无法用于评价加法交互作用。然而，通过使用比较观察效应与预期效应的策略可以评价在一个病例对照研究里是否存在加法交互作用。在一个匹配的病例对照研究里研究交互作用时:匹配变量的独立效应不能被测量。病例对照研究里同质性策略不能用于检测加法交互作用。因此在一个匹配病例对照研究里，匹配因素和其他因素之间的加法交互作用是无法被评价的。匹配因素与其他因素之间的乘法交互作用无法通过比较观察效应与预期效应的途径评价,但可以通过同质性策略评价。在匹配病例对照研究中，评价交互作用小结：以吸烟为匹配变量，饮酒为暴露因素。在同质性策略下，评价乘法交互作用，需要知道根据吸烟状态的饮酒的OR；评价加法交互作用，需要知道根据吸烟状态的饮酒的AR，因此前者策略可行，后者不可行。在比较观察效应和预期效应策略下，评价乘法交互作用和加法交互作用，均需要知道表示吸烟和饮酒状态的独立的OR。因此策略均不可行。
同质性策略便于理解，应用广泛，不能评价病例对照研究中的加法交互作用，可以评价不匹配和匹配病例对照研究中的乘法交互作用；比较观察效应与预期策略来源于生物学交互作用的概念，可以评价病例对照研究中的交互作用，不能评价匹配研究中的交互作用。当两种策略都可行时是完全等价的。流行病学名词解释与习题集[1]_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
流行病学名词解释与习题集[1]
公共卫生与预防医学
阅读已结束，如果下载本文需要使用
想免费下载本文？
你可能喜欢}

奇偶密码网