有网友碰到这样的问题“生存分析(二)--Cox比例风险模型(Coxproportional-hazardsmodel)”。小编为您整理了以下解决方案,希望对您有帮助:
解决方案1:
Cox比例风险模型(考克斯,1972年)是医学研究领域中常用的统计方法,用于分析患者的一个或多个预测变量与存活时间之间的关联。在上一个章节中,我们介绍了生存分析的基础知识,包括生存数据的分析和汇总方法,例如Kaplan-Meier曲线和logrank检验。这些方法主要用于单变量分析,它们根据研究中的一个因素描述生存情况,但无法考虑其他因素的影响。
Kaplan-Meier曲线和对数秩检验仅在预测变量为分类变量时有效,例如治疗A与治疗B,男性与女性。对于定量预测指标,如基因表达、体重或年龄,这些方法并不适用。因此,Cox比例风险回归分析成为了一种替代方案,它既适用于定量预测变量,也适用于类别变量。Cox回归模型能够同时评估几种风险因素对生存时间的影响。
本文旨在介绍Cox回归模型,并提供使用R软件的实际操作示例。在临床研究中,已知的一些因素(称为协变量)可能会影响患者的预后。例如,比较了两组患者:有特定基因型的患者和没有该基因型的患者。如果其中一组包含较年长的个体,则生存率的任何差异都可能归因于基因型或年龄,或两者都有。因此,在研究某个因素与生存率的关系时,通常需要调整其他因素的影响。
统计模型是分析多个因素对生存率的常用工具,它们还能提供每个因素的影响大小。考克斯比例风险模型是生存分析数据建模的最重要方法之一。下一节将介绍Cox回归模型的基本原理。
Cox回归模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点特定事件(例如,感染,死亡)的发生率。预测变量(或因子)在生存分析文献中通常称为协变量。
Cox模型由h(t)表示的风险函数表示。简而言之,危险函数可以解释为在时间t死亡的风险。它可以估计如下:
其中:
Cox模型可以被写为变量x(i)的危险对数的多元线性回归,而基线危险是随时间变化的“截距”项。系数bi称为危险比率(HR,hazard ratio)。bi值大于零,或相当于风险比率大于1,表明随着第i个协变量值的增加,事件风险增加,因此生存时间缩短。
总之,HR=1表示无影响,HR1表示危险增加。在癌症研究中,考克斯模型的关键假设是观察组(或患者)的危险曲线应成比例,并且不能交叉。
假设两个x值不同的患者k和k'。相应的风险函数可以简单地写成如下:
因此,考克斯模型是一个比例风险模型:任何一组事件的风险都是其他任何一组事件风险的常数倍。这一假设意味着,如上所述,各组的危险曲线应成比例,不能交叉。
这种比例风险的假设应该得到检验。我们将在本系列的下一篇文章中讨论评估比例性的方法:考克斯模型假设。
我们将使用两个R包:survival和survminer。函数coxph()[在survival包中]可用于计算R中的考克斯比例风险回归模型。简化格式如下:
我们将在生存R数据包中使用肺癌数据。我们将使用以下协变量来拟合考克斯回归:年龄,性别,ph.ecog和wt.loss。我们将首先为所有这些变量计算单变量考克斯分析。然后我们将使用两个变量来拟合多元考克斯分析,以描述这些因素如何共同影响生存。
单变量考克斯分析的计算公式如下:
Cox模型的功能摘要()产生更完整的报告:
Cox回归结果可以解释为:
要将单变量coxph函数一次应用于多个协变量,请输入以下命令:
上面的输出显示了每个变量相对于总生存率的回归beta系数,效应大小(以危险比给出)和统计显着性。通过单独的单变量Cox回归评估每个因素。
从上面的输出中,
现在,我们要描述这些因素如何共同影响生存。为了回答这个问题,我们将执行多元考克斯回归分析。由于变量ph.karno在单变量Cox分析中不重要,因此在多变量分析中将其跳过。我们将3个因素(性别,年龄和ph.ecog)纳入多元模型。
时间常数协变量的死亡时间的考克斯回归指定如下:
所有三个总体测试(似然性,Wald和得分)的p值均显着,表明该模型具有显著性。这些测试评估了所有beta的综合零假设为0。在上面的示例中,检验统计量非常一致,并且完全拒绝了综合零假设。
在多变量考克斯分析中,协变量性别和ph.ecog保持显着性(p <0.05)。但是,协变量年龄不显着(p = 0.23,大于0.05)。
性别的p值为0.000986,危险比HR = exp(coef)= 0.58,表明患者的性别与死亡风险降低之间有很强的关系。协变量的危险比可解释为对危险的倍增效应。例如,保持其他协变量不变(女性(性别= 2))可将危险降低0.58或42%。我们得出结论,成为女性与良好的预后相关。
同样,ph.ecog的p值为4.45e-05,危险比HR = 1.59,表明ph.ecog值与死亡风险增加之间有很强的关系。保持其他协变量不变,ph.ecog的值越高,生存率越低。
相比之下,年龄的p值现在为p = 0.23。危险比HR = exp(coef)= 1.01,95%置信区间为0.99至1.03。由于HR的置信区间为1,因此这些结果表明,在调整phog值和患者的性别之后,年龄对HR差异的贡献较小,并且仅趋于显着。例如,在其他协变量保持不变的情况下,再增加一岁会引起每日死亡危险,其系数为expβ= 1.01或1%,这并不是一个重要的贡献。
将考克斯模型拟合到数据后,就可以可视化特定风险组在任何给定时间点的预测生存率。函数survfit()估计生存比例,默认情况下为协变量的平均值。
我们不妨展示估计的生存率如何取决于目标协变量的值。
考虑到这一点,我们想评估性别对估计生存率的影响。在这种情况下,我们用两行构造一个新的数据帧,每一行代表性别。其他协变量固定为其平均值(如果是连续变量)或最低水平(如果它们是离散变量)。对于伪协变量,平均值为数据集中编码为1的比例。该数据帧通过newdata参数传递给survfit():
在本文中,我们描述了考克斯回归模型,用于同时评估多种风险因素与患者生存时间之间的关系。我们演示了如何使用生存包计算考克斯模型。此外,我们描述了如何使用survminer软件包来可视化分析结果。