健康管理

健康资讯

当前位置:首页 > 健康管理 > 健康资讯

相关分析和回归分析在健康管理科研中的应用

发布时间:2020-11-16  浏览次数:2699

程志浩, 李宏田, 刘建蒙. 相关分析和回归分析在健康管理科研中的应用 [J] . 中华健康管理学杂志,2020,14 (05): 492-496. DOI: 10.3760/cma.j.cn115624-20200712-00547



相关分析和回归分析是健康管理科研常用统计分析方法。本文结合健康管理科研特点梳理两类方法并着重解读其中难点和应用注意事项。为便于初学者更快上手,本文虚拟了一个健康管理相关案例,并介绍利用R软件开展相关分析和回归分析的实现路径。案例数据包括480条记录和4个主要变量,分别是肿瘤标志物水平、膳食模式、每日平均锻炼时长(min)和体质指数;膳食模式为分类变量,包括6种类型,其余3个变量均为连续变量。案例主要目的是探究每日平均锻炼时长与肿瘤标志物水平的关系,所有分析显著性水平αα设为0.05。案例数据及R code可访问杂志网站下载(扫描本页右下角二维码也可查看)。

一、相关分析

相关分析用于描述变量之间是否存在相关关系以及相关关系的密切程度。相关关系依据相关方向分为正相关、负相关和零相关。正相关即一个变量随着另一个变量的增加而增加、两个变量变化方向相同,负相关即一个变量随着另一个变量增加而减小、两个变量变化方向相反,零相关即一个变量不随另一个变量变化而变化。相关关系包括直线相关和曲线相关,直线相关指两个变量呈线性变化关系,曲线相关指两个变量呈非线性变化关系,如抛物线关系。相关系数是相关分析得出的主要指标,用于度量相关关系强弱,其取值范围介于-1至+1之间,绝对值越大表示相关性越强,正负号则分别表示正相关和负相关。

1. 常用相关分析方法:Pearson相关用于描述两个正态分布随机变量之间的线性相关关系,属于参数统计量范畴。Spearman相关和Kendall相关用于描述两个非正态分布(或者其中之一为非正态分布)随机变量之间的线性相关关系,计算依据是变量秩次而非变量原始数值,属于等级相关和非参数统计量范畴。通常情况下Spearman相关系数和Kendall相关系数两者较为接近,但Kendall相关系数更为保守和稳健[1]。当样本量较小或数据存在异常值或数据存在较多相同值时,应首选Kendall相关系数[23]。以上三种相关系数计算公式可参阅有关资料[45]。案例数据每日平均锻炼时长与肿瘤标志物水平Pearson相关系数为0.55、Spearman相关系数为0.51、Kendall相关系数为0.33,R软件计算三种相关系数的函数为cor()。

2. 相关分析注意事项:开展相关分析之前应绘制散点图。上述三种相关系数表征的均是直线相关关系,对于某些客观存在的曲线相关关系,比如抛物线关系,上述三种相关分析结果可能显示为零相关,故开展相关分析之前应常规绘制散点图。图1便是案例数据每日平均锻炼时长与肿瘤标志物水平变化关系的散点图,可见两者呈现明显的非线性关系,此时不宜直接计算上述三种相关系数。

图1
肿瘤标志物水平与每日平均锻炼时长散点图

样本相关系数应进行假设检验。基于样本获得的相关系数是对总体相关系数的估计,会受到抽样误差的影响,有必要进行假设检验或区间估计。案例数据每日平均锻炼时长与肿瘤标志物水平三种相关系数假设检验P值均<0.01。R软件相关系数假设检验的函数为cor.test()。

相关关系不等同于因果关系。相关关系仅能说明两个变量存在同步变化关系,但并不区分哪个是因哪个是果;两个变量存在相关关系也可能是因为它们均与第三个变量相关。

强相关不等同于实际意义大。假定研究发现日均饮水量与收缩压存在线性正相关,Pearson相关系数为0.90。尽管两者相关性很强,但日均饮水量每增加1L收缩压仅升高0.1 mmHg,表明并不能通过减少饮水量控制收缩压。

二、回归分析

回归分析用于量化评价自变量如何影响因变量。基于研究收集到的样本数据,构建因变量yy与自变量xx的回归模型y=f(x)+εy=fx+ε(εε为误差项),基于此分析自变量xx对因变量yy的效应大小或通过自变量xx对因变量yy进行预测。

1. 普通线性回归:回归分析方法众多,最基础的便是普通线性回归,其他回归分析方法通常可视为对普通线性回归的拓展。普通线性回归因变量为定量指标,当自变量只有1个时,称为简单线性回归,回归模型形式为yˆ=β0+β1x1ŷ=β0+β1x1;当自变量≥2个时,称为多重线性回归,回归模型形式为yˆ=β0+β1x1+β2x2+…+βkxkŷ=β0+β1x1+β2x2+…+βkxk(kk为自变量个数)。基于案例数据,通过简单线性回归(模型1)得出每日平均锻炼时长对肿瘤标志物水平的回归系数为0.25(95%CI,0.22~0.29;P<0.01),表明每日平均锻炼时长每增加1 min,肿瘤标志物水平增加0.25个单位;通过多重线性回归(模型2)得出在控制体质指数影响后,每日平均锻炼时长对肿瘤标志物水平的回归系数为0.24(95%CI,0.21~0.27;P<0.01),表明当体质指数不变时,每日平均锻炼时长每增加1 min肿瘤标志物水平增加0.24个单位。R软件简单线性回归和多重线性回归均可通过lm()函数实现。

(1)普通线性回归的基本假设:普通线性回归在应用时应满足四个基本假设:线性、独立性、正态性、方差齐性[4]。在不满足基本假设的情况下开展普通线性回归分析,结果可能会有偏差甚至完全错误。

线性指因变量yy与自变量xx应呈线性变化关系。对于只有1个自变量的简单线性回归,易于通过yy与xx的散点图是否呈线性趋势加以识别。对于≥2个自变量的多重线性回归,常用识别方法包括:①绘制因变量yy与每个自变量xixi的散点图,分别观察每个自变量与因变量是否呈现线性关系;②构建包含自变量xixi及其二次项x2ixi2和三次项x3ixi3的多项式回归模型,通过检验xixi的二次项和三次项回归系数是否显著判断自变量xixi与yy是否存在非线性关系;③构建因变量yy与所有自变量的普通线性回归模型,然后以回归拟合值yˆŷ作为横坐标、回归残差εε作为纵坐标绘制散点图(称为残差图),如果因变量yy与其中某个自变量xixi存在非线性关系,则残差图可能呈现一定的趋势性而非均匀分布在ε=0ε=0参考线周围。当自变量仅有2个时,还可以通过yy与x1x1、x2x2在三维直角坐标系中的散点图是否呈平面趋势加以识别[6]。图2为前述模型2所对应的残差图,结合上文图1易知每日平均锻炼时长与肿瘤标志物水平存在明显的非线性关系,提示两者关系并不满足线性假设。独立性指样本观察值之间应彼此独立。对于时间序列数据,某一时点的变量值很可能与相邻时点的变量值相关,即样本观察值很可能不符合独立性假设。多水平数据是另一类常见的易于违反独立性假设的数据,包括重复测量数据(如同一批对象不同时间多次体检数据)和层级结构数据(如不同地区多个体检机构的整合数据)。实践中通常基于数据产生过程对独立性假设做出经验性判断,还可以借助残差图或Durbin-Watson检验等对回归残差独立性做出判断,若回归残差存在自相关性表明不满足独立性假设。针对前述模型2回归残差Durbin-Watson检验结果为P<0.01,表明样本间存在自相关性。R软件Durbin-Watson检验可通过car包durbinWatsonTest()函数实现。

图2
肿瘤标志物水平与每日平均锻炼时长多重线性回归(模型2)残差图

正态性指对于给定的xx相应的yy应服从均值为uy|xuy|x、方差为σ2σ2的正态分布。违反正态性假设主要影响回归系数标准误的估计以及假设检验的可靠性,但根据中心极限定理,在大样本情况下,即使不满足正态性假设,统计推断的结果仍是可信的[7],然而样本量多大可称之为大样本并无确切说法[8]。正态性假设可通过考察回归残差是否符合正态性加以识别,如绘制残差QQ图、对残差正态性进行统计学检验。图3为前述模型2残差QQ图,可见大部分数据点落在可接受范围内(即两条虚线之间),提示模型2符合正态性假设。R软件QQ图可通过car包qqPlot()函数绘制。

图3
肿瘤标志物水平与每日平均锻炼时长多重线性回归(模型2)残差QQ图

方差齐性指不同xx所对应yy的方差应相等,换言之因变量的变异不应随自变量变化而变化。异方差主要影响回归系数标准误的估计以及假设检验的可靠性,其影响不能通过大样本予以克服。异方差可通过绘制以回归拟合值yˆŷ为横坐标、以回归残差εε为纵坐标的散点图加以识别,如果不同拟合值yˆŷ所对应的残差变异大致相等,则表明方差齐,如果显著不等,则提示不满足方差齐性假设;此外异方差还可通过Breusch-Pagan检验、怀特检验等统计学检验加以识别。前述模型2回归残差Breusch-Pagan检验结果为P=0.08,提示尚不能拒绝方差齐这一假设。R软件Breusch-Pagan检验可通过lmtest包bptest()函数实现。

(2)假设不满足时的处理:当不满足线性假设时,常见处理方法是向模型中加入xx的非线性项,构建多项式回归、分段线性回归等。比如基于案例数据可构建关于每日平均锻炼时长与肿瘤标志物水平关系的二次多项式回归(模型3)和分段线性回归(模型4)。图4A图4B分别展示了模型3和模型4残差图,可见两种方法拟合效果均可,但相比而言,分段线性回归的回归系数更好解释。具体而言,当分段线性回归的分段点为30.3 min时,第一段和第二段回归系数分别为0.69(95%CI,0.63~0.76;P<0.01)和-0.24(95%CI,-0.30~-0.17;P<0.01),表明在控制体质指数后,当每日平均锻炼时长小于30.3 min时,锻炼时长每增加1 min肿瘤标志物水平增加0.69个单位,而当每日平均锻炼时长大于30.3 min时,锻炼时长每增加1 min肿瘤标志物水平减少0.24个单位。R软件多项式回归和分段线性回归可通过lm()函数和I()函数的组合应用来实现。

图4
肿瘤标志物水平与每日平均锻炼时长二次多项式回归(模型3)残差图(A)和分段线性回归(模型4)残差图(B)

当不满足独立性假设时,对于时间序列数据,可通过差分法或向模型中加入时间趋势项进行处理,具体分析方法可参阅有关资料[9]。对于多水平数据,可将高水平变量设为哑变量引入回归模型,或者拟合线性混合效应模型。图5展示了不同膳食模式下每日平均锻炼时长与肿瘤标志物水平的关系,可见膳食模式相同个体具有明显相似性,表明样本数据不满足独立性假设。

图5
不同膳食模式的肿瘤标志物水平与每日平均锻炼时长散点图

在模型2的基础上进一步将膳食模式以哑变量形式纳入模型构建了模型5,结果显示每日平均锻炼时长对肿瘤标志物水平的回归系数为-0.47(95%CI,-0.56~-0.39;P<0.01),表明在控制膳食模式和体质指数后,每日平均锻炼时长每增加1 min肿瘤标志物水平减少0.47个单位,这与前述模型1-4得出的结论迥异。针对模型5的回归诊断显示,线性回归四个基本假设均已满足。显然,模型5更为合理。

当不满足正态性假设时,常见处理方法是对因变量进行数据变换以改善正态性。对于残差呈右偏态的数据(又称正偏态,均数大于中位数),可尝试对数变换、平方根变换等;对于残差呈左偏态的数据(又称负偏态,均数小于中位数),可尝试指数变换、平方变换等。

当不满足方差齐性假设时,应首先考察自变量纳入形式是否合适,比如存在非线性趋势时是否考虑了非线性关系。排除自变量形式设定问题后,通常可以对因变量进行对数变换、平方根变换等,降低其变异程度后再分析;如果已知异方差的分布特征,可以使用加权最小二乘法拟合回归模型;若以上方法效果欠佳,还可以开展异方差稳健推断,计算异方差稳健标准误以及相应的假设检验统计量[8]。

(3)需要注意的其他问题:交互作用问题。关于因变量yy和自变量x1x1和x2x2的普通线性回归方程若仅包括x1x1和x2x2的主效应yˆ=β0+β1x1+β2x2ŷ=β0+β1x1+β2x2,则表示两个自变量独立影响因变量,两者效应可以直接相加。但有时x1x1对yy的影响会随x2x2水平的变动而变动,即x1x1与x2x2对yy的影响存在交互作用,回归方程应调整为yˆ=β0+β1x1+β2x2+β3(x1x2)ŷ=β0+β1x1+β2x2+β3(x1x2);若x1x1对yy的效应大小为主要研究目标,即x1x1为暴露变量,x2x2为协变量,则称x2x2对“x1x1对yy的效应”具有效应修正作用。

多重共线性问题。多重共线性指某些自变量间高度相关,回归模型难以精确估计这些变量的回归系数,表现为回归系数估计值不够稳健,具有极大的标准误。多重共线性可通过方差膨胀因子(variance inflation factor,VIF)予以识别,某个自变量VIF值越大表明该变量与其余自变量共线性越强,一般认为某变量VIF值大于10表明该变量与其余变量存在严重多重共线性。增加样本量有助于改善多重共线性引起的回归系数估计问题,但实践中通常不具可行性,其他解决方法有逐步回归法、岭回归法、主成分回归法,此外还可以综合专业知识与共线性特征人为移除某些变量。

离群值问题。离群值指回归模型对因变量拟合效果不佳的观察值,通常情况下标准化残差或学生化残差大于2提示相应观察值可能为离群值[10]。离群值常见处理方法:①明确离群值产生原因并对其进行处理或删除后再重新分析[11],同时应报告处理方式或具体的删除标准;①稳健回归[12]是解决离群值问题的常用方法,可同时兼顾主要回归趋势和离群值影响。当普通线性回归与稳健回归结果相差较大时,稳健回归结果通常更为可靠。

2. Logistic回归:普通线性回归假定误差项服从均值为0、方差为σ2σ2的正态分布。当因变量yy为分类变量时,误差项通常不再满足该假定,此时可拟合Logistic回归。Logistic回归根据因变量类型可分为二分类、无序多分类和有序多分类Logistic回归,三种模型回归系数ββ经指数转化后均等价于流行病学研究常用效应指标——优势比或称比值比(odds ratio,OR),但其具体释义因模型不同而略有差别。

(1)二分类Logistic回归:二分类Logistic回归适用于因变量为二分类指标的情况(如患病和不患病)。当暴露因素为分类变量时,其回归系数ββ可解释为某一暴露组发生结局事件的风险是参照组的eβeβ倍;当暴露因素为连续变量时,其回归系数ββ可解释为该因素每增加一个单位发生结局事件的风险增加(eβ−1)×100%(eβ-1)×100%。基于案例数据,将肿瘤标志物水平大于第80百分位数者定义为罹患癌症高风险者,小于等于该水平定义为低风险者,以此二分类变量为因变量(低风险者为参照),以每日平均锻炼时长、膳食模式和体质指数为自变量,拟合二分类Logistic回归模型(模型6),经分析每日平均锻炼时长OR值为0.58(95%CI,0.46~0.72;P<0.01),表明当膳食模式和体质指数保持不变时,每日平均锻炼时长每增加1 min,研究对象为高风险者的可能性降低42%。R软件二分类Logistic回归可通过glm()函数实现。

(2)无序和有序多分类Logistic回归:无序多分类Logistic回归适用于因变量包含三种及以上类别且各类别间没有等级关系时的情况。当因变量包含kk个类别时,拟合k−1k-1个回归方程、估计k−1k-1套回归系数,每个回归方程对应因变量的一个类别相对于参照类别的拟合结果,其回归系数含义与二分类Logistic回归模型一致。有序多分类Logistic回归适用于因变量包含三种及以上类别且各类别间存在等级关系时的情况。应用有序多分类Logistic回归应满足比例优势假定。

基于案例数据,将肿瘤标志物水平大于第80百分位数者定义为罹患癌症高风险者,介于第60百分位数和第80百分位数之间者定义为罹患癌症可疑高风险者,而小于等于第60百分位数者定义为低风险者,将该变量分别视为无序多分类因变量和有序多分类因变量,以每日平均锻炼时长、膳食模式和体质指数为自变量,拟合无序多分类Logistic回归模型(模型7)和有序多分类Logistic回归模型(模型8),其中无序多分类Logistic回归以低风险者为参照,有序多分类Logistic回归以风险较低者为参照。无序多分类Logistic回归针对每日平均锻炼时长估计两个OR值,分别为0.58(95%CI,0.47~0.72;P<0.01)和0.60(95%CI,0.50~0.72;P<0.01),表明当膳食模式和体质指数保持不变时,每日平均锻炼时长每增加1 min,研究对象为可疑高风险者和高风险者的可能性降低42%和40%。有序多分类Logistic回归针对每日平均锻炼时长估计一个OR值,大小为0.59(95%CI,0.50~0.70;P<0.01),表明当膳食模式和体质指数保持不变时,每日平均锻炼时长每增加1 min,研究对象为较高风险等级的可能性降低41%。需要指出的是,案例数据比例优势检验P=0.71,表明有序多分类Logistic回归结果应是稳健的。R软件无序多分类和有序多分类Logistic回归均可通过VGAM包vglm()函数实现。

三、相关分析与回归分析的区别

相关分析不区分自变量与因变量,旨在评价变量彼此之间是否存在相关关系以及相关关系的密切程度;回归分析区分自变量与因变量,旨在量化评价自变量对因变量的影响或通过自变量预测因变量。相关系数无量纲,其绝对值越大表明相关程度越强,但相关程度强并不等同于实际意义大;回归系数有量纲,不同自变量对于同一因变量的回归系数不能直接比较;标准化回归系数无量纲,在一定情况下可以进行比较,但其结果应谨慎解读。

志谢 感谢北京大学公共卫生学院研究生黄永迎对文稿提出的宝贵修改意见

利益冲突 所有作者均声明不存在利益冲突

单选题(完成以下单选题可获得Ⅱ类继续教育学分)

1. 关于两个变量Pearson相关分析与简单线性回归分析的描述,正确的是:

A.相关系数的绝对值越大,回归系数的绝对值也越大

B. 相关系数和回归系数的正负号相同

C. Pearson相关系数等于0,表明这两个变量相互独立

D. Pearson相关分析和简单线性回归分析也可用于描述非线性关系

E. 以上都不对

2. 回归分析四个基本假设中的正态性假设指:

A. 自变量满足正态分布

B. 因变量满足正态分布

C. 自变量和因变量均满足正态分布

D. 给定自变量所对应的因变量符合正态分布

E. 给定因变量所对应的自变量符合正态分布

3. 散点图显示自变量x和因变量y呈抛物线关系,则x进入回归模型的最佳形式是:

A. βx

B. βx2

C. β(x+x2)βx+x2

D. β1x+β2x2β1x+β2x2

E. 以上均不合适

4. 下列关于多重共线性的说法正确是:

A. Logistic回归不存在多重共线性问题

B. 可选解决方法为增加回归分析的样本量

C. 可通过回归残差图进行识别

D. 某变量VIF值小于10,表明该变量与其余变量间存在严重多重共线性

E. 以上都不对

5. Logistic回归中,某二分类自变量的回归系数为ββ,以下说法正确的是:

A. ββ对应流行病学中的OR值

B. ββ对应流行病学中的RR值

C. eβeβ对应流行病学中的OR值

D. eβeβ对应流行病学中的RR值

E. 以上都不对

参考文献
1
CapéraàP, GenestC. Spearman′s ρ is larger than kendall′s τ for positively dependent random variables[J]. J Nonpar Stat1993, 2(2): 183-194.DOI: 10.1080/10485259308832551.
2
XuW, HouY, HungYS, et al. A comparative analysis of Spearman′s rho and Kendall′s tau in normal and contaminated normal models[J]. Signal Processing, 2013, 93(1): 261-276. DOI: 10.1016/j.sigpro.2012.08.005.
3
NoetherG. Why Kendall Tau?[J]. Teach Stat, 2007, 3: 41-43. DOI: 10.1111/j.1467-9639.1981.tb00422.x.
4
王燕. 卫生统计学教程[M]. 北京: 北京大学医学出版社, 2006: 176.
5
BrophyA. An algorithm and program for calculation of Kendall′s rank correlation coefficient[J]. Behavior Research Methods, Instruments, & Computers, 1986, 18: 45-46.DOI: 10.3758/BF03200993.
6
李宏田. 多元线性回归系数的图形解析[J]. 中国卫生统计, 2011, 28(1): 91-92. DOI: 10.3969/j.issn.1002-3674.2011.01.033.
7
LumleyT, DiehrP, EmersonS, et al. The importance of the normality assumption in large public health data sets[J]. Annu Rev Public Health, 2002, 23: 151-169. DOI: 10.1146/annurev.publhealth.23.100901.140546.
8
伍德里奇. 计量经济学导论[M]. 4版. 北京: 中国人民大学出版社, 2010: 162-166.
9
王燕. 时间序列分析——基于R[M]. 北京: 中国人民大学出版社, 2015: 136-142.
10
KabacoffRI. R语言实战[M]. 2版. 北京: 人民邮电出版社, 2016: 182.
11
DaymontC. Plausible Outliers and Implausible Inliers[J]. Obesity (Silver Spring), 2020, 28(7): 1174. DOI: 10.1002/oby.22865.
12
CommitteeA. Robust regression: An introduction[J]. Analy Meth, 2012, 4: 893-894.DOI: 10.1039/c2ay90005j.


QQ在线咨询
联系电话
028-83516680
联系传真
028-83551807