来,我们先来看一张图——
看到这张图,你会想到什么?趋势?回归?
这张图来自文章「Cancer incidence, mortality, and burden in China: a time-trend ***ysis and comparison with the United States and United Kingdom based on the global epidemiological data released in 2020 」,发表在《Cancer Communications》上,影响因子高达 15.283。
如此高分的文章,用的就是 Joinpoint 回归模型。
Joinpoint 回归模型,也作片段回归(piecewise regression),其基本思路是将长期趋势线分成若干段,每段用连续性的线进行描述。
核心思想是根据疾病分布的时间特征建立分段回归,通过若干连接点将研究时间分割成不同区间,并对每个区间进行趋势拟合和优化,进而更详细地评价全局时间范围内不同区间特异性的疾病变化特征。
1998 年 Kim 等首次提出 Joinpoint 回归模型,该模型对数据序列本身是否存在趋势等并没有严格要求,近年来越来越多的被研究者用来确定肿瘤、结核病、艾滋病、吸烟等的变化趋势分析。
想要做出如此精美的趋势图,该从何下手呢?这篇文章就给大家带 Joinpoint 回归模型建立的操作分解,走过路过不要错过哦!
一、模型介绍
(一)基本原理
Joinpoint 模型通过搜索建立所有可能存在 Joinpoint 点,并计算每种可能的情况下所对应的误差平方和及均方差, 选择 MSE 最小的网格点为 Joinpoint 点,并根据选定的连接点和区间函数拟合方程参数。
模型分为有线性模型(y = xb)和对数线性模型(ln y = xb)两种(如下图)。
(二)建模 ***
网格搜索法(grid search method,G *** )是 Joinpoint 默认采用的建模 *** 。
G *** 是将研究数据划分为网格,每个网格交点对应一个规划方案,然后在设定的区间内用固定步长逐点计算对应方程的性能指标,以确定更优函数。
Monte Carlo 置换检验(permutation test)是 Joinpoint 软件默认的模型优化 *** 。
(三)主要结果指标
(1)年度变化百分比(annual percent change, APC):用于评价分段函数各独立区间的内部趋势,或者连接点数量为 0 的全局趋势。
(2)平均年度变化百分比(average annual percent change, AAPC):评价包含多个区间的全局平均变化趋势
(3)95%CI
二、操作分解
(一)打开统计软件 Joinpoint Regression Program(JRP)
(二)「file」菜单中选择「new session」,导入数据
(三)参数设置
依次设置因变量 (Dependent Variable)、自变量 (Independent Variable)、方差齐性的误差选项(Heteroscedastic/Correlated error option)、分类变量 (By Variables)、选用模型 (Log Transformation) 进行设置,如图 1 所示。
图 1:Input File 设置页面
参数选择需考虑以下四点:
(1)选用模型。
设置前,采用 K-S 法对因变量进行正态性检验,如果服从正态分布(或近似正态分布)且数据样本量较大(通常大于 100)时则采用线性模型分析;
如果服从泊松分布或指数分布,则选用对数线性模型分析。
(2)方差齐性的误差选项。
假定研究数据方差稳定的情况下,可以选择「恒方差 [constant variance(homoscedastic)]」;
如果考虑方差变异较大时可选择「标准误 [standard error(provided)]」或者「泊松(poisson variance)」。
其中,选择「标准误」的数据文件中需提供标准误,选择「泊松」仅支持因变量类型为频数和人口数。
(3) *** 与参数页面的设置按照默认参数设置即可。
其中,包括采用 G *** 进行转折点分析和参数估计;采用 Monte Carlo 置换检验 进行模型优选;
转折点个数 (Number of Joinpoints) 一般设置上限最多为 3 个 (研究时间的跨度不宜过短,一般至少要连续 5 年,更好达到连续 10 年以上的时间跨度)。如图 2 所示。
图 2:Method and Parameters 设置页面
(4) 若要进行更高级的分析,如两组序列数据趋势变化特征对比,则需要在 Advanced ***ysis Tools 页面中选择「成对比较分析」 (Pairwise Comparison),见图 3。
图 3:Advanced ***ysis Tools 设置页面
(四)模型构建
(1)粗率回归模型
导入数据至少包含以下条目:时间(如 Year)、Crude Rate(粗率)、Count(总数)、Population(人口)、分类变量(如 Sex);Input File 设置页面如图 4 所示。
l 因变量 (Dependent Variable):
类型选择「Calculated From Data File」
变量类型选择「Crude Rate(粗率)」
频数变量(Count Variable) 选择「Count(总数)」
人口变量(Population Variable) 选择「Population(人口)」
l 自变量 (Independent Variable):
时间及类型(如年、月、日)
l 方差齐性的误差选项(Heteroscedastic/Correlated error option):
依据上文所提 *** 选择
l 分类变量 (By Variables):
Sex(性别) 或其他分类变量
l 选用模型 (Log Transformation):
依据上文所提 *** 选择
图 4:粗率回归模型设置页面
(2)年龄标化率回归模型
导入数据至少包含以下条目:时间(如 Year)、Age-Adjusted Rate(年龄标化率)、年龄组别、Count(总数)、Population(人口)、Standard Error(标准误)、分类变量(如 Sex);Input File 设置页面如图 5 所示。
l 因变量 (Dependent Variable):
类型选择「Calculated From Data File」
变量类型选择「Age-Adjusted Rate(年龄标化率)」
频数变量(Count Variable) 选择「Count(总数)」
人口变量(Population c)选择「Population(人口)」
调整/标化变量(Adjustment Variable)选择「年龄组别」
l 自变量 (Independent Variable):
时间及类型(如年、月、日)
l 方差齐性的误差选项(Heteroscedastic/Correlated error option):
Standard Error(标准误) 分类变量 (By Variables):Sex(性别) 或其他分类变量
l 选用模型 (Log Transformation):
依据上文所提 *** 选择
图 5:年龄标化率回归模型设置页面
(五)结果
「Graph」结果(见图 6):
模型拟合的拐点/曲线图,左侧为不同连接点数对应的模型选择结果,其中加星号的是系统优选推荐的模型,0、1、2 分别表示分组变量;右侧为拟合模型曲线图图。
「Data」结果(见图 7):
计算/拟合的应变量数据,展示分析所用的数据,并指出 Joinpoint 点。
「Model Estimates」结果(见图 8):
选定模型的参数指标,提供建模的各项指标。
「Trend」结果(见图 9):
APC/AAPC 和 95%CI 趋势指标及 P 值。
「Model Selection」结果(见图 10):
模型优选的置换检验情况。
图 6:模型拟合的拐点/曲线图
图 7:计算/拟合的应变量数据
图 8:选定模型的参数指标
图 9:APC/AAPC 和 95%CI 趋势指标
图 10:模型优选置换检验
三、注意事项
(1)JRP 软件无法进行数据预处理,需要提前准备好 Joinpoint 模型建模所需数据文件再进行分析。
(2)模型不支持率为 0 的数据,如某观测值为 0 而导致模型拟合终止的情况发生,可将数值为 0 的应变量观测值替换为某个微小数据即可解决(如 0.000 001 或 0.000 0001 等)。
(3)Joinpoint 软件支持多个分组变量模式,避免多次数据整理和分批运算输出等繁琐过程。
(4)切忌盲目推崇模型的趋势结果。分析结果解读时,需将 Joinpoint 点分布位置、不同区间的趋势变化与其流行病学特征紧密结合,以寻求趋势变化潜在因素的合理解释。
看到这里,你学会了吗?下一篇 15 分+文章等你来发表哦!