【解读】吉西他滨—白蛋白结合型紫杉醇与FOLFIRINOX用于晚期胰腺癌姑息性一线治疗:倾向评分分析解读
张娜(临床解读) 王锦毓(统计解读) 应杰儿(简评)
摘要
通过比较真实世界接受FOLFIRINOX(奥沙利铂+伊立替康+氟尿嘧啶)或GN(吉西他滨+白蛋白结合型紫杉醇)方案治疗的晚期胰腺癌患者的临床结果来指导临床实践。该研究为三中心的回顾性队列研究,采用倾向评分逆概率加权法调整研究组之间的混杂因素。FOLFIRINOX组和GN组的主要研究终点OS和次要研究终点PFS、DCR、ORR在倾向评分矫正前后差异均无统计学意义。FOLFIRINOX组粒缺性发热和腹泻的患者比例显著高于GN组,而出现中性粒细胞减少、周围神经病变、胆管炎和疲劳症状的比例相近。目前尚不能证明FOLFIRINOX方案和GN方案的疗效差异,在临床实践过程中应考虑患者临床特征选择合适的治疗方案。
主题词:晚期胰腺导管癌;FOLFIRINOX;吉西他滨/白蛋白结合型紫杉醇;一线治疗;倾向评分
本期分享的是2021年5月发表在《欧洲肿瘤学杂志》(European Journal of Cancer, EJC)的《吉西他滨/白蛋白结合型紫杉醇与FOLFIRINOX用于晚期胰腺癌姑息性一线治疗:倾向评分分析》[1]。该研究是由奥地利研究者发起的一项回顾性队列研究,旨在通过对真实世界接受FOLFIRINOX(奥沙利铂+伊立替康+氟尿嘧啶)或GN(吉西他滨+白蛋白结合型紫杉醇)方案治疗的晚期胰腺癌患者的临床结果进行倾向评分比较,来弥补随机对照研究数据的缺乏。
01
研究背景
胰腺癌是恶性程度最高的消化系统肿瘤,发病率在全球范围呈上升趋势。在欧美国家,每年约5万人死于胰腺癌,其在癌症相关死亡原因中排名第三。局限期、局部进展期及晚期患者的5年生存率分别为37%、13%、3%。手术是唯一可能根治的手段,但大部分胰腺癌患者就诊时已为局部晚期或晚期,失去手术机会。
晚期胰腺癌的治疗手段非常有限。在1997年前,以氟尿嘧啶为基础的化疗统治了晚期胰腺癌的一线治疗领域长达几十年,但治疗应答率普遍低于20%。1997年,单药吉西他滨凭借微弱的生存优势(5.65个月对比4.41个月)成为晚期胰腺癌的一线标准推荐[2]。此后数十年,晚期胰腺癌治疗陷入瓶颈,各种化疗方案及靶向药物的尝试基本以失败告终。直到2011年,因为在PRODIGE4/ACCORD11 研究中的优异表现,FOLFOIRINOX方案替代吉西他滨成为晚期胰腺癌新的一线标准推荐方案(中位OS 11.8个月对比6.8个月,中位PFS 6.4个月对比3.3个月)[3]。2年后,MPACT 研究中,GN方案对比单药吉西他滨,总生存时间(OS)从6.7个月提高到8.5个月,也因此GN方案成为继FOLFIRINOX后,另一个晚期胰腺癌一线推荐化疗方案[4]。
表1 晚期胰腺癌一线标准治疗方案一览表
然而,迄今为止,尚无大样本头对头的前瞻性随机对照临床研究来对比上述两个方案的优劣。为此,奥地利学者开展了此项三中心的回顾性研究,希望通过对入组病例数据采用逆概率处理加权(IPTW)方法处理后进行倾向评分(PS)分析,来更好地平衡组间基线特征差异,获得更可信的对比结果,以此来弥补随机对照研究的缺乏。这是目前同类研究中样本量最大的一项研究。
02
研究方法
2.1 设计概况
本研究是一项三中心回顾性队列研究,主要研究终点为总生存期(OS),定义为从一线化疗的第一天起到因任何原因死亡的时间。次要研究终点包括①无进展生存期(PFS):从一线化疗的第一天起到疾病放射学确认进展或任何原因导致的死亡的时间;②客观缓解率(ORR):完全缓解或部分缓解;和③疾病控制率(DCR):完全、部分缓解或稳定疾病的总和。结局指标均由治疗医师根据实体瘤反应评估标准1.1版(RECIST)评估确定。
2.2 研究对象
纳入2010年8月至2019年10月之间在三个研究中心进行全剂量或改良剂量FOLFIRINOX或GN的姑息性一线治疗的晚期胰腺导管腺癌患者。纳入标准包括:①年龄18岁或以上;②组织学确诊或放射学确认的晚期胰腺导管腺癌;③2010年8月至2019年10月期间接受至少一周期姑息性一线治疗方案。排除标准:接受FOLFIRINOX或GN诱导或新辅助治疗的局部晚期可切除或临界可切除肿瘤患者。研究对象的基线数据和结局数据从电子健康档案及全死因登记系统回顾性收集。
2.3 统计分析方法
数值变量用中位数(第25、75百分位)描述,组间差异用秩和检验比较;计数资料描述用构成比(%),组间差异用c2检验或Fisher确切概率法比较。GN组和FOLFIRINOX组患者之间基线变量潜在差异的大小采用标准化平均差异(SMD)进行量化,SMD³0.2则认为两个研究组之间存在相关的协变量不平衡。
随机对照试验(RCT)在收集到研究人群之后采用随机化的方法,使试验组和对照组间的基本特征可比性比较好。而在观察性研究中,由于无法像RCT一样进行随机化,所以试验组和对照组间的基本特征可比性比较差。在这种情况下直接比较效应值是不符合实际情况的,可以利用传统的分层、匹配以及回归来调整混杂因素的影响,但是随着混杂因素的增加,这些传统方法实施的难度会大大增加,所以统计学家提出了倾向评分法。
倾向评分(propensity score,PS),本研究定义为患者选择FOLFIRINOX的概率。Logistics回归模型纳入所有在GN组和FOLFIRINOX组间分布p<0.1或SMD³0.2的基线变量,以逐步回归法筛选变量构建倾向评分模型。根据最终Logistics模型计算患者PS。逆概率加权(IPTW)权重,定义为患者实际接受治疗概率的倒数。由于有些PS较低的处理组对象和较高PS的非处理组对象有很大的权重,会导致结果的不稳定性,根据最佳实践建议使用修剪IPTW,即剔除IPTW权重>第99个百分位及IPTW权重<第1个百分位的患者。
用PS综合所有可以观察到的混杂因素,降低控制多个混杂因素的难度。PS可以跟传统的匹配、分层、回归、标准化加权法相结合调整协变量。当对照组和试验组的PS有足够的重叠范围时,结合匹配、分层、回归、加权法均能较好的均衡混杂。当两组的PS评分分布偏离时,如对照组和试验组倾向评分分布如图B和图C时,倾向评分匹配法会删除两端PS不重叠的研究对象,使研究对象的代表性下降;利用分层法则可能导致有的层中只有对照个体或只有试验个体,这些层不能提供有用的信息;回归将PS作为一个新的协变量来构建模型进行校正,PS校正法不损失样本,但是基于模型的分析,要求建模正确[4];IPTW加权法可以在不损失样本的情况下,校正混杂因素,本研究根据最佳实践建议使用修剪IPTW,保证结果更稳定。
图1 对照组和试验组的PS分布
在使用IPTW进行加权后,通过检查SMD的变化来进行PS平衡诊断,采用Kaplan-Meier估计OS和PFS。Schoenfield检验显示OS与治疗效应违反等比例风险假设,因此采用灵活参数回归模型,该模型不要求数据资料满足等比例风险假设,可灵活地处理多种类型的生存资料。
03
研究结果
3.1 患者基线特征
根据纳入排除标准,本研究纳入455名患者,其中297名接受GN治疗,158名接受FOLFIRINOX治疗(表2)。患者中位年龄67岁。从基线特征来看,两组患者所属地区、年龄、查尔森共病指数*、ECOG评分、肿瘤位置、初始姑息治疗手段、原发灶是否手术、血红蛋白水平均具有统计学差异。总体来说,FOLFIRINOX组患者基线似乎更优。
表2 研究对象的基线情况
*查尔森共病指数(CCI):除基础疾病外的其他器官或组织损伤及异常,对患者合并症情况进行积分评价,包括心梗、充血性心力衰竭、周围性血管病变、脑血管病变、痴呆,COPD、消化性溃疡、糖尿病、恶性肿瘤等。
3.2治疗效应比较
本研究主要研究终点OS、次要研究终点PFS、DCR、ORR。未矫正前FOLFIRINOX组vs. GN组的中位OS分别为11.2m vs. 10.1m(HR = 0.82, 95% CI:0.61-1.11, p=0.199);中位PFS分别为4.8m vs. 4.6m(HR =0.96; 95% CI: 0.77-1.20, p=0.718)。经IPTW-PS分析后两组OS分别为13m vs. 10.1m(IPTW-weighted HR = 1.11, 95% CI: 0.71-1.73, p=0.651);PFS分别为4.6m vs. 4.4m(IPTW-weighted HR=1.13, 95% CI: 0.88-1.46,p=0.329)。上述结果表明在IPTW加权前后,两组间治疗效应比较差异均无统计学意义。
图2 IPTW调整前后的OS
图3 IPTW调整前后的OFS
在一线治疗中,研究者评估GN组的ORR和DCR分别为31%和58%,FOLFIRINOX组分别为36%和65%(p均>0.05)。在未经调整的分析(FOLFIRINOX的客观缓解率比值比OR=1.20,95% CI:0.76-1.89,p =0.431)和IPTW调整的分析(OR=0.82,95% CI=:0.47-1.42,p =0.482)中均未观察到两种治疗方法中哪一种更优。与GN(297例患者中的145例,49%)相比,在使用FOLFIRINOX一线治疗后接受二线化疗的患者明显增多(158例患者中的120例,76%)。这可能与FOLFIRINOX组患者更年轻、体力状况更好等基线特征有关。两种最常见的二线治疗方案分别是在使用FOLFIRINOX一线治疗后的GN(N = 76,63%)和吉西他滨单药治疗(N =20,17%),以及在GN一线治疗后使用5-FU的纳米脂质体伊立替康(N = 52,36%)和OFF(亚叶酸、5-FU和奥沙利铂)(N = 32,22%)。
3.3亚组分析
从森林图中可以看到,除了女性亚组OS的HR有统计学意义之外(更有利于GN方案),其他的亚组中HR均无统计学意义。
图4 亚组分析森林图
3.4安全性分析
在安全性方面,FOLFIRINOX组出现粒缺性发热和腹泻的患者比例显著高于GN组,而出现中性粒细胞减少、周围神经病变、胆管炎和疲劳症状的比例相近。
表3 GN组和FOLFIRINOX组患者发生不良事件比较
04
讨论与思考
晚期胰腺癌FOLFIRINOX与GN均在各自的随机对照研究中击败了既往的标准治疗吉西他滨单药治疗,但两者孰优孰劣未有强有力的III期前瞻性随机对照研究来定论。虽然PRODIGE研究中FOLFIRINOX方案中位OS率高于MPACT研究中GN方案,但2项研究入组人群基线特征有差异,PRODIGE研究似乎有更好的患者基线特征,因此直接对比OS并不可靠。为了尽量减少潜在的偏差,并严格记录非随机处理分配,本研究使用IPTW-PS模型。在调整后的倾向分析中,两个治疗组的生存结果具有高度的可比性。
4.1研究设计
本研究属于回顾队列研究,由于研究对象选择治疗方案以及整个治疗过程都是在自然状态下进行,所以混杂偏倚不可避免。本研究中选择FOLFIRINOX方案的患者更年轻,其他基线状态更好,所以年龄和其他既影响预后又会影响治疗方案选择的因素是一些重要的混杂因素。研究者采取了倾向评分法,利用IPTW加权调整混杂因素,达到事后随机化的目的,得到的效应值能更好的代表真实效应。
基于循证医学证据等级,队列研究的循证证据等级低于RCT,但是目前尚无RCT证据可以说明FOLFIRINOX三药化疗方案和GN方案的优劣,可以以PS设计的队列研究证据指导临床实践。但是相较于RCT,PS设计的观察性研究有以下特点:①PS只能平衡目前已知并且在研究中可以收集到的混杂变量,而对目前尚不了解或者无法获取数据的混杂变量的调整则无能为力;②PS数据来源多样,基于现有的资料和数据库,数据容易缺失,存在信息偏倚;③研究对象通过真实的数据库获取,样本量没有严格的控制;④研究在自然状态下评估治疗效应,更符合临床实践,外推性比较好;⑤消耗较少的人力物力,所需的时间也较短。总的来说,RCT的循证医学等级高于观察性研究,经过PS处理之后的观察性研究的结果的可信度高于传统的观察性研究结果,但是如果有相应的RCT,仍然应该以RCT的结果为金标准。两种设计的特点比较见表4。
表4 随机对照试验和倾向评分处理的观察性研究设计的特点比较
4.2研究对象
该研究排除了可切除或边缘可切除局部晚期胰腺癌患者,最终纳入了96例不可切除的局部晚期胰腺癌患者,其中三分之二患者使用了GN方案,三分之一患者采用了FOLFIRINOX方案。两组的研究者评估治疗反应率相似,与近期发表的LAPACT研究结果相符;但研究中并未说明是否由独立影像评估机构对患者的可切除性进行评估,由于本身是回顾性研究,很可能会产生选择偏倚。在既往的研究中,MD Anderson的回顾性分析[5]显示FOLFIRINOX组较GN组患者有更高的PR率,以及手术转化率(27% vs 16%);德国的前瞻性NEOLAP-AIO-PAK-0113研究中[6],FOLFIRINOX组较GN组有获得更高的手术转化率的趋势(35.9 vs. 43.9%,OR = 0.72,95% CI 0.35-1.45 p=0.38)。在上述研究结果的提示下,临床实践中研究者可能更倾向于选择FOLFIRINOX方案作为局部晚期可切除或边缘可切除胰腺癌的患者的诱导或新辅助治疗方案。而这一类患者的预后较好,剔除这部分患者,可能会低估FOLFIRINOX方案的效应。
4.3 临床启示
本研究对临床工作给出了一些重要的启示。首先,两组研究者评估的有效率是基本一致的,这表明对于治疗反应要求高的患者比如即将发生胆道梗阻的患者,两种方案都是可以选择的;其次,从毒性反应上来看,FOLFIRINOX方案粒缺性发热及腹泻的毒副反应更高,其他常见毒副反应发生率两组相似,也提示我们在治疗开始前对患者进行风险评估,选择对患者可能有利的治疗方案。
综上所述,现有证据尚不能证明FOLFIRINOX方案和GN方案的疗效差异,在临床实践过程中应根据患者意愿和其临床特征综合考虑并加以选择。
参考文献
[1] Riedl JM, Posch F, Horvath L, et al. Gemcitabine/nab-Paclitaxel versus FOLFIRINOX for palliative first-line treatment of advanced pancreatic cancer: A propensity score analysis. European Journal of Cancer 2021; 151 3-13.
[2] Burris H. Improvements in survival and clinical benefit with gemcitabine as first-line therapy for patients with advanced pancreas cancer: a randomized trial. Journal of Clinical Oncology 1997; 15.
[3] Conroy T, Desseigne F, Ychou M, et al. FOLFIRINOX versus gemcitabine for metastatic pancreatic cancer. 2011; 364 (19): 1817.
[4] 黄丽红, 陈峰. 倾向性评分方法及其应用. 中华预防医学杂志 2019; 53 (7): 752-5.
[5] Perri G, Prakash L, Wei Q, et al. Response and Survival Associated With First-line FOLFIRINOX vs Gemcitabine and nab-Paclitaxel Chemotherapy for Localized Pancreatic Ductal Adenocarcinoma. JAMA Surgery 2020; 155 (9): 832–9.
[6] Pvk A, Pjts C, Pha D, et al. Nab-paclitaxel plus gemcitabine versus nab-paclitaxel plus gemcitabine followed by FOLFIRINOX induction chemotherapy in locally advanced pancreatic cancer (NEOLAP-AIO-PAK-0113): a multicentre, randomised, phase 2 trial. The Lancet Gastroenterology & Hepatology 2021; 6 (2): 128-38.
简评:该研究虽然是一项回顾性研究,但是对临床工作带来了一些有意义的启示。
第一、胰腺癌是公认的癌中之王,晚期胰腺癌患者的5年生存率只有3%,在2011年前,胰腺癌化疗方案相当有限,以吉西他滨单药或是氟尿嘧啶类药物为主。直到PRODIGE4/ACCORD11研究和MPACT研究的成功,FOLFOIRINOX方案和GN方案相继成为晚期胰腺癌一线治疗的1A类推荐,显著改善了患者的生存。
第二、在实际工作中,因为缺乏头对头对比的前瞻性研究,FOLFOIRINOX方案和GN方案如何选择一直困扰着临床医生。从单独研究的数据来看,FOLFOIRINOX方案的OS、PFS和ORR似乎优于GN方案,但从入组人群的基线特征分析发现,使用FOLFOIRINOX方案的患者更年轻、体力状况更好、基线更优,存在人群偏倚,故可比性差。
第三、该研究巧妙的采用了倾向评分分析,从统计学上将各项混杂因素降到最低,保证了结果的稳定性,就FOLFOIRINOX方案和GN方案的疗效和安全性作出了相对客观、公平的评价,为临床选择提供了一定的参考意义。
第四、该研究给我们的提示是FOLFOIRINOX方案和GN方案在OS、PFS、DCR、ORR无论是在矫正前还是矫正后,两组间差异均无统计学意义,但数值上FOLFOIRINOX方案有获益趋势,亚组分析,除了女性亚组OS的HR有统计学意义之外(更有利于GN方案),其他的亚组中HR均无统计学意义。在安全性方面,FOLFIRINOX组出现粒缺性发热和腹泻的患者比例显著高于GN组,而出现中性粒细胞减少、周围神经病变、胆管炎和疲劳症状的比例相近。所以,对于较年轻、体力状态较好,需要考虑快速缩瘤的患者可以选用FOLFOIRINOX方案,并且做好粒缺性发热和腹泻的预防与监测工作,而对于高龄、体力欠佳、PS评分差的患者可选择GN方案。
第五、该研究仍然是一个回顾性研究,所以评价研究结果的时候仍然需要秉持辩证的态度,仍然希望有大型的III期RCT研究为临床工作带来更高级别的循证医学证据做支持。
阅读文献原文
上下拉动翻看更多