关键词:
进展期结直肠肿瘤
早期再发
影响因素
预测模型
可解释性分析
摘要:
背景 结直肠腺瘤切除术是降低结直肠癌发病率的有效方式,目前结直肠腺瘤切除术后1年内进展期结直肠肿瘤(ACRN)的再发率高,关于结直肠腺瘤切除后早期再发ACRN的预测模型构建缺乏相关研究。目的 采用机器学习的方法探讨结直肠腺瘤切除术后患者早期再发ACRN的影响因素,并构建结直肠腺瘤切除术后患者早期再发ACRN的预测模型。方法 回顾性纳入2017年1月—2023年8月郑州大学第一附属医院行3次以上结肠镜检查的结直肠腺瘤并行手术切除的222例患者为研究对象,根据术后1年内是否发生ACRN分为早期再发组(n=68,)和非早期再发组(n=154),收集患者一般资料和实验室检查指标。将研究对象按照8:2划分为训练集和测试集,通过Boruta和Lasso回归方法共同筛选预测因素,分别使用类别提升(Catboost)、随机森林(RF)、逻辑回归(LR)、支持向量机(SVM)4种机器学习方法构建预测模型,绘制受试者工作特征(ROC)曲线、校准曲线、临床决策分析(DCA)曲线,评估预测模型的性能。采用特征重要性和SHAP可解释性分析讨论结直肠腺瘤切除术后患者早期再发ACRN的相关危险因素。结果 早期再发组和非早期再发组腺瘤数量、腺瘤大小、腺瘤部位、腺瘤异型增生程度、腹胀、临床症状个数、饮酒史、血小板计数、中性粒细胞与淋巴细胞计数比值(NLR)比较,差异有统计学意义(P<0.05)。基于Boruta和Lasso方法共同筛选出腺瘤大小、血小板计数、腺瘤异型增生程度、临床症状个数、三酰甘油-葡萄糖(TyG)、饮酒史、腺瘤数量共7个预测因素,根据上述7个预测因素构建Catboost、RF、LR、SVM 4种结直肠腺瘤切除术后早期再发ACRN的预测模型。ROC曲线分析结果显示,在训练集中,Catboost、RF、LR、SVM 4个模型的AUC分别为0.802、0.836、0.788、0.860;在测试集中,4个模型的AUC分别为0.772、0.749、0.705、0.685;Delong检验结果显示,4个模型的AUC两两比较,差异均无统计学意义(P均>0.05)。校准曲线分析结果显示,训练集中Catboost、RF、LR、SVM 4个模型的Brier分数分别为0.178、0.197、0.169、0.153,测试集中4个模型的Brier分数分别为0.188、0.201、0.191、0.198。DCA曲线分析显示,在训练集中基于Catboost、LR及SVM模型获得较高的临床净效益,在测试集中,Catboost和SVM模型可获得较好的临床净收益。基于Catboost模型的SHAP可解释性分析显示临床症状个数、腺瘤大小、腺瘤数量依次是预测术后ACRN早期再发的前3位重要特征,其中临床症状个数、腺瘤大小、腺瘤数量、腺瘤异型增生程度、TyG、血小板计数(SHAP值分别为:0.043、0.042、0.025、0.020、0.012、0.005)均与术后早期ACRN再发呈正相关,饮酒史(SHAP值为0.015)与术后早期ACRN再发呈负相关。结论 基于Catboost方法构建的风险预测模型具有良好的预测效果和临床实用性,可以用来预测结直肠腺瘤切除术后早期ACRN的再发。