DOI:10.3969/j.issn.1673-6036.2025.11.009
中图分类号:R737.9;|TP181
陈晓龙1,2, 冯振宁1,2, 唐永君1,2, 姜念1,2, 马晨璐1,2, 何应旭1,2, 贝朝涌3,4, 庞伟毅1, 刘慧1,2
| 【作者机构】 | 1桂林医科大学广西环境暴露组学与全生命周期健康重点实验室; 2桂林医科大学公共卫生学院; 3桂林医科大学第一附属医院; 4广西数字医学临床转化工程研究中心 |
| 【分 类 号】 | R737.9;TP181 |
| 【基 金】 | 广西自然科学基金项目(项目编号:2022GXNSFBA035659) 广西自然科学基金项目(项目编号:2023GXNSF AA026322) |
乳腺癌(breast cancer,BC)是女性最常见且发病率最高的恶性肿瘤,其高复发率与高死亡率对女性健康构成严重威胁,因此亟须探索新的治疗靶点并建立可靠的预后模型,以优化临床治疗效果[1]。近年研究表明,活性氧(reactive oxygen species,ROS)在BC发生发展中起关键调控作用,且与肿瘤微环境(tumor microenvironment,TME)密切相关[2-3]。ROS在TME中呈现双重调控特性:一方面,可激活中性粒细胞和巨噬细胞的抗肿瘤功能[4];另一方面,高水平ROS通过调控免疫细胞功能诱导免疫逃逸,从而促进肿瘤进展[5-6]。然而,氧化应激(oxidative stress)对BC预后的整体影响及其与TME在疾病演进中的内在关联尚未完全阐明。为此,本研究基于机器学习组合算法,构建氧化应激相关预后模型,以实现个体化预后评估。比较分析不同风险组免疫特征,揭示氧化应激在BC进展与预后中的作用,为临床预后判断与个体化治疗策略提供潜在指导。
系统检索Genecards数据库(https://www. genecards.org)中“oxidative stress”相关基因,筛选评分≥7的基因条目,获得1 398个氧化应激相关基因。为探讨这些基因在BC中的表达特征,收集TCGA(https://portal.gdc.cancer.gov/)和GTEx(https://gtexportal.org/home/)数据库中1 089例BC样本和572例正常乳腺组织的RNA-seq数据及相应临床资料。基于整合后的数据,采用R语言limma包进行差异表达分析,设定筛选标准为校正后P<0.05且|log2FC|>1。为确保结果的可靠性,从基因表达综合数据库(gene expression omnibus,GEO)获取具有完整预后信息的GSE20685(n=327)和GSE96058(n=2 612)数据集作为外部验证队列。此外,为在单细胞水平解析肿瘤微环境,从GEO数据库获取单细胞RNA测序数据集GSE292824(n=10)。为消除多源数据间技术变异,运用R语言sva包对来自TCGA、GTEx和GEO数据库的数据进行批次效应校正,所有后续统计分析均基于校正后的标准化数据集开展。
以TCGA数据库的BC患者数据为训练集,以GEO数据库的GSE20685和GSE96058数据集为验证集,利用R语言Mime1包[7]集成10种机器学习算法——随机森林、弹性网络回归、逐步Cox回归(StepCox)、Cox回归提升、Cox最小二乘回归、监督主成分分析、广义提升回归、生存支持向量机、岭回归、最小绝对收缩和选择算法(least absolute shrinkage and selection operator,Lasso),共构建117种预测模型。所有模型在训练集上经K折交叉验证,并以验证集上的平均一致性指数(C-index)作为评估标准。C-index越高,表明模型预测准确性越好;模型在独立验证集中保持较高的C-index则提示其泛化能力强,过拟合风险低。根据中位风险评分,将患者划分为高风险与低风险组。其中Coef为基因风险系数,expr为基因表达量。
风险评分=∑(Coef×expr)
(1)
随后运用R语言survival包绘制受试者工作特征(receiver operating characteristic,ROC)曲线,进行Kaplan-Meier生存分析。为辨识独立预后因素,将临床信息与风险评分共同纳入单因素及多因素Cox回归分析。最终,基于独立因素应用rms包构建列线图,以预测患者1、3、5年生存概率,并通过校准曲线评估其预测准确性。
使用spearman相关性分析计算TCGA队列BC样本风险评分与所有基因的相关性,按相关性排序,并通过基因集富集分析(gene set enrichment analysis,GSEA)软件计算基因本体(gene ontology,GO)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路的富集评分。GO基因集和KEGG基因集从分子特征数据库MSigDB(https://www.gsea-msigdb.org)中下载,以P<0.05,错误发现率(false discovery rate,FDR)小于0.25作为筛选标准,鉴定显著富集的生物过程和通路。
使用R语言ssGSEA包计算28个免疫细胞在高低风险组之间的免疫浸润差异。使用ESTIMATE包计算免疫细胞富集得分、免疫评分和肿瘤纯度。继而通过limma包检测高低风险组间免疫检查点相关基因表达水平的差异。最后利用TIDE评分算法(http://tide.dfci.harvard.edu/)评估不同风险组之间免疫治疗反应的差异。
使用R语言Seurat包对GSE292824数据集进行分析,先进行质量控制,滤除低质量细胞和线粒体基因含量过高的细胞,并鉴别与去除双联体,然后标准化数据并筛选2 000个高变基因进行主成分分析降维,结合harmony算法消除批次效应。采用Louvain算法进行细胞聚类,并通过UMAP可视化聚类分布。通过标记经典marker基因手动完成细胞注释,并生成点状图以展示细胞聚类及其类型注释结果。
为进一步验证BC和正常组织中核心基因的蛋白表达水平,检索人类蛋白质图谱(human protein atlas,HPA)数据库(http://www.proteinatlas. org),下载BC组织和正常组织中多种蛋白质的免疫组化数据。
所有统计计算和图表均使用R-4.5.1完成。采用Kaplan-Meier曲线和对数秩检验对比不同风险组的生存差异,使用Wilcox检验进行组间比较,P<0.05被认为具有统计学意义。
对来自TCGA和GTEx数据库的1 089例BC组织数据及572例正常组织数据进行分析,共鉴定出4 196个差异表达mRNA,其中2 285个基因上调,1 911个基因下调。将这些基因与1 398个氧化应激基因取交集,筛选出434个氧化应激相关差异表达基因。单因素Cox回归分析显示,其中28个基因与总生存率显著相关(P<0.05),包括12个危险基因和16个保护基因。
以TCGA队列为训练集,GSE96058和GSE20685为验证集,通过Mime1包构建117种机器学习模型。其中,StepCox[forward]-Lasso组合模型在训练集与验证集3个队列中均表现最佳,C-index平均值分别为0.71、0.65和0.65;预测1年生存率的AUC值也最优,分别为0.76、0.73和0.76,表明模型性能良好。基于该模型的中位风险评分将患者分为高、低风险组,最终模型由PGK1、VDAC1、FIG4、BACE1、SDC1、NDRG1、TACR1、S100B、CD79A、SERPINA3、SERPINA1、ADRB1、ALDH3A1及DAXX共14个基因及其相应系数组成。
在TCGA训练集中,基于StepCox[forward]-Lasso组合模型计算风险评分,将BC患者按中位风险评分分为高风险组和低风险组,每组样本量为523。时间依赖性ROC曲线显示模型在预测1、3、5年生存率方面具有良好且稳定的判别能力,见图1a。生存分析证实高风险组患者预后显著更差(P<0.001),见图1b,且风险评分与生存状态的关系图进一步突显该评分与患者预后之间的负相关关系,见图1c。在GSE96058与GSE20685外部验证集中,成功地重复了模型在区分患者预后和风险关联方面的关键结论,充分体现其强大的泛化能力。
图1 氧化应激相关BC预后风险模型预测效能
为识别乳腺癌的独立预后因素,首先对包括临床病理特征与风险评分在内的变量进行单因素Cox回归分析。结果显示,年龄、雌激素受体(estrogen receptor,ER)状态、病理N分期、病理M分期、临床病理分期及风险评分与患者总生存期显著相关,见图2。将上述显著因素纳入多因素Cox回归分析以排除混杂效应。分析确认,年龄、ER状态、病理M分期、临床病理分期及风险评分是影响患者预后的独立危险因素,见图3。根据多因素分析结果,构建一个整合所有独立预后因素的列线图模型,用以量化预测患者的1、3、5年生存概率,见图4。通过校准曲线对列线图的预测准确性进行评估。模型预测的生存率与实际观察到的生存率高度一致,表明该模型具有良好的预测校准度,见图5。
图2 TCGA队列中单因素Cox回归分析森林图
图3 TCGA队列中多因素Cox回归分析森林图
图4 结合年龄、ER状态、病理M分期、临床分期与风险评分的列线图
图5 列线图校准曲线
为探究预后风险模型相关的生物学功能差异,采用GSEA对风险评分相关基因进行GO与KEGG富集分析。KEGG分析表明,这些基因显著富集于抗原加工与呈递、DNA复制、JAK-STAT信号通路及TCR信号通路等关键过程,见图6a。GO分析则显示,其在脂蛋白组装、蛋白质端粒定位、免疫调控及DNA复制等生物过程中富集,见图6b。上述通路与T细胞活化及肿瘤增殖密切相关,提示风险评分与肿瘤微环境存在潜在关联。
图6 风险评分显著相关基因的GSEA富集分析
基于富集分析提示的免疫相关通路,进一步通过ssGSEA评估高低风险组的免疫细胞浸润水平。结果显示,在28类免疫细胞中,有21类(活化的B细胞、CD8+ T细胞、自然杀伤细胞等)在低风险组中浸润分数显著较高(P <0.05),见图7a,其中8类为T细胞相关,表明该预后模型与T细胞免疫密切相关。ESTIMATE算法分析进一步揭示,高风险组的基质评分、免疫评分和ESTIMATE评分均显著较低,而肿瘤纯度更高,见图7b。免疫检查点差异表达分析发现,63个免疫检查点基因与风险分组显著相关,其中PDCD-1、CTLA-4等在低风险组高表达,而CD276、TNFSF4等在高风险组高表达,见图7d。此外,TIDE分析显示高风险组具有更高的TIDE评分和更强的T细胞排斥能力,提示其免疫治疗反应可能较差且免疫逃逸风险更高,见图7c。
图7 高低风险组间的免疫浸润分析和免疫治疗反应
注:ns表示P>0.05;*表示P<0.05;**表示P<0.01;***表示P<0.001;****表示P<0.000 1。
基于单细胞数据集采用Louvain算法进行细胞聚类,并通过UMAP可视化聚类分布,见图8a。不同细胞类型在二维空间形成明显独立的细胞簇,表明各细胞群体在基因表达层面存在显著差异,聚类效果良好。基因表达点图证实14个特征基因在不同细胞亚群中的表达存在明确差异性,见图8b。其中,CD79A基因在B细胞群中特异性高表达,表现为较高的表达水平和表达比例。PGK1与VDAC1基因在上皮细胞和增殖细胞群体中表达最为显著,其余基因(如SERPINA1等)在髓系细胞和间充质细胞中呈现不同程度表达。
图8 单细胞转录组分析
为深入鉴定关键基因,采用7种机器学习算法对TCGA队列进行特征筛选,最终确定4个核心基因(VDAC1、SERPINA1、PGK1和CD79A)用于后续分析,见图9a—图9b。随后,利用不同数据库对上述核心基因的表达水平进行多层次验证:利用TCGA与GTEx数据集比较其mRNA的差异表达情况,并结合HPA数据库进一步验证其蛋白质水平的表达情况。TCGA数据分析显示,PGK1与VDAC1在BC组织中表达显著上调,见图9c—图9d,而SERPINA1与CD79A在两组间的表达差异无统计学意义,见图9e—图9f。HPA数据库验证显示,PGK1与VDAC1在BC组织中蛋白水平呈现高表达,而SERPINA1与CD79A的蛋白水平均无显著差异,与其mRNA表达结果相符,见图9g。
图9 BC组织中4个核心氧化应激相关基因的验证
氧化应激广泛参与癌症的发生与发展,有研究[8]显示BC患者尿液8-OHdG水平显著高于正常人群,表明其参与BC发生发展进程。作为关键致癌机制,氧化应激具有成为抗癌治疗新靶点的潜力[9]。尽管氧化应激相关基因的表达异常是该过程的核心,但其在BC中的致病机制及预后价值仍有待阐明。为此,通过系统评估117种机器学习算法组合,成功筛选并构建了基于氧化应激相关基因的BC预后模型。为促进临床转化,进一步整合年龄、ER状态、病理M分期、临床病理分期与风险评分,绘制了预测1、3、5年生存率的列线图,其预测准确性经校准曲线验证良好。
GSEA分析显示,预后模型的风险评分与多条信号通路存在显著关联,其中TCR-PLCG-ITPR信号通路及IL-2家族调控的JAK-STAT信号通路在低风险组中呈现显著富集。生物信息学整合分析表明,TCR信号通路的活化与T细胞功能调控密切相关,该通路通过调节IL-2等细胞因子的表达,进而影响T细胞的增殖与分化过程[10]。IL-2作为TME中的关键细胞因子,能够激活CD8+T细胞和自然杀伤细胞的抗肿瘤功能[11]。现有研究证实,肿瘤细胞可通过调控IL-2受体表达影响JAK-STAT通路活性,从而促进肿瘤增殖进程[12]。此外,生物信息学分析揭示氧化应激与JAK-STAT通路存在密切联系:ROS可激活JAK-STAT通路作为细胞应激保护机制[13],而该通路的过度活化在BC进展中具有重要作用[14]。这些基于信息学方法发现的通路关联不仅为预后模型的生物学机制提供了理论阐释,也为潜在治疗策略的开发提供了新方向。
TME分析表明,低风险组BC患者中多种抗肿瘤免疫细胞浸润程度显著较高,且免疫功能评分提示该组患者免疫状态更为活跃,具备更强的抗肿瘤免疫潜力。高风险组则呈现典型的免疫排斥表型,该发现与ROS影响肿瘤免疫浸润的既往研究[15]结论相符。进一步分析显示,63个免疫检查点基因在风险组间存在差异表达。其中,PDCD-1与CTLA-4等成熟的免疫治疗标志物在低风险组中表达上调,预示该群体可能对免疫检查点抑制剂治疗有更佳应答[16];而CD276、TNFSF4等分子在高风险组中的上调则为其提供了潜在的治疗靶点。复杂的TME构成被认为是影响BC进展与治疗反应的关键因素[17]。
为在更高分辨率下验证该预后模型的生物学基础,进一步整合GSE292824单细胞数据集进行分析。通过质量控制、批次校正与降维聚类,构建乳腺癌TME的单细胞图谱。分析发现,核心预后基因在不同细胞亚群中呈现特异性的表达模式,其中CD79A特异性表达于B细胞,而PGK1与VDAC1则主要富集于上皮细胞及增殖相关细胞群。该单细胞层面的空间表达谱,为预后特征提供了细胞类型分辨率的计算证据,显著增强了模型的生物学可解释性。
基于7种核心机器学习算法,最终筛选出4个关键基因:PGK1、VDAC1、SERPINA1与CD79A。这些基因在BC预后及TME调控中均发挥重要作用:PGK1作为糖酵解关键酶,促进肿瘤增殖转移,并与免疫细胞浸润水平正相关;VDAC1通过调控代谢物转运及抑制凋亡参与肿瘤进展,其高表达伴随免疫浸润减少,可能抑制抗肿瘤免疫[18];SERPINA1低表达与侵袭性表型及不良预后相关[19],其过表达可能通过促进免疫细胞浸润改善预后;CD79A参与B细胞受体信号转导,受氧化应激调控,并通过影响B细胞浸润调节肿瘤免疫应答[20]。综上,这4个基因不仅参与氧化应激反应,亦通过多种信号通路与TME相互作用共同促进BC进展,为未来免疫治疗策略的开发提供了潜在靶点。
本研究基于机器学习算法与多组学数据,构建包含14个氧化应激相关基因的BC预后模型。该模型在训练集与独立验证集中均表现出良好预测性能,可有效区分患者预后风险。进一步分析显示,预后特征与TME密切相关,具体表现为免疫细胞浸润水平及免疫检查点分子表达的显著差异,为BC预后评估提供了新的计算生物学依据。目前研究结果主要基于公共数据库分析,未来仍须通过多中心临床验证和动物实验进一步确认模型可靠性,并深入探索相关基因在TME中的作用机制。
作者贡献:陈晓龙、冯振宁负责数据整理、论文撰写;唐永君、姜念、马晨璐、何应旭协助数据整理、论文撰写;贝朝涌、庞伟毅、刘慧负责提供指导、论文修订。
利益声明:所有作者均声明不存在利益冲突。
1 NASSIF A B,TALIB M A,NASIR Q,et al. Breast cancer detection using artificial intelligence techniques:a systematic literature review[J]. Artificial intelligence in medicine,2022,127(5):102276.
2 GLASSMAN I,LE N,ASIF A,et al. The role of obesity in breast cancer pathogenesis[J]. Cells,2023,12(16):2061.
3 MALLA R,SUREPALLI N,FARRAN B,et al. Reactive oxygen species (ROS):critical roles in breast tumor microenvironment[J]. Critical reviews in oncology/hematology,2021,160(4):103285.
4 GLORIEUX C,LIU S,TRACHOOTHAM D,et al. Targeting ROS in cancer:rationale and strategies[J]. Nature reviews drug discovery,2024,23(8):583-606.
5 MARCHI S,GUILBAUD E,TAIT S W G,et al. Mitochondrial control of inflammation[J]. Nature reviews immunology,2023,23(3):159-173.
6 MEDINA A,CARBALLO J,GONZáLEZ-MARCANO E,et al. Breast cancer immunotherapy:realities and advances[J]. Cancer innovation,2024,3(5):e140.
7 LIU H,ZHANG W,ZHANG Y,et al. Mime:a flexible machine-learning framework to construct and visualize models for clinical characteristics prediction and feature selection[J]. Computational and structural biotechnology journal,2024,23(12):2798-2810.
8 LIU H,WANG Y S,TANG X,et al. A novel flourenscence aptasensor for 8-hydroxy-2’-deoxyguanosine based on the conformational switching of K+-stabilized G-quadruplex[J]. Journal of pharmaceutical and biomedical analysis,2016,118(1):177-182.
9 KUO C L,PONNERI BABUHARISANKAR A,LIN Y C,et al. Mitochondrial oxidative stress in the tumor microenvironment and cancer immunoescape:foe or friend[J]. Journal of biomedical sciences,2022,29(1):74.
10 SHAN K,AL-HAIDARI A,SUN J,et al. T cell receptor (TCR) signaling in health and disease[J]. Signal transduction and targeted therapy,2021,6(1):412.
11 MUHAMMAD S,FAN T,HAI Y,et al. Reigniting hope in cancer treatment:the promise and pitfalls of IL-2 and IL-2R targeting strategies[J]. Molecular cancer,2023,22(1):121.
12 TRUJILLO-CIRILO L,WEISS-STEIDER B,VARGAS-ANGELES CA,et al. Immune microenvironment of cervical cancer and the role of IL-2 in tumor promotion[J]. Cytokine,2023,170(10):156334.
13 杨发菊,华毛. 慢性阻塞性肺疾病氧化应激及对动脉粥样硬化影响的研究进展[J]. 临床医学进展,2021,11(7):3076-3082.
14 XUE C,YAO Q,GU X,et al. Evolving cognition of the JAK-STAT signaling pathway:autoimmune disorders and cancer[J]. Signal transduction and targeted therapy,2023,8(1):204.
15 WANG H,TIAN R F,LIANG X,et al. A four oxidative stress gene prognostic model and integrated immunity-analysis in pancreatic adenocarcinoma[J]. Frontiers in oncology,2023,12(1):1015042.
16 FANG X,HUANG E,XIE X,et al. A novel senescence-related lncRNA signature that predicts prognosis and the tumor microenvironment in patients with lung adenocarcinoma[J]. Frontiers in genetics,2022,13(11):951311.
17 HARRIS M A,SAVAS P,VIRASSAMY B,et al. Towards targeting the breast cancer immune microenvironment[J]. Nature reviews cancer,2024,24(8):554-577.
18 FANG Y,LIU J,ZHANG Q,et al. Overexpressed VDAC1 in breast cancer as a novel prognostic biomarker and correlates with immune infiltrates[J]. World journal of surgical oncology,2022,20(1):211.
19 LEI C,LI Y,YANG H,et al. Unraveling breast cancer prognosis:a novel model based on coagulation-related genes[J]. Frontiers in molecular biosciences,2024,11(5):1394585.
20 YAO S,HUANG Z,WEI C,et al. CD79A work as a potential target for the prognosis of patients with OSCC:analysis of immune cell infiltration in oral squamous cell carcinoma based on the CIBERSORTx deconvolution algorithm[J].BMC oral health,2023,23(1):411.
X