生成式模型在医疗影像分析中的应用综述

张有健, 周冠群, 周昊天, 王中亚, 张志诚

【作者机构】 深圳扬奇医芯智能科技有限公司; 北京心科医疗科技有限公司; 浙江-芬兰儿童健康人工智能联合实验室
【分 类 号】
【基    金】 国家重点研发计划项目(项目编号:2023YFC2706400) 北京市自然科学基金项目(项目编号:L245015) 重庆市自然科学基金项目(项目编号:CSTB2024NSCQMSX0451)。
全文 文内图表 参考文献 出版信息
生成式模型在医疗影像分析中的应用综述

•专论:人工智能+临床诊疗•

编者按:近年来我国已将人工智能与医疗健康的融合发展提升至战略层面,国家卫生健康委员会联合多部门印发的《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,明确提出“人工智能+临床诊疗”“人工智能+科研教学”“人工智能+中医药”等8大重点应用方向,标志着我国医疗智能化已从试点探索阶段正式迈入规模化推广的全新发展期。得益于人工智能算法的突破性进展、高质量医学影像数据库的建立以及临床转化需求的持续推动,人工智能在临床诊疗领域的研究与应用不断深化,已从诊断辅助向治疗决策支持等环节延伸,并致力于将海量患者数据转化为个体化治疗策略,为医疗服务的智慧化转型注入强劲动能。本期专论聚焦“人工智能+临床诊疗”,内容包括生成式模型在医疗影像分析中的应用、智能体检索增强框架在音乐治疗中的应用以及人工智能在胶质瘤疾病预测中的研究进展等,以期为新一代人工智能深度赋能卫生健康行业高质量发展提供参考。

生成式模型在医疗影像分析中的应用综述

张有健1 周冠群1 周昊天1 王中亚1 张志诚2,3

1深圳扬奇医芯智能科技有限公司 深圳 518000 2北京心科医疗科技有限公司 北京101400 3 浙江-芬兰儿童健康人工智能联合实验室 杭州 310052)

〔摘要〕 目的/意义 系统梳理生成式模型在医疗影像分析领域的研究现状、前沿进展与核心挑战,为相关研究提供参考。方法/过程 采用文献综述法,系统阐述以生成对抗网络、变分自编码器和扩散模型为代表的主流生成式模型的基本原理、技术演进及优缺点。从跨模态影像合成、数据增强、重建去噪、超分辨率、分割检测等关键应用任务出发,对现有研究工作进行归纳和分类。梳理模型性能评估框架,总结从技术指标到临床应用效能的多维度评测体系。结果/结论 生成式模型在医疗影像分析领域展现出巨大潜力与应用价值,但其临床转化仍面临模型可控性与可解释性不足、泛化鲁棒性待提升、数据伦理与高计算开销等挑战。

〔关键词〕 医疗影像分析;生成对抗网络;变分自编码器;扩散模型

1 引言

医疗影像在临床诊断与治疗规划中不可或缺。得益于成像技术的发展,X线、计算机断层扫描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)及超声等已成为疾病早期发现、精准诊断和个性化治疗方案制定的关键支撑。传统医疗影像分析解读主要由放射科医生来完成,然而,病理学具有广泛差异,人类专家可能产生疲劳、效率有限,且其解读易受主观因素影响[1]。近年来,以深度学习为代表的人工智能(artificial intelligence,AI)技术推动了医学影像分析领域的发展,并在疾病检测[2]、分类[3]、分割[4]等任务中取得显著突破。但是深度学习技术在临床中广泛应用仍面临一系列严峻挑战。首先,临床实践中,对成像效率与患者安全的追求,常与获得高质量诊断图像的需求形成内在矛盾。例如,在CT检查中降低辐射剂量或在MRI扫描中缩短采集时间,虽然有助于提升操作效率并减少患者风险,但往往会增加图像噪声,进而影响诊断图像的质量[5]。其次,高质量标注数据稀缺与专家标注成本高昂是核心瓶颈,尤其在罕见病领域,数据匮乏和域偏移问题削弱了模型的泛化能力[6]。最后,患者数据隐私与安全合规性是不可逾越的红线,欧盟《通用数据保护条例》和我国《个人信息保护法》等法规要求对影像数据进行匿名化和加密[7],在一定程度上限制了数据共享和大规模数据集构建,也增加了临床应用的复杂度[8]。面对上述挑战,生成式模型[9],如生成对抗网络(generative adversarial network,GAN)[10]、变分自编码器(variational autoencoder,VAE)[11]和扩散模型[12]等,通过学习数据内在分布,生成与真实数据高度相似的新样本,有望缓解数据稀缺和隐私安全问题,还能通过跨模态转换、图像增强、去噪与重建等功能,有效解决低质量成像和域偏移问题[13]

生成式模型在医疗影像领域的应用已成为精准医疗发展的关键方向,但目前该领域仍缺乏对技术进展、核心应用场景及现存挑战的系统性梳理。既有研究分散于数据生成、诊断辅助、影像重建等细分场景,尚未形成统一认知框架,难以有效指导科研创新与临床转化。本综述总结生成式模型在医疗影像中的研究成果,分析其技术应用价值与瓶颈,为科研人员明晰研究方向,为临床工作者提供转化参考,推动该领域规范化发展,助力生成式模型与医疗影像深度融合,兼具理论价值与临床实践指导价值。

2 生成式模型关键技术

2.1 生成对抗网络

GAN通过生成器与判别器的对抗训练,使生成分布逐步逼近真实分布[14]。GAN具有一次前向传播即可快速采样、对高频细节刻画能力强等优势,但早期训练往往不稳定,存在梯度消失、非收敛震荡与模式崩塌等现象[15]。为解决此问题,有研究[16]引入更优的距离度量来提升训练稳定性。在架构设计方面,StyleGAN等模型通过控制多尺度风格,实现了多尺度细节的可控生成,并提高了图像的保真度[17]。因此,GAN凭借高效采样与细节恢复能力,在医学影像合成、重建与增强等任务中应用广泛,但训练稳定性与可靠性问题是其临床转化的主要障碍。

2.2 变分自编码器

VAE是基于变分推断的深度生成式模型,其通过优化证据下界,学习数据的结构化潜空间[18]。VAE的主要优点是训练过程稳定,且潜空间具有良好的可解释性,可应用于医学影像异常检测和可控数据生成等任务。其主要局限在于,标准VAE生成的图像常因像素级损失和先验约束显得模糊、缺乏细节。为提升生成质量,相关改进研究包括:增强潜空间的表达能力[19],引入离散潜空间[20],结合GAN的判别器来增强图像的真实感[21]。VAE的细节生成能力仍是有待持续优化的方向。

2.3 扩散模型

扩散模型是一类通过模拟前向加噪与反向去噪过程来生成数据的模型[22]。该范式通过DDPM[23]等在图像生成质量和多样性上取得了突破。其优势在于训练稳定,生成质量高,主要挑战在于迭代式采样过程导致推理速度较慢。为应对此挑战,有研究提出加速采样策略[24],并通过在低维潜空间进行扩散[25],大幅降低计算成本。扩散模型凭借其高保真生成、样本多样性与可控性方面的卓越表现,在医疗影像分析领域展现出巨大的应用潜力,然而,其迭代采样带来的高计算成本和较慢的推理速度,仍然是其走向临床实时应用的主要瓶颈。

2.4 其他代表性生成式模型

除了上述主流生成式模型外,该领域还涌现出各具特色的模型范式。其中,流模型[26]以可逆变换精确建模数据分布,可直接计算似然值。能量基模型[27]通过非归一化能量函数隐式定义概率分布,灵活性强,因此更易融合领域先验知识。尽管这些模型在理论完备性或特定任务上展现独特优势,但处理高分辨率、结构复杂的医学影像时仍面临挑战:流模型对网络拓扑具有强约束,导致其无法像普通神经网络一样随意堆叠非线性变换,限制了其单层特征表达能力;自回归模型计算效率低;能量基模型训练与采样不稳定且难扩展。主要生成式模型的优缺点对比,见表1。

表1 主要生成式模型的优缺点对比

3 生成式模型在各类医学影像任务中的应用

3.1 跨模态影像合成

跨模态合成技术旨在根据一种模态的影像生成另一种模态的影像,这对于解决成像成本高昂、多模态数据配准困难以及多中心数据域偏移等临床难题至关重要。GAN通过生成器与判别器的对抗学习,在缺乏成对数据的情况下生成高质量影像[34]。VAE通过构建共享潜空间的方式,进一步增强模态间转换的稳定性。与GAN相比,VAE提供了一种更平滑且结构化的图像生成方式,使不同医学影像模态之间的映射更加精确[35]。扩散模型通过模拟图像逐步去噪的过程,在生成图像时保留了更多的细节和纹理。有研究[36]提出纹理保持的条件扩散模型,实现了从锥形束CT(cone beam computed tomography,CBCT)到CT的合成,并在多中心数据集上验证了泛化性能,进而引入文本条件引导机制,实现单一模态输入、多模态医学图像生成,显著提升了模型的可控性与多样性[37]

3.2 数据增强与小样本学习

为克服医学影像分析任务中数据集规模小、标注成本高昂的问题,生成式模型提供了一系列先进的数据增强与小样本学习范式。GAN通过直接生成扩充训练集缓解小样本数据稀缺问题[38]。VAE通过学习数据内在结构,在概率潜空间中生成有意义的语义特征,实现更强的生成可控性。STVAE[39]以条件VAE融合视觉和语义先验知识,指导特征生成,显著提升小样本学习中数据增强的质量与多样性。扩散模型兼具GAN的高生成质量和VAE的稳定训练过程,在小样本和数据增强领域尤为有效。MetaDiff[40]将模型权重从随机初始化到最优化的过程类比为扩散去噪过程,化解传统梯度元学习方法在小样本学习中的高内存消耗与梯度消失风险。

3.3 重建与去噪

图像重建与去噪是医学影像分析的基础环节,能从不完美信号中重建高质量影像。生成式模型在此类任务中展现了强大能力。GAN通过对抗训练从受损数据中恢复图像的完整细节,并保证图像的自然性与结构一致性。Rezaei SR等[41]利用视觉几何组网络和长短期记忆网络从二维CT切片中提取并压缩肿瘤序列特征,生成器根据这些特征重建出高精度的三维肺部肿瘤模型。与GAN追求的像素级真实不同,VAE致力于学习数据的内在潜空间,这使其在可解释性和对复杂动态过程的建模上更具优势。Zhao A等[42]提出首个针对肺纤维化疾病演化过程的“世界模型”,结合三维VQ-GAN空间重建与神经网络常微分方程进行时间动态建模,重建具有临床预测价值的CT影像。不同于GAN和VAE的单步生成,扩散模型的每步均可被外部信息引导,从而确保最终生成的图像更加真实。PrideDiff[43]通过将物理成像过程作为正则化项融入生成过程,有效结合了迭代重建与扩散模型的优势,实现了更快、更高质量的CT重建。

3.4 超分辨率

超分辨率技术旨在从低分辨率图像中重建高分辨率图像,其临床价值在医学影像领域尤为突出。传统插值方法因其无法恢复真实高频信息的本质缺陷,常导致图像模糊[44]。GAN通过对抗生成视觉上逼真的图像,在恢复锐利边缘和精细纹理方面具有一定优势。T-GAN[45]将Transformer和GAN结合,实现了优越的纹理特征恢复,在膝关节和腹部MRI扫描中优于传统方法。然而GAN过度强调重建后的纹理特征,掩盖了其他临床数据。VAE通过学习数据的概率分布实现超分辨率。SeNM-VAE[46]以半监督方式,通过构建特殊图形模型来学习图像退化的条件概率分布。扩散模型通过受控的、渐进式的生成方式,关注保真度和结构一致性,能有效缓解GAN模型产生的伪影和VAE带来的过平滑[47]

3.5 分割

在医学影像分割领域,生成式模型通过学习深层的数据分布与结构先验,为解决标注稀缺、域偏移等传统难题提供了全新思路。GAN通过合成图像解决分割和检测中的数据稀缺与域偏移,以提高泛化性。GMS[48]利用预训练模型将图像和掩码编码到潜空间,然后仅训练一个轻量级模型学习其之间的映射关系,最终解码生成分割结果,以解决传统判别式模型泛化能力有限的问题。与GAN的外部合成策略不同,VAE在分割和检测任务中通过“压缩-解压”过程,迫使模型抛弃像素级的冗余信息,提高准确性[49]。与GAN和VAE方法相比,扩散式分割在不确定性建模和形状先验融合方面具有天然优势,能更好地表达目标边界的不确定性。Med-SegDiff[50]是首个通用医学图像分割扩散模型,其通过动态条件编码和特征频率解析器,在多种模态分割任务上超越既有顶尖方法。尽管速度仍然是扩散推理的瓶颈,但通过少步采样、知识蒸馏或条件引导加速等技术,其实用性正在不断提升。

3.6 检测

在医学影像检测任务中,生成式模型为解决数据标注成本高昂和未知病变发现等难题提供了独特的解决路径。GAN通过其对抗性训练机制,在数据增强方面表现出色。FID-NPP-cGAN[51]生成逼真的肋骨骨折影像以扩充训练集,使YOLOv5的召回率提高约15%、F1提升11%,该思路也被应用于其他疾病研究。与GAN不同,VAE通过构建潜空间学习数据分布,尤其适用于无监督异常检测与多模态融合。P-VQ[52]通过学习正常解剖“补丁”的量化表示,有效区分正常结构与病理特征。扩散模型则通过迭代去噪范式,为目标检测开辟了新路径。例如,将目标检测任务重构为从随机框到真实框的去噪过程[53],提升在仅有部分标注情况下的检测性能;mDDPM[54]结合掩蔽自监督学习,迫使模型学习更精确的健康解剖表征,显著提升了在脑部MRI上的无监督异常检测性能。

4 评估框架与基准

医学影像生成式模型评估主要围绕技术指标与临床应用两个核心层面,主要指标,见表2。技术指标量化生成图像的质量,临床应用衡量模型在真实医疗流程中的价值与可靠性,是其能否落地的关键。

表2 图像质量评估主要指标

4.1 临床专家主观评测

读片者研究是实现生成式模型临床真实价值评价的关键方法,由合格的放射科医生或临床专家评估生成的图像或辅助诊断结果,并将其与金标准进行比较[55]。这类研究通常涉及双盲或多盲设计,以消除偏见,评估生成影像的临床实用性、诊断准确性、与真实影像的区分度以及是否引入了人工痕迹。例如,可评估医生基于合成图像进行诊断的准确率、信心水平,或者在图像增强任务中,专家能否辨别出增强后的图像相比原始图像的优势。读片者研究能够直接反映AI模型对临床工作流程和患者管理的影响,研究[56-57]表明读片者研究是连接生成式AI技术与临床应用的重要桥梁,能够确保AI模型生成结果的临床可接受性和有效性。

4.2 技术指标评估

4.2.1 视觉指标 常用的视觉感知指标包括:弗雷歇起始距离(Fréchet inception distance,FID)[58]、核起始距离(kernel inception distance,KID)[59]和学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)[60]等。在生成影像评估中,FID/KID衡量合成数据分布与真实数据的接近程度,低FID意味着模型既生成了真实感细节又保持了多样性;LPIPS用于评估生成图像与参考图像在组织结构和纹理上的相似性,反映模型对细节的保真程度。然而,视觉感知指标与主观质量并非完全一致,因此常与其他指标结合使用,以全面评估模型性能。

4.2.2 成像质量指标 对于重建、超分辨率、模态转换等任务,传统成像质量指标仍然适用,包括峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性指数(structural similarity index measure,SSIM)、平均绝对误差(mean absolute error,MAE)等。高PSNR、高SSIM和低MAE意味着方法在还原细节和保持组织结构方面表现较好[61]。然而,这些像素级指标存在局限性,如PSNR与人类感知相关性低,SSIM对亮度不均较敏感。因此近年来相关评估倾向于结合感知指标与像素指标,前者保障感官质量、后者确保还原真实信号,可全面反映模型性能。成像质量指标在医学影像生成任务中提供直观数值评价,可量化模型细节保真与结构保持能力,是评测新方法实用水准的基本依据之一。

4.2.3 任务级指标 医学影像生成式模型通常支持各种下游任务,其评估不仅限于图像本身的质量,还要考量模型在特定临床任务上的表现。因此,任务级指标是不可或缺的组成部分。在临床任务上,许多指标的评估均源于对精确率和召回率的权衡,如F1值。针对不同的临床任务,演化出更具针对性的评价指标。例如,在图像分割中,Dice系数和交并比(intersection over union,IoU)是衡量区域重叠度的常用指标,因其能有效处理类别不平衡问题而被广泛采用[62-63]。对于要精确勾画边界的任务,仅评估区域重叠是不够的,还要引入豪斯多夫距离(Hausdorff distance,HD)[64]等基于边界的指标来量化分割轮廓与真实轮廓间的差异。对于目标检测任务,平均精度均值(mean average precision,mAP)是评估模型识别与定位综合性能的核心指标,尤其在处理多类别、多尺度病灶时表现优越[65]。在分类任务中,评价指标的选择高度依赖数据特性。对于正负样本相对均衡的数据集,受试者工作特征曲线下面积(area under the receiver operating characteristic curve,AUC-ROC)是稳健的选择,其全面衡量模型在所有阈值下的整体鉴别能力[66]。然而,在某些以正样本为主要研究对象的医学场景中(如肿瘤分级、术前评估、疗效预测等),尤其是在负样本数量极少的情况下,精确率-召回率曲线下面积(area under the precision-recall curve,AUPRC)则更具指导意义。这是因为其能更真实地反映模型在关键正样本上的表现,而AUC-ROC则必须兼顾正负两类样本的表现。

4.3 多中心验证

多中心验证是评估模型跨域泛化和稳健性的标准方法[67]。整合来自多个地理位置、不同设备和不同患者群体的大量数据,构建数据集,并在其上进行测试,能够充分验证模型的泛化能力和鲁棒性。成功的验证意味着模型在实际部署时能提供一致可靠的性能,这对医疗AI技术的广泛应用和信任建立至关重要。反之,如果模型在新中心表现不佳,可能会导致误诊、误判,会影响患者健康和临床决策的可靠性。在医学影像生成领域,多中心验证尤其重要,因为这些模型可能被用于合成多样化的训练数据、提高图像质量或执行去噪任务,其生成结果的真实感、医学准确性及在不同临床背景下的适用性均应通过严格的跨中心测试来证明[68-69]

5 挑战与未来展望

尽管生成式模型在医疗影像领域应用前景广阔,但其从理论验证走向临床实践仍面临诸多挑战。首先是模型内在机制的可信度,集中体现为可控性、可解释性与验证评估3个层面。可控性层面,现有模型尚不具备对临床关键语义属性进行精细化操控的能力,例如仍难以精确控制生成病灶的形态学特征,限制了其在精准疾病模拟、罕见病数据增强及手术规划等应用中的价值。可解释性层面,其可解释性不足并存在“幻觉”风险,在图像去噪或超分辨率重建等任务中,可能生成伪影,如平滑掉具有诊断意义的微小病灶或虚构血管结构,由于其“黑箱”本质,临床医生无法辨别真实信号与算法臆测,这种不确定性在高风险诊断中不可接受。验证评估层面,要系统评估合成数据是否保留了所有诊断相关的生物标志物、是否引入了误导性伪影,以及下游模型在所有亚人群中的公平性,这要求构建结合放射组学、病理学金标准及大规模多中心读片者研究的复杂评估体系,其成本极为高昂且周期漫长。其次,数据方面的困境限制生成式模型的发展,数据稀缺背后是高质量、多样化、精标注数据的匮乏,医疗数据获取成本高昂且受隐私法规限制;更深层问题是模型偏见的固化与放大,生成式模型会学习并放大训练数据中的系统性偏差,这些偏差源于特定人群(如种族、性别、年龄)的代表性不足、设备异质性或地域疾病流行特征,不仅导致模型在少数群体性能不佳,还可能加剧医疗健康不平等。最后,技术鲁棒性、部署效率与监管缺位也是模型从实验室走向临床工作流的障碍,虽然生成式模型能部分缓解域偏移,但鲁棒性不足,对扫描协议、重建算法或患者摆位等微小变化极为敏感,无法成为临床稳定工具。同时,计算资源高昂开销与训练/推理效率低下构成瓶颈,GAN训练不稳定,而领先的扩散模型迭代采样过程导致生成高分辨率三维影像需要数分钟甚至更长时间,在即时反馈的临床场景(如术中导航)中不可行。更重要的是,全球缺乏针对AI生成医疗数据的明确监管指南,合成数据在临床试验、医疗器械审批中的法律地位、有效性认定及责任界定不明朗,为商业化和临床转化带来显著不确定性。

为应对上述挑战,未来研究方向将聚焦构建可信、高效、公平且深度整合临床工作流的生成式医疗AI新范式。首先,在模型可信度方面,可发展融入领域知识的下一代生成式模型,例如将病理学知识图谱、生理学模型和物理成像过程深度整合到生成机制中,训练出真正“懂医学”的模型,实现对疾病特征的精准、可控编辑,并抑制“幻觉”产生。同时,发展适用于生成式模型的可解释性技术,例如通过逆向分析潜空间解析生成内容的逻辑,将是建立人机信任的关键。其次,为应对数据困境和伦理挑战,构建大规模、多模态医疗基础模型已成为业界共识,通过在海量、异构医疗数据上进行自监督预训练,此类模型能学习通用、鲁棒的生物医学表征,并通过少量样本快速适配下游任务,从而缓解小样本和域偏移问题。在此基础上,可结合联邦学习、差分隐私与安全多方计算等隐私增强技术,构建安全合规的数据协同生态系统,推动多中心、大规模协作创新。最后,为推动该技术从实验室走向临床,技术效率优化与标准化体系建设将是并行的两大重点。在技术层面,针对扩散模型等前沿架构的高效推理算法研发将成为热点,结合模型蒸馏、量化和专用硬件加速,实现高分辨率三维医学影像的秒级甚至实时生成。在标准化体系建设层面,行业协会、学术界与监管机构应加强合作,建立针对生成式医疗AI的标准化评测基准与监管框架,应兼顾临床应用与技术性能,全面评估模型的临床效用、鲁棒性、公平性与安全性,为技术迭代发展提供科学依据。通过系统解决上述挑战,生成式模型有望从当前的数据增强工具,发展为驱动个性化疾病模拟、虚拟临床试验和新型生物标志物发现的关键技术,从而对精准医疗领域产生深远影响,并为提升人类健康水平做出实质贡献。

6 结语

本综述系统回顾生成式模型在医疗影像分析领域的研究现状与前沿进展。展望未来,要将这一巨大的技术潜力转化为切实的临床价值,研究核心必须聚焦构建可信、可控的医疗基础模型,并为其建立标准化的评测基准,以此加速生成式AI在精准医疗中的落地应用。

作者贡献:张有健负责研究设计、论文撰写与修订;周冠群、周昊天、王中亚负责文献调研;张志诚负责提出选题、论文审核与修订。

利益声明:所有作者均声明不存在利益冲突。

参考文献

1 SHEN D,WUG,SUK H I.Deep learning inmedical image analysis[J].Annual review of biomedical engineering,2017,19(1):221-248.

2 薛静艳,夏佳楠,霍蕊莉,等.基于深度学习的OCT/OCTA视网膜图像分析方法综述[J/OL].计算机科学,1-18[2025-08-28].https://link.cnki.net/urlid/50.1075.tp.20250321.1633.037.

3 宋子岩,罗川,李天瑞,等.基于注意力机制和双分支网络的胸部疾病分类 [J].计算机科学,2024,51(S2):219-224.

4 AZAD R,AGHDAM E K,RAULAND A,et al.Medical image segmentation review:the success of U-Net[J].IEEE transactions on pattern analysis and machine intelligence,2024,46(12):10076-10095.

5 CLEMENT DAVID-OLAWADE A,OLAWADE D B,VANDERBLOEMEN L,et al.AI-driven advances in low-dose imaging and enhancement-a review[J].Diagnostics,2025,15(6):689.

6 GUAN H,LIU M.Domain adaptation formedical image analysis:a survey[J].IEEE transactions on biomedical engineering,2021,69(3):1173-1185.

7 MEEUSM,JAIN S,DEMONTJOYE Y A.Concerns about using a digitalmask to safeguard patient privacy[J].Naturemedicine,2023,29(7):1658-1659.

8 KONDYLAKISH,KALOKYRIV,SFAKIANAKISS,etal.Data infrastructures for AI in medical imaging:a report on the experiences of five EU projects[J].European radiology experimental,2023,7(1):20.

9 MEHMOOD R,BASHIR R,GIRI K J.Deep generative models:a review[J].Indian journal of science and technology,2023,16(7):460-467.

10 ALIM,ALIM,HUSSAIN M,et al.Generative adversarial networks(GANs)formedical image processing:recent advancements[J].Archives of computationalmethods in engineering,2025,32(2):1185-1198.

11 KINGMA D P,WELLING M.Auto-encoding variational bayes[EB/OL].[2025-08-28].https://arxiv.org/abs/1312.6114.

12 CROITORU F A,HONDRU V,IONESCU R T,et al.Diffusionmodels in vision:a survey[J].IEEE transactions on pattern analysis and machine intelligence,2023,45(9):10850-10869.

13 KOSHINO K,WERNER R A,POMPER M G,et al.Narrative review of generative adversarial networks in medical and molecular imaging[J].Annals of translational medicine,2021,9(9):821.

14 GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144.

15 MESCHEDER L,GEIGER A,NOWOZIN S.Which training methods for GANs do actually converge[C].Stockholm:International Conference on Machine Learning,2018.

16 BIAU GÃ,SANGNIER M,TANIELIAN U.Some theoretical insights intoWasserstein GANs[J].Journal ofmachine learning research,2021,22(119):1-45.

17 KARRAST,LAINE S,AILA T.A style-based generator architecture for generative adversarial networks[C].Long Beach:The IEEE/CVFConference on Computer Vision and Pattern Recognition,2019.

18 KINGMA D P,WELLING M.An introduction to variational autoencoders[J].Foundations and trends in machine learning,2019,12(4):307-392.

19 HIGGINS I,MATTHEY L,PAL A,et al.beta-VAE:learning basic visual concepts with a constrained variational framework [C].Toulon:International Conference on Learning Representations,2017.

20 LIU D,LAMB A M,KAWAGUCHI K,et al.Discretevalued neural communication[J].Advances in neural information processing systems,2021,34:2109-2121.

21 ESSER P,ROMBACH R,OMMER B.Taming transformers for high-resolution image synthesis[C].Online:The IEEE/CVFConference on Computer Vision and Pattern Recognition,2021.

22 SOHL-DICKSTEIN J,WEISSE,MAHESWARANATHANN,et al.Deep unsupervised learning using nonequilibrium thermodynamics[C].Vanvoucer:International Conference on Machine Learning,2015.

23 HO J,JAIN A,ABBEEL P.Denoising diffusion probabilistic models[EB/OL].[2025-08-28].https://arxiv.org/abs/2006.11239.

24 SONG J,MENG C,ERMON S.Denoising diffusion implicit models[EB/OL].[2025-08-28].https://arxiv.org/abs/2010.02502.

25 ROMBACH R,BLATTMANN A,LORENZ D,et al.High-resolution image synthesis with latent diffusion models[C].New Orleans:The IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022.

26 PAPAMAKARIOSG,NALISNICK E,REZENDED J,etal.Normalizing flows for probabilistic modeling and inference[J].Journal of machine learning research,2021,22(57):1-64.

27 DUVENAUD D,WANG J,JACOBSEN J,et al.Your classifier is secretly an energy based model and you should treat it like one[C].Online:International Conference on Learning Representations(ICLR),2020.

28 梁俊杰,韦舰晶,蒋正锋.生成对抗网络GAN综述[J].计算机科学与探索,2020,14(1):1-17.

29 郑玉彤,孙昊英,宋伟.隐空间转换的混合样本图像去雾[J].计算机工程与应用,2023,59(9):225-236.30刘且根,官瑜,伍伟文,等.基于扩散模型的医学成像研究综述[J].CT理论与应用研究(中英文),2025,34(3):506-524.

31 范骏超,苗芸芸,毕秀丽,等.基于流模型的荧光图像超分辨率[J].中国激光,2024,51(15):35-45.

32 XIE J,ZHENG Z,LIP.Learning energy-basedmodelwith variational auto-encoder as amortized sampler[C]Online:The AAAIConference on Artificial Intelligence,2021.

33 BOND-TAYLOR S,LEACH A,LONG Y,et al.Deep generative modelling:a comparative review of vaes,gans,normalizing flows,energy-based and autoregressivemodels[J].IEEE transactions on pattern analysis and machine intelligence,2021,44(11):7327-7347.

34 WANG R,HEIMANN A F,TANNAST M,et al.CycleSGAN:a cycle-consistent and semantics-preserving generative adversarial network for unpaired MR-to-CT image synthesis[J].Computerizedmedical imaging and graphics,2024,117(10):102431.

35 LIANG Z,CHENG M,MA J,et al.Multimodal medical image-to-image translation via variational autoencoder latent spacemapping[J].Medical physics,2025,52(7):e17912.

36 ZHANG Y,LIL,WANG J,et al.Texture-preserving diffusion model for CBCT-to-CT synthesis[J].Medical image analysis,2025,99(1):103362.

37 ZHANG Y,HUANG J,WANG J,etal.High-fidelity unified one-to-many medical image synthesis via text-conditioned latent diffusion[C].Daejeon:International Conference on Medical Image Computing and Computer-Assisted Intervention,2025.

38 TANG L,ZHANG Y,HUIY,et al.GAN-guided fewshot attention network for medical images fusion quality assessment[J].IEEE transactions on medical imaging,2025,44(11):4292-4306.

39 ZHANG Y,HUANG S,PENG X,et al.Semi-identical twins variational autoencoder for few-shot learning[J].IEEE transactions on neural networks and learning systems,2023,35(7):9455-9469.

40 ZHANG B,LUO C,YU D,etal.MetaDiff:meta-learning with conditional diffusion for few-shot learning[C].Vancouver:The AAAI Conference on Artificial Intelligence,2024,38(15):16687-16695.

41 REZAEISR,AHMADIA.A GAN-based method for 3D lung tumor reconstruction boosted by a knowledge transfer approach[J].Multimedia tools and applications,2023,82(28):44359-44385.

42 ZHAO A,XU M,SHAHIN A H,etal.4D-VQ-GAN:a world model for synthesizingmedical scans at any time point for personalized disease progression modeling of idiopathic pulmonary fibrosis[C].Salt Lake City:Medical Imaging with Deep Learning,2025.

43 LU Z,GAO Q,WANG T,et al.PrideDiff:physics-regularized generalized diffusion model for CT reconstruction[J].IEEE transactions on radiation and plasmamedical sciences,2024,9(2):157-168.

44 YANG Y,CAO S,WAN W,et al.Multi-modalmedical image super-resolution fusion based on detail enhancement and weighted local energy deviation[J].Biomedical signal processing and control,2023,80(2):104387.

45 PUTTAGUNTA M,SUBBAN R.Swinir transformer applied formedical image super-resolution[J].Procedia computer science,2022,204:907-913.

46 ZHENG D,ZOU Y,ZHANG X,et al.SeNM-VAE:semisupervised noisemodeling with hierarchical variational autoencoder[C].Seattle:The IEEE/CVFConference on Computer Vision and Pattern Recognition,2024.

47 LIU T,HAN S,XIE L,etal.Super-resolution reconstruction of ultrasound image using a modified diffusion model[J].Physics inmedicine&biology,2024,69(12):125026.

48 HUO J,OUYANG X,OURSELIN S,et al.Generative medical segmentation[C].Philadelphia:The AAAIConference on Artificial Intelligence,2025.

49 HUANG S,XU T,SHEN N,et al.Rethinking few-shot medical segmentation:a vector quantization view[C].Vancouver:The IEEE/CVF Conference on Computer Vision and Pattern Recognition,2023.

50 WU J,FU R,FANG H,et al.MedSegDiff:medical image segmentation with diffusion probabilisticmodel[C].Paris:Medical Imaging with Deep Learning,2024.

51 TU E,BURKOW J,TSAIA,et al.Near-pair patch generative adversarial network for data augmentation of focal pathology object detectionmodels[J].Journal ofmedical imaging,2024,11(3):34505.

52 KIM T,LEE Y G,JEONG I,et al.Patch-wise vector quantization for unsupervised medical anomaly detection[J].Pattern recognition letters,2024,184:205-211.

53 HAMAMCI IE,ER S,SIMSAR E,etal.Diffusion-based hierarchicalmulti-label object detection to analyze panoramic dental X-rays[C].Vancouver:International Conference on Medical Image Computing and Computer-assisted Intervention,2023.

54 IQBAL H,KHALID U,CHEN C,et al.Unsupervised anomaly detection in medical images using masked diffusion model[C].Vancouver:International Workshop on Machine Learning in Medical Imaging,2023.

55 HEW,WU X,JIN Z,et al.Generative artificial intelligence in medical imaging:current landscape,challenges,and future directions[J].Interdisciplinary medicine,2025,3(4):e20250024.

56 LIU Z,WOLFE S,YU Z,et al.Observer-study-based approaches to quantitatively evaluate the realism of synthetic medical images[J].Physics inmedicine&biology,2023,68(7):074001.

57 KORKINOF D,HARVEY H,HEINDL A,et al.Perceived realism of high-resolution generative adversarial networkderived synthetic mammograms[J].Radiology:artificial intelligence,2020,3(2):e190181.

58 YU Y,ZHANG W,DENG Y.Frechet inception distance(FID)for evaluating GANs[EB/OL].[2025-08-28].https://www.researchgate.net/publication/354269184_Frechet_Inception_Distance_FID_for_Evaluating_GANs.

59 B IKOWSKIM,SUTHERLAND D J,ARBEL M,et al.Demystifying MMD GANs[EB/OL].[2025-08-28].https://arxiv.org/abs/1801.01401.

60 SNELL J,RIDGEWAY K,LIAO R,etal.Learning to generate images with perceptual similarity metrics[C].Bei-jing:2017 IEEE International Conference on Image Processing(ICIP),2017.

61 MARUYAMA S.Properties of the SSIM metric in medical image assessment:correspondence between measurements and the spatial frequency spectrum[J].Physical and engineering sciences inmedicine,2023,46(3):1131-1141.

62 TAHA A A,HANBURY A.Metrics for evaluating 3Dmedical image segmentation:analysis,selection,and tool[J].BMCmedical imaging,2015,15(1):29.

63 RAMESH K K D,KUMAR G K,SWAPNA K,etal.A review of medical image segmentation algorithms[J].EAI endorsed transactions on pervasive health& technology,2021,7(27):1-9.

64 TAHA A A,HANBURY A.An efficient algorithm for calculating the exact Hausdorff distance[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(11):2153-2163.

65 WANDETO JM,NYONGESA H,RÉMOND Y,et al.Detection of small changes in medical and random-dot images comparing self-organizingmap performance to human detection[EB/OL].[2025-08-28].https://www.sciencedirect.com/science/article/pii/S2352914817300059.

66 WETS JA.Measuring the accuracy of diagnostic systems[J].Science,1988,240(4857):1285-1293.

67 LEE SW,LEE H C,SUH J,et al.Multi-center validation ofmachine learningmodel for preoperative prediction of postoperativemortality[J].NPJ digitalmedicine,2022,5(1):91.

68 ZHAO H,XU Z,CHEN L,et al.Large-scale pretrained frame generativemodel enables real-time low-dose DSA imaging:an AIsystem development and multi-center validation study[J].Med,2025,6(1):100497.

69 CHANG Q,YAN Z,ZHOUM,et al.Miningmulti-center heterogeneousmedical data with distributed synthetic learning[J].Nature communications,2023,14(1):5510.

A Review of the App lications of Generative M odels in Medical Image Analysis

ZHANG Youjian1ZHOU Guanqun1ZHOU Haotian1WANG Zhongya1ZHANG Zhicheng23

1 Shenzhen Jancsitech Co.Ltd.,Shenzhen 518000China2 Beijing XinkeMedical Tech.,Co.Ltd.,Beijing 101400China3 Sino-Finland Joint AILaboratory for Child Health of Zhejiang ProvinceHangzhou 310052China

〔Abstract〕 Purpose/Significance To systematically review the current state,frontier progress and core challenges of generativemodels in medical image analysis,and to provide references for relevant research.Method/Process By using the literature review method,the fundamental principles,technical evolution,advantages and disadvantages ofmainstream generativemodels represented by generative adversarial network(GAN),variational autoencoder(VAE)and diffusionmodels are systematically elaborated.Through the key application tasks such as cross-modal image synthesis,data augmentation,reconstruction and denoising,super-resolution,segmentation and detection,current research is summarized and classified.Themodel performance evaluation framework is sorted out,and amultidimensional evaluation system from technical indicators to clinical application efficacy is summarized.Result/Conclusion Generativemodels demonstrate great potential and application value in the field ofmedical image analysis,but their clinical transformation still faces challenges such as insufficient controllability and interpretability of themodel,need for improved generalization and robustness,data ethics issues,and high computational overhead,etc.

〔Keywords〕 medical image analysis;generative adversarial network(GAN);variational autoencoder(VAE);diffusionmodel

〔中图分类号〕 R-058

〔文献标识码〕 A

〔DOI〕 10.3969/j.issn.1673-6036.2026.02.001

〔修回日期〕 2025-11-07

〔作者简介〕 张有健,工程师,发表论文9篇;通信作者:张志诚,高级工程师。

〔基金项目〕 国家重点研发计划项目(项目编号:2023YFC2706400);北京市自然科学基金项目(项目编号:L245015);重庆市自然科学基金项目(项目编号:CSTB2024NSCQMSX0451)。

X