Skip to main content

SSL

参考: https://www.mdpi.com/2379-139X/11/5/52 https://www.mdpi.com/2078-2489/16/6/433

医学图像特征

医学图像模态的多样性

医学图像通常包含多种模态,这与一般只有单一模态的自然图像不同。例如,在心血管疾病诊断中,常用的医学成像模态包括超声心动图、心脏磁共振成像(CMR)和心脏计算机断层扫描血管造影(CTA)。因此,在心脏图像分割任务中,往往需要融合不同模态的信息以提高分割准确性。

医学图像边缘模糊

受成像技术、人为因素、图像处理设备及参数等限制,医学图像常存在噪声、边界不清、分辨率低和对比度不足等问题。这些挑战增加了病变识别、特征分析和治疗规划的难度,可能导致临床医生漏诊或误诊,进而影响诊断准确性和治疗效果。

带标注医学图像数据稀缺

医学图像数据的获取本身存在难度,罕见病病例的数据获取尤为困难。标注医学图像需要耗费大量时间和精力,且标注者需具备深厚的医学知识,如人体解剖学和疾病特征相关知识。因此,带标注的医学图像数据稀缺,这对深度学习模型的训练构成了相当大的挑战,需要减少对精确像素级标注的依赖。

医学图像分割目标复杂多样

医学图像中的分割目标(如器官、组织或病变)具有复杂且不规则的形状。例如,肺部复杂的支气管和血管网络,以及肿瘤的形态变异,都增加了分割目标的多样性和复杂性。这些形状变异给医学图像分割任务带来了显著挑战,尤其是在处理肿瘤等病变时,肿瘤与周围组织的边界往往模糊不清,可能存在相互浸润的情况。

半监督方法

基于伪标签

伪标签方法是半监督学习中最简单但最有效的方法之一(Wang, Y.; Yang, Y. Improved Co-Training-Based Lung CT Image COVID-19 Lesion Segmentation Method. Comput. Eng. Des. 2023, 44, 2447–2453.)。

其核心思想是

  1. 将模型在未标注数据上的预测结果作为伪标签,将其视为真实标签用于训练。
  2. 通过迭代生成伪标签和训练模型
  3. 该方法可以逐步利用未标注数据中的信息来提高分割性能。

然而,如果伪标签中包含大量错误,模型在训练过程中可能会融入不正确的信息,从而降低其分割性能。此外,在训练过程中,至关重要的是平衡标注数据和伪标签数据,确保模型能够从标注数据中学习准确的知识,同时从伪标签数据中提取更多信息。因此,伪标签方法的关键在于生成高质量的伪标签并有效地利用它们进行模型训练。

为解决半监督学习中伪标签置信度不足的问题,早期方法(Lee, D.-H. Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. In Proceedings of the Workshop on challenges in representation learning, ICML, Atlanta, GA, USA, 16–21 June 2013; Volume 3, p. 896) 引入了置信度阈值策略,模型为每个预测输出置信度分数。仅保留置信度分数高于预设阈值的伪标签,并将其添加到训练数据集中,从而过滤掉低置信度预测。

然而,阈值设置的静态性质可能导致有价值信息的丢失。为克服这一局限性,

  1. 双模型集成策略,采用两种不同的网络架构(U 型网络和 DeepLabV3+)作为基础网络进行协同训练,从而减轻单一模型在置信度估计中的偏差。
  2. 然而,静态集成方法可能无法很好地适应动态数据变化。对此,沈等人 [87] 提出,均值教师模型(Mean Teacher)也可以被视为一种集成伪标签方法,其中教师网络的预测作为更稳定的伪标签,用于指导学生网络的训练。

克尔瓦代克等人 [88] 从不同角度入手,引入了课程半监督学习,通过融入额外约束来增强伪标签的置信度。在 ACDC 数据集上的实验结果表明,仅使用 5 个标注数据样本,该方法的Dice比全监督学习方法高出约 25%,展现出强大的性能。

类似地,吴等人 [89] 提出了一种用于联邦半监督医学图像分割的基于原型的伪标签生成方法,其中来自标注数据的图像级原型指导未标注客户端数据上的伪标签生成。这种方法有效解决了由跨中心数据分布差异引起的伪标签偏差。

为进一步提高伪标签的可靠性,沈等人 [90] 设计了交叉置信度监督网络(CCSM),通过双分支置信度过滤和交叉验证减少噪声标签的传播。

然而,交叉置信度监督网络严重依赖初始伪标签的质量。对此,一些研究提出了自校正伪标签方法,通过迭代优化伪标签质量,并使用改进后的标签重新训练模型。

苗等人 [91] 通过提出一种新颖的自校正协同训练方案(SC-SSL),解决了未标注数据的学习目标质量问题。该方法使模型能够学习更接近真实标签的目标,从而更有效地探索具有语义上下文感知的未标注数据。

在医学图像分割领域,伪标签中的噪声会导致模型性能下降,而受约束的伪标签往往存在信息不足的问题。为应对这些挑战,闵等人 [92] 引入了深度注意力网络(DAN),该网络能够自适应地检测和纠正噪声标签中的错误,从而提高伪标签质量。然而,深度注意力网络对数据转换方法敏感,同时训练两个学生网络增加了计算负载和训练时间,影响效率。为克服这些局限性,未来研究可探索更稳定的数据转换策略,以减少对特定转换的依赖,并通过模型剪枝和量化等技术优化网络架构,从而提高训练效率。

伪标签在半监督学习中的应用在医学图像分割领域不断发展,从早期的置信度阈值策略到双模型集成、基于课程的半监督学习,再到更复杂的自校正伪标签和深度注意力网络等模型。每一项创新都有助于改善伪标签的噪声问题和信息不足问题。尽管取得了这些进展,挑战仍然存在,包括对初始标签质量的依赖、对数据转换的敏感性以及高计算成本等。未来研究应重点克服这些瓶颈,以提高伪标签方法在医学图像分割中的效率和准确性。

基于正则化

一致性正则化的核心思想基于这样一种假设:模型在对未标注数据进行不同扰动后,应产生一致的预测结果 [93]。

这种方法鼓励模型学习对输入变化不敏感的稳健特征表示,从而利用未标注数据中的信息增强模型的泛化能力。一致性正则化在医学图像分割领域受到了广泛关注,相关概念得到了多种实现。

早期的一致性正则化方法在充分挖掘未标注数据潜力方面存在局限性。为解决这一问题,基于数据扰动的一致性正则化方法被引入,该方法对输入数据应用各种扰动(如数据增强和噪声注入),迫使模型在不同数据视图上生成一致的分割结果 [94]。这种方法能够更深入地探索未标注数据中包含的信息。

基于这一思路,尤等人 [95] 提出了自适应校正对比学习(ARCO)框架,以解决医学图像数据中常见的长尾分布和类别不平衡问题。实验结果表明,自适应校正对比学习在多个医学图像分割数据集上优于以往的半监督方法。

类似地,白等人 [94] 引入了双向复制粘贴(BCP)方法,其中未标注数据从标注数据中学习全面的语义信息,而标注数据则从提取自未标注数据的知识中受益,有效减少了两者之间的分布差距。然而,该方法在更复杂的场景和任务中的有效性可能受到限制,这表明未来工作可探索更复杂的正则化函数或融入额外的先验知识,以进一步提高其性能。

基于数据扰动的一致性正则化会修改原始数据的固有特征,在医学成像中,这可能会扭曲真实的解剖结构,影响分割准确性。相比之下,基于模型扰动的一致性正则化通过关注模型本身的结构和参数,克服了这一局限性。应用各种扰动技术(如丢弃法(dropout)[96] 和随机深度(stochastic depth)[97])对模型进行扰动,生成不同的模型视图。然后要求模型在这些不同的扰动视图上对相同输入产生一致的预测。

莱恩等人 [98] 基于模型扰动的一致性正则化思想,提出了 Π 模型(Π-model)和时间集成(Temporal Ensembling)框架,Π 模型对相同输入应用相同或不同的丢弃法扰动两次,要求模型在对相同未标注数据样本进行不同转换后产生一致的预测。另一方面,时间集成使用历史预测的指数移动平均(EMA)作为一致性目标来约束当前预测,鼓励模型学习对数据转换不变的特征表示,从而增强其泛化能力。在训练过程中,模型同时采用标注数据的监督学习和未标注数据的一致性正则化学习。通过最小化标注数据上的监督损失和未标注数据上的一致性损失,即使在标注数据稀缺的情况下,模型也能有效利用未标注数据中的信息,提高其泛化性能。

受到 Π 模型和时间集成的启发,塔尔瓦伊宁等人 [99] 提出了均值教师方法,该方法结合了这两种方法的概念。与传统的目标网络训练方法相比,该方法在训练过程中计算学生模型权重的移动平均作为教师模型的权重,并使用教师模型的预测作为学生的参考目标。这提高了目标网络的准确性和鲁棒性。此外,均值教师方法在每次训练迭代中向学生模型的输入和输出引入随机噪声,增强了模型的泛化能力。目标网络通过最小化学生模型和教师模型预测之间的距离进行优化。训练框架如图 7 所示。当应用于具有 250 个标签的 SVHN 数据集时,该方法仅实现了 4.35% 的错误率,优于使用 1000 个标签的时间集成,证明了其对未标注数据的高效利用。

在均值教师框架中,由于缺乏标注数据,教师模型生成的目标可能包含噪声和不可靠信息,导致学生模型学习不正确的信息,从而对半监督学习的有效性产生负面影响。为解决这一问题,余等人 [100] 基于均值教师提出了不确定性感知半监督学习框架(UA-MT)。这种方法不仅提高了分割准确性,还减少了对标注数据的需求,从而节省了人力成本。瓦利等人 [101] 将均值教师的指数移动平均策略与一种名为交叉一致性训练(CCT)的方法相结合。在 PASCAL VOC 数据集上的实验结果表明,交叉一致性训练在不同数量的标注样本下都优于传统方法,mIoU 最多提高了 21 个百分点。

然而,该方法在低密度区域的性能会受到影响。孙等人 [102] 通过融入差异化增强扰动和高置信度伪标签过滤,开发了一种简单高效的一致性正则化框架 ——FixMatch。该方法在各种扰动下保持预测一致性,专注于高置信度区域,降低了错误标签传播的风险,特别适用于边界模糊或噪声水平高的医学成像场景。

为进一步优化一致性正则化的有效性,一些研究开始关注自适应一致性学习,该方法根据数据的特征或模型的状态动态调整一致性正则化的强度或方式 [103]。这允许更灵活地利用未标注数据。基于这一思路,吴等人 [103] 提出了 SS-Net,该网络同时探索像素级平滑度和类间分离,以解决医学图像分割中标注数据稀缺和边界模糊等问题。然而,当数据集存在类别不平衡时,模型往往过于关注多数类而忽略少数类,这对整体分类准确性产生负面影响。为解决 SS-Net 的局限性,尤等人 [104] 引入了 ACTION++ 框架,该框架融入了自适应监督对比损失,鼓励不同类别的特征与不同的、均匀分布的类中心匹配。实验结果表明,该方法在 ACDC 和 LA 基准数据集上优于其他方法,证明了其在实际医学图像分割任务中的有效性和可靠性,突显了其较高的应用价值。

在医学图像分割领域,基于一致性正则化的半监督方法通过对数据或模型本身进行扰动,帮助模型提取与疾病真正相关的稳定特征。这一过程确保模型关注不受图像中噪声或个体差异影响的特征,从而提高诊断准确性和可靠性。这些方法在理论研究和实际应用中都展现出了巨大潜力。不同的方法在应对各自的挑战方面取得了独特的成果。

值得注意的是,融入更高比例标注数据的方法(如 10% 标注数据的 URPC 和 MC-Net)比依赖较少标注样本的方法(5% 标注数据的 URPC)表现出更好的分割性能,这表明适度的标注监督在优化半监督模型方面仍然发挥着关键作用。这些发现强调了在融合先进正则化技术以增强模型鲁棒性和泛化能力的同时,平衡标注和未标注数据的重要性。

基于生成模型

数据增强是基于生成模型的半监督医学图像分割中的关键策略。通过生成对抗网络生成逼真的合成医学图像,并将这些合成图像与真实标注数据相结合,可实现训练数据集的扩充,进而提升分割模型的性能。

无监督方法

无监督域自适应方法

在医学图像分割中,无监督学习的研究主要集中在无监督域自适应(UDA)任务上。无监督域自适应的核心思想是利用源域的标注信息和目标域的未标注信息,学习域不变的特征表示,从而减小源域与目标域之间的差异。这使得模型能够从标注数据丰富的源域迁移到缺乏标注数据的目标域,同时保持或接近在源域取得的性能。近年来,基于深度学习的无监督域自适应方法在医学图像分割任务中取得了显著进展。本节将介绍基于图像对齐的无监督域自适应方法、基于傅里叶变换的图像风格迁移方法以及统一的无监督域自适应框架。

基于图像对齐的无监督域自适应方法

基于图像对齐的无监督域自适应方法旨在通过图像变换技术,将源域图像的风格迁移到目标域(或反之),以减小源域与目标域之间的外观差异。图像对齐的目标是使分割模型能够学习与域无关的语义信息。生成对抗网络(GANs)作为一种强大的生成模型,在图像风格迁移任务中取得了巨大成功,因此被广泛应用于基于图像对齐的无监督域自适应方法中。

为有效减小源域和目标域之间的域差距,多项研究提出了基于生成对抗网络的双向图像风格迁移策略。陈等人 [115] 提出了协同图像和特征对齐(SIFA)框架,该框架在图像和特征两个层面进行域对齐。在心脏亚结构分割任务中,协同图像和特征对齐方法在四个心脏结构上实现了超过 70% 的平均骰子系数,表现出显著的性能提升,是一种有效的无监督域自适应方法。

类似地,韩等人 [116] 提出了用于跨模态医学图像分割的深度对称自适应网络(DSAN)。该方法由两个主要组件组成:特征对齐子网络和语义挖掘子网络,能够实现双向特征对齐和额外语义信息的提取。实验结果表明,深度对称自适应网络在多个跨模态医学图像分割任务中取得了优异性能,包括心脏、脑肿瘤和腹部多器官分割,骰子系数提升了近 10%。邹等人 [117] 提出了双方案融合网络(DSFN),该网络从图像和特征两个层面对源域和目标域进行协同对齐。与其他先进的域自适应方法相比,双方案融合网络表现出显著的性能提升。

基于生成对抗网络的双向图像风格迁移方法,通过学习从源域到目标域以及从目标域到源域的图像转换模型,能够更全面地捕捉域差异,并通过双向迁移实现更有效的域对齐。然而,图像风格迁移过程本身可能会引入噪声或改变原始图像的语义信息,从而影响分割模型的性能。确保图像风格迁移过程中的语义一致性,是基于图像对齐的域自适应方法需要重点关注的问题。

已有多项研究通过融入各种约束或先验知识(如语义一致性约束、解剖结构先验和频域约束)来解决这一问题,以提高图像转换的质量和语义连贯性。罗等人 [118] 提出了自改进域自适应(SIDA)方法,该方法通过采用两个自监督任务,增强了分割网络的图像转换模块的有效性和鲁棒性。在胰腺分割(计算机断层扫描 - 磁共振成像)的无监督域自适应中,自改进域自适应方法比协同图像和特征对齐方法的骰子系数提升了约 6%,证明了其有效性和优越性能。庄等人 [119] 提出了一种用于非配对跨模态医学图像分割的解剖学引导自训练分割框架(ASTCMSeg)。通过融入解剖结构先验知识,解剖学引导自训练分割框架生成的转换图像具有更好的语义一致性和结构连贯性,从而提高了后续分割模型的性能。该框架在跨模态脑结构、心脏亚结构和腹部多器官分割任务中表现出先进水平。

基于傅里叶变换的图像风格迁移方法

基于图像对齐的无监督域自适应方法利用图像变换技术,通过在源域和目标域之间迁移图像风格来减小外观差距,使分割模型能够学习域不变的语义信息,从而增强在目标域上的泛化性能,在医学图像分割中取得了显著成果。然而,传统方法在处理复杂纹理和高频信息时可能面临局限性。傅里叶变换将图像从空间域转换到频域,将图像分解为不同频率的分量。基于傅里叶变换的图像风格迁移方法可以通过交换或调整源域和目标域图像的频率分量,在尽可能保留图像结构信息的同时实现风格迁移,为医学图像分割提供了一种高效的特征对齐解决方案。

2020 年,杨等人 [120] 提出了傅里叶域自适应(FDA)方法,该方法在傅里叶域对数据进行操作,通过交换源域和目标域图像的低频分量实现图像风格迁移,为无监督域自适应研究引入了新的思路和方法。基于这一概念,吴等人 [121] 提出了 FIESTA 方法,该方法增强了医学图像分割任务中的单源域泛化能力。类似地,咸等人 [122] 提出了用于 3D 医学图像分割的双自适应引导网络(DAG-Net)。双自适应引导网络由两个模块组成:基于傅里叶的对比风格增强(FCSA)模块和残差空间对齐(RSA)模块。在心脏亚结构和腹部多器官分割的跨模态迁移任务中,双自适应引导网络优于现有的域自适应方法。

统一的无监督域自适应框架

MAPSeg [123] 是一种功能强大、性能优异的统一无监督域自适应框架,旨在解决医学图像分割中的异质性和体积相关问题。该方法由三个组件组成:

  1. 用于自监督预训练的 3D 多尺度掩码自动编码器(MAE)—— 通过随机掩码图像的部分区域对模型进行扰动,增强其泛化能力,使其能够适应不同的场景和任务;
  2. 用于域自适应自训练的 3D 掩码伪标签(MPL)—— 基于对目标域数据的预测生成伪标签,并将其纳入训练集,使模型能够更好地与目标域的数据分布对齐;
  3. 全局 - 局部特征融合(GLC)—— 该模块利用全局和局部上下文关系,在潜在空间中连接局部和全局语义特征,并基于融合后的特征进行预测,进一步提升分割性能。在多个域迁移和自适应场景下的实验结果表明,MAPSeg 能够有效处理医学图像分割中的跨序列、跨站点、跨年龄和跨模态域迁移问题,可应用于集中式、联邦式和测试时的无监督域自适应场景,在医学图像分割领域具有重要的实用价值。

基于对比学习的无监督分割方法

在医学图像分割领域,无监督域自适应方法旨在解决源域和目标域之间数据分布不一致的挑战。通过采用图像对齐和对抗训练等策略,这些方法将知识从源域模型迁移到目标域,从而提高目标域的分割性能 [124]。尽管取得了显著进展,但传统的无监督域自适应方法在提取内在语义信息和学习判别性特征表示方面仍存在局限性。对此,基于对比学习的无监督分割方法应运而生,该方法通过对比不同样本之间的异同来学习更具判别性的特征表示,为医学图像分割提供了新的视角和强大技术,在应对医学图像分割的复杂动态挑战方面取得了突破性进展。

江等人 [125] 提出了原型对比自适应(ProCA)方法,该方法将对比学习与域自适应相结合。通过利用正负样本对之间的对比损失优化特征表示,原型对比自适应减小了源域和目标域之间的分布差距。高等人 [126] 提出了一种用于病理组织图像分割的无监督表示学习框架,通过设计图像、超像素和像素级三个对比学习任务,解决了组织分割样本有限的挑战。刘等人 [127] 开发了 CLMorph,一种基于对比配准的无监督医学图像分割方法。该方法通过图像级配准和特征级对比学习实现高精度分割,适用于多模态医学图像分析,具有较强的鲁棒性和适应性,尽管在处理复杂解剖结构时依赖配准精度。

上述基于对比学习的无监督分割方法,通过类别原型对比、多粒度视图对比和对比配准等方式,强调图像特定特征或图像间的对比关系,以优化特征学习和分割性能。然而,医学领域包含丰富的文本信息(如医学报告和临床记录),若能有效利用这些信息,可增强医学视觉表示。MLIP [128] 是一种新颖的医学视觉表示增强框架,该框架将医学报告中的文本信息作为无监督预训练的辅助信号,增强了模型的理解和推理能力。这使得医学图像 - 文本对比学习更加准确有效,在增强迁移能力方面表现出色,即使在标注数据有限的情况下也优于现有方法,为医学表示学习提供了新的思路。

基于 SAM 的分割方法

2023 年,Meta 推出的分割一切模型(SAM)[129],是一种强大的图像分割基础模型,无需任何标注数据即可适应新的任务和数据分布。分割一切模型经过大量高质量自动标注数据的训练,具备强大的零样本分割能力,为解决医学图像分割中手动标注图像稀缺的问题提供了新颖的解决方案,受到了该领域研究人员的广泛关注。

马等人 [130] 首次将分割一切模型应用于医学图像分割,构建了一个通用模型 ——MedSAM。该模型结合了分割一切模型强大的泛化能力和特定领域的医学知识,具有更高的通用性和灵活性,从而提高了分割性能。程等人 [131] 对分割一切模型进行了全面的微调,提出了用于 2D 医学图像分割任务的 SAM-Med2D,并在多个数据集上证明了其强大的泛化能力。然而,SAM-Med2D 难以捕捉 3D 医学图像中固有的空间信息。为解决这一问题,王等人 [132] 将分割一切模型的编码器和解码器扩展到 3D 领域,提出了 SAM-Med3D,该模型支持从计算机断层扫描和磁共振成像等模态中提取 3D 空间特征。在 15 个数据集上的实验结果表明,SAM-Med3D 在 3D 分割任务中平均将骰子系数提高了 12%,显著增强了分割一切模型捕捉 3D 空间信息的能力。

基于分割一切模型的方法通过释放数据价值和提升分割性能,在医学图像分割中展现出巨大潜力。这种高度自动化和精准的分割方式代表了医学图像分割领域未来的研究趋势。对分割一切模型的进一步探索有望推动该领域的发展,促进临床诊断和治疗的进步。