Skip to main content

Survey

现在主要的发展趋势有

  1. 统一模态、任务,追求模型的通用能力,但是需要大量的数据以及训练资源
  2. 更强的零样本或者跨域迁移能力,让基础模型在数据不足的情况下也能生效
  3. 医学分割主要聚焦于弱监督,或者自监督生成伪标签,利用基础模型来完成任务

针对数据不足以及数据噪声大(标注缺失、错误),以下论文比较符合要求 18、20、25、28、37、45

论文列表

排名论文名称发表会议核心贡献模型大小代码地址标签
1Segment Anything Model (SAM)ICCV 2023开创性基础模型,提出提示式分割范式,构建超大规模数据集SA-1B,零样本能力强。
1. 点、框、掩码、文本prompt 2. “辅助手动→半自动→全自动” 生成含 110 亿掩码的 SA-1B 数据集 3. 图像嵌入可复用,单提示推理仅需50ms 4. 零样本适配能力
91/308/636M链接基础模型, 交互分割, 零样本分割, 通用视觉
2MedSAM & MedSAM2
Segment Anything in Medical Images
Nature Comms / arXiv将SAM范式成功迁移至医学影像,构建大规模医学标注数据集,统一2D/3D/视频处理。

1. 150万有标注医学图像 2. 沿用SAM,但是优先采用bbox提示,支持3d,拆分为2d

MedSAM2:

统一2d/3d/视频医学数据
1. 将3d数据作为视频序列,SAM2有记忆库
2. 增加记忆注意力模块
3. 分层特征,全量微调
4. 人机数据闭环
5. focal loss + dice loss
6. 图像编码器低学习率,防止丢失通用分割能力
~90M / 40MMedSAM MedSAM2基础模型, 医学影像, 交互分割, 3D分割
3SegVol: Universal and Interactive Volumetric Medical Image SegmentationNeurIPS 2024首个通用、交互式3D医学图像分割基础模型,整合多数据集,结合文本提示与滑动窗口。
1. 整合 25 个公开数据集
2. 构造伪标签
3. 先缩放生成粗分割掩码,定位ROI,再结合滑动窗口提升局部精度
4. CLIP文本编码,与3d ViT特征双向注意力
5. 3d vit SimMIM自监督预训练(90K CT数据)+6K 有监督微调
181M链接基础模型, 3D分割, 交互分割, 医学影像, 开放词汇分割
4Segment Everything Everywhere All at OnceNeurIPS 2023统一多模态提示(点、框、文本、参考图)的分割模型,提供语义标签,数据效率高。
1. 统一的视觉表示,将点、框、涂鸦多边形、跨图像参考区域等非文本prompt统一编码,以支持任意prompt的零样本组合
2. 引入记忆提示,可以将前一轮的分割信息记录
3. 不同于SAM,可以提供语义标签
4. 数据量仅为SAM的1/100
50/88/200M链接基础模型, 开放词汇分割, 语义分割, 实例分割, 提示学习
5CLIP-Driven Universal Model for Organ Segmentation and Tumor DetectionICCV 2023将 CLIP 预训练的文本嵌入引入分割模型(MLP)62M链接开放词汇分割, 零样本分割, 医学影像, 提示学习
6Open-Vocabulary SAMECCV 2024将SAM与CLIP能力结合,实现开放词汇分割的经典框架,提出双向知识蒸馏。
1. 双向知识迁移,SAM2CLIP(多尺度Transformer adapter+MSE loss蒸馏 )+CLIP2SAM(FPN+ROIAlign+标签token)
2. CLIP编码器+SAM提示编码器+SAM解码器
304M链接开放词汇分割, 蒸馏, 基础模型
7VISTA3D: Unified Segmentation Foundation Model for 3D Medical ImagingECCV 2024统一的3D医学分割基础模型,整合自动、交互、零样本分割,训练策略复杂且完整。
1. 整合自动分割(127类)+交互式修正+零样本分割
2. 基于SAM蒸馏的3D超体素生成训练数据
3. 零样本嵌入,支持类会训练好对应的类别嵌入响亮,新类则使用零样本嵌入
4. 四阶段训练,通用3d分割能力-交互分支微调-自动分支训练-自动分支合成数据微调
5. 分割使用类别嵌入驱动,将对应而的类别嵌入映射为特征,与解码器输出相乘取sigmoid,得到二进制分割结果
-链接基础模型, 3D分割, 医学影像, 交互分割, 零样本分割
8DenseCLIP: Language-Guided Dense Prediction with Context-Aware PromptingCVPR 2022让像素和文本配对 1. 文本使用固定模板,a photo of []
2. 让image embedding与文本特征交互
3. 更新后的文本嵌入与图像嵌入计算piexl-text score map,与图像嵌入一起输入解码器
4. text score map使用label进行监督
-链接开放词汇分割, 语义分割, 提示学习
9EOV-Seg: Efficient Open-Vocabulary Panoptic SegmentationAAAI 2025单阶段通用共享集高效开放词汇全景分割框架
1. 词汇感知选择模块,将视觉文本特征编码之后拆分为不同的head,计算注意力,额外添加可学习的scale和offset
2. 双向动态嵌入专家,将cnn based和vit based的特征进行动态权重融合
71M/127M/225M链接开放词汇分割, 全景分割, 高效
10Scene-Centric Unsupervised Panoptic SegmentationCVPR 2025 Highlight面向场景中心图像无监督全景分割框架,融合视觉表征、深度线索、运动信息生成高质量全景伪标签,通过 “伪标签生成→网络引导训练→自训练优化” 三阶段流程85M链接无监督分割, 全景分割, 伪标签
11VISTA-CLIP: Visual Incremental Self-Tuned Adaptation for Efficient Continual Panoptic SegmentationCVPR 20251. 提出视觉增量自调适应方法,解决类别增量学习中的灾难性遗忘问题
2.Mask2Former+ResNet-50
3. 基础类训练时在图像编码器前添加可学习的噪声扰动
4. 在图像左上角30x30大小添加可学习的视觉prompt
5. DecoderDrift,利用clip文本编码器提取新类文本嵌入,直接相加到视觉嵌入
6. cross attention
0.608M-增量学习, 全景分割, 提示学习
12PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic SegmentationCVPR 2024将概率输出与不确定性估计结合,解决增量学习+开放集分割
1. 专用解码器估计分割不确定性
2. 对于开放集任务,基于概率输出生成伪标签,先通过最大软max概率筛选不确定点,结合距离与不确定性相似度迭代扩展未知区域,构建点云+最小生成树,使用高斯混合模型分割边权重
3. 对于增量学习,使用蒸馏
-链接3D分割, 开放集分割, 增量学习, 点云
13Diffusion Models for Open-Vocabulary SegmentationECCV 20241. 合成支持集,为每个文本类别使用SD合成32张图像,分割前景背景
2. 为每个类别同时构建前景(目标)和背景(上下文),将所有类别的背景原型合并为全局背景类原型,直接通过原型匹配分配背景像素,无需阈值筛选或额外背景提示。
3. 用 CLIP 进行多标签分类,筛选出图像中实际存在的类别,使用CHATGPT自动区分stuff和thing
~1000M-开放词汇分割, 扩散模型, 零样本分割
14MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation…CVPR 20241. 3D 多尺度掩码自编码(MAE):同时处理局部补丁(8³ )与下采样全局扫描(4³ ),70% 掩码比例
2. 3D 掩码伪标签(MPL):教师模型基于完整图像生成伪标签,学生模型在掩码图像上学习,通过 EMA 更新教师参数
3. 全局 - 局部特征协作(GLC):融合局部补丁特征与全局扫描特征,通过余弦相似度正则化保持特征一致性,利用解剖学位置先验提升伪标签可靠性
4. 无目标评估:基于源域 Dice 分数与目标域伪标签损失的模型选择分数
-链接跨域适应, 无监督分割, 3D分割, 医学影像, 伪标签
15Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image SegmentationCVPR 20241. 构建上下文先验池,同时学习任务先验和模态先验,任务先验适配不同临床目标(如器官、肿瘤),模态先验针对 CT、MRI等
2. 双向注意力+多尺度融合
3. 模态分类辅助损失
10/40/160M链接通用模型, 医学影像, 上下文学习
16One-Prompt to Segment All Medical ImagesCVPR 20241. 只需要一个带提示的样本
2. 支持point, bbox, doodle, seg 四种提示
3. 双分支注意力,query image + prompted image
192M链接少样本分割, 交互分割, 医学影像, 提示学习
17MemSAM: Taming Segment Anything Model for Echocardiography Video SegmentationCVPR 2024 Oral为超声视频分割设计记忆机制,利用预测结果强化记忆,实现高效半监督分割。90M链接视频分割, 记忆机制, 医学影像, 半监督
18MedDINOv3: How to adapt vision foundation models for medical image segmentation?arXiv 2509超声心电图分割
1. 设计工作记忆、长期记忆和感觉记忆
2. 利用预测掩码对记忆强化
3. 半监督,仅需第一帧少量点提示+稀疏标注(舒张末期+收缩末期标注)
~100M链接基础模型适配, 医学影像, DINO
19Efficient MedSAMs: Segment Anything in Medical Images on LaptopCVPR 2024主要是考虑轻量化 1. 使用更轻量的ViT 2. 蒸馏大模型如MedSAM 3. 优化部署推理20M链接轻量化, 蒸馏, 医学影像, 高效部署
20SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative PromptsMICCAI 2025无训练少样本医学分割
1. 结合DINOv2(强语义弱空间)SAM(强空间弱语义),分别提取两类支持集和查询集
2. 加权融合生成置信度图
3. 正提示覆盖关键区域,负提示不再选择背景而是解剖学相关区域
4. 粗掩码腐蚀-膨胀,提取连通域查询集特征,计算得分,最高区域为初步精掩码,作为掩码提示由SAM再次分割得到结果
-链接少样本分割, 零样本分割, 医学影像, 提示学习, 无训练
21ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural EnhancementsCVPR 2025 Workshop无训练开放词汇分割,从图像增强、文本增强、架构修改多角度提升CLIP分割能力。CLIP-based链接零样本分割, 开放词汇分割, 无训练, CLIP增强
22AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation ModelsICLR 2026在投零样本+可学习测试时适应+分割
1.基于医学图像+文本描述
2. CogVLM将文本描述转换为bbox
3. dinov2提取特征,kmeans生成点提示
4. 结合bbox+point使用SAM生成
5. 通过 HSV/RGB 偏移、CLAHE、非锐化 masking 等操作,缓解自然图像预训练模型与医学图像的领域鸿沟
6. 从 LLM 生成的候选提示中自动选择最优项
7. 采用贝叶斯优化(TPE),以代理验证器的评分为目标,无需真实标签即可搜索最优配置。
8. 无标签评估分割质量,分割区域与类别对比+分割区域与llm生成描述匹配c
--零样本分割, 测试时适应, 医学影像, 自动提示
23Test-time Adaptation for Foundation Medical Segmentation Model without Parametric UpdatesarXiv 25041. 基于MedSAM,提出直接优化图像latent而非模型参数
2. 分布近似latent CRF损失
3. 熵最小化损失,对置信度>0.95的前景区域计算熵损失,防止背景干扰
94M-测试时适应, 医学影像, 非参数更新
24HERA: Efficient Test-Time Adaptation for Cross-Domain Few-Shot Segmentation with Vision Foundation ModelsICLR 2026(撤稿)跨域少样本分割,模型利用少量标注支持样本,在与训练域分布不同的目标域中,对未见类别进行像素级分割
1. 选择网络中层特征(动态),留一法计算支持集伪查询 mIoU,选择风险最低的图层
2. 正则化使用高斯先验 3. 校准使用特征相似度、注意力图、图像嵌入,加权融合,使用自适应门控
--测试时适应, 跨域适应, 少样本分割
25Efficient Universal Models for Medical Image Segmentation via Weakly Supervised In-Context LearningarXiv 2510弱监督上下文学习
1. 使用弱提示(bbox point)来构建上下文集合
2. 上下文集合与target image各使用一个分支,信息会跨分支交流
20M链接弱监督分割, 上下文学习, 医学影像, 高效
26D-CAM: Learning Generalizable Weakly-Supervised Medical Image Segmentation from Domain-invariant CAMMICCAI 2025仅源域图像级标注 + 目标域无标注 弱监督分割 1. 利用频率特性构建域不变特征,先利用FFT得到频率和相位,实例归一化之后利用FFT得到域不变频率和相位,融合相位+域不变频率,IFFT得到特征 2. 基于特征运用CAM类方法生成伪标签--弱监督分割, 跨域适应, 医学影像, 域不变特征
27Endo-SemiS: Towards Robust Semi-Supervised Image Segmentation for Endoscopic VideoMIDL 2026内窥镜视频分割
1. 双网络交叉监督,使用两个UNet相互提供伪标签
2. 同时考虑数据本身噪声+模型预测噪声,使用均值+标准差过滤低置信度区域
3. 让两个模型在各层相互对齐
4. 时空矫正,利用相邻5帧的信息
2xUNet-半监督, 视频分割, 医学影像, 伪标签
28MetaDCSeg: Robust Medical Image Segmentation via Meta Dynamic Center WeightingICLR 2026(在投)缓解标注噪声(错误、边界模糊)
1. 元学习,给每个像素动态分配权重,模糊不确定的像素权重低,同时结合自身预测伪标签辅助
2. 图像分为前景背景边界三个部分,计算每个像素到三个区域特征中心的距离
UNet++-噪声标注, 元学习, 医学影像
29DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed LearningCVPR 20251. 任务范式统一,将文档布局分析、多粒度文本分割、表格结构识别等任务,统一建模为实例分割与语义分割
2. 通过 Sentence-BERT 将数据集类别名(Text Table Figure)映射为语义查询,与可学习的实例查询交互,既作为分割引导提示,又作为类别原型支持实例分类。
3. 混合查询解码器,交叉注意力+自注意力混合
4. 多个预测头,分割+定位+分类
200M/300M链接文档分割, 统一框架, 实例分割, 语义分割
30Order-aware Interactive Image SegmentationICLR 2025交互分割中引入指令顺序感知的信息107.88M-交互分割, 顺序感知
31I-MedSAM: Implicit Medical Image Segmentation with Segment AnythingECCV 20241. 额外增加FFT之后的频率谱图像,以及频率适配器用于提取边界信息
2. 先生成粗结果,再通过MC Dropout 计算像素预测方差,自适应筛选高不确定性的特征点进行优化
3.5M (LoRA)链接医学影像, 边界增强, 不确定性, 高效微调
32PART-AWARE PERSONALIZED SEGMENT ANYTHING MODEL FOR PATIENT-SPECIFIC SEGMENTATIONTMLR 2025 / ICLR 2025被拒解决SAM的歧义问题
1. SAM根据单点生成参考图像的前景特征 2.
k means++聚类为n个部件特征
3. 提取目标图像特征,计算各个部件的余弦相似度,每个部件中选择分数最高的点为正点提示,由于医学背景高度相关,从参考背景特征中生成负点提示
90/200M链接个性化分割, 医学影像, 部件感知, 提示生成
33UN-SAM: Domain-Adaptive Self-Prompt Segmentation for Universal Nuclei ImagesMedical Image Analysis无提示自动分割框架
1. 基于SAM,每层SA后添加一个分支,用于捕捉所有细胞的通用和专用特征
2. FPN融合后使用1x1卷积+sigmoid+动态阈值分割,传递给decoder,self-prompt
-链接无提示分割, 医学影像, 细胞核, 自提示
34WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation ModelsECCV 20241. 轻量 Transformer 结构(2 层卷积 + 6 层编解码),从 SAM 的图像特征里自动学 “部件提示令牌”,直接喂给 SAM 解码器。
2. SAM 提示编码器当 “老师”,拿弱监督标注(点 / 框)生成 “老师提示”,再通过匈牙利算法匹配 “学生提示”,联合分类 + 回归损失训练。
-链接弱监督分割, 部件分割, 蒸馏
35Incremental Nuclei Segmentation from Histopathological Images via Future-class Awareness and Compatibility-inspired DistillationCVPR 2024增量细胞核分割 主要为增量学习设计的ResNet101链接增量学习, 实例分割, 医学影像, 蒸馏
36Eliminating Feature Ambiguity for Few-Shot SegmentationECCV 2024解决少样本分割中的特征模糊问题,通过先验生成与模糊消除器提升匹配精度。
1. 跨注意力机制的少样本分割,深层骨干网络的大感受野导致前景(FG)特征不可避免混入背景(BG)特征,阻碍 FG-FG 匹配,降低支持集信息利用率。
2. 先验生成器(PG):生成学习无关的先验掩码,通过 “FG 先验 - BG 先验” 的裁剪减法操作,得到判别性先验掩码,精准定位查询 FG 区域,提升模型收敛速度。
3. 模糊消除器(AE):利用判别性 FG 区域特征,加权融合查询与支持 FG 原型,通过特征拼接与线性层精炼,增强 FG-FG 匹配的有效性。
40.7M链接少样本分割, 特征解耦
37Learning Cross-Representation Affinity Consistency for Sparsely Supervised Biomedical Instance SegmentationICCV 2023生物医学实例分割
1. 双分支,隐(像素级)/显式(特征级)亲和图
2. 伪标签噪声过滤,自适应阈值(基于熵动态筛选高置信区域)+置信像素选择网络(CPSN,训练识别分割误差),使用两类亲和图的高置信区域作为伪标签相互监督
-链接弱监督分割, 实例分割, 生物医学, 伪标签
38PCTrans: Position-Guided Transformer with Query Contrast for Biological Instance SegmentationICCVW 2023生物医学实例分割,引入位置
1. 预先均匀生成一系列点 2. 迭代更新点的坐标,作为分割实例的中心
3. 辅助预测
ResNet50/101+ 6层transformer链接实例分割, 生物医学, 位置感知, Transformer
39ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image SegmentationMICCAI 20231. 3x3 conv+bn+relu+多轮下采样代替ViT的patch embeding
2. 3x3 conv生成邻域QKV,余弦相似度计算初始注意力,利用可学习高斯距离图动态调整感受野
3. 1x1 conv + bn + relu代替FFN+LN
-链接Transformer, CNN, 医学影像, 高效架构
40UltralightUNet: Rethinking U-shaped Network with Multi-kernel Lightweight Convolutions for Medical Image SegmentationICLR 2025(撤稿)1. 多kernel深度可分离卷积,channelshuffle保证信息交互
2. 通道/空间注意力
3. 3x3分组卷积实现 gate 4. 3D扩展
3.7M-轻量化, 医学影像, 高效架构
41GCA-ResUNet: Medical Image Segmentation Using Grouped Coordinate AttentionarXiv 25121. 通道分组注意力,每组沿水平垂直两方向计算平均池化和最大池化,通过共享的1x1卷积聚合信息--注意力机制, 医学影像, 高效架构
42Hybrid Transformer-Mamba Architecture for Weakly Supervised Volumetric Medical SegmentationMIDL 20261. Transformer负责切片内数据,manba负责跨切片-链接3D分割, 弱监督分割, Mamba, Transformer, 医学影像
43LCPDN: Lightweight Cross-text-vision Prompting Diffusion Network for Medical Image SegmentationICLR 2026(撤稿)1. 把医学报告当作分割准则,如左肺核密度高等 2. 先对齐图像和文本,生成能够统一的导航特征,再扩散4.52M-扩散模型, 文本引导, 医学影像, 轻量化
44TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation-解决CLIP 做医疗分割会有 “结构细节丢、医学语义弱、图文对齐差” 的问题
1. 给CLIP视觉编码器添加轻量CNN分支,补充细节特征
2. 使用LLM给原本的医学报告补充医学知识
3. 在统一的特征空间中双向校准,通过门控网络来整合文本+视觉特征,结果作为attention的kv,文本视觉特征为q,通过两次交叉注意力得到校准之后的特征
10M-文本引导分割, 医学影像, 特征对齐, VLM增强
45Instructive Feature Enhancement for Dichotomous Medical Image SegmentationMICCAI 20231. 首次定义 2D 二分医学图像分割(DMIS)并构建大规模基准数据集 Cosmos55k
2. 量化特征通道的 “指导性”(纹理丰富度、鉴别力),自适应筛选关键通道并与原始特征融合,量化准则可选曲率或者信息熵
-链接医学影像, 特征增强, 新任务
46Contrastive Graph Modeling for Cross-Domain Few-Shot Medical Image SegmentationTMI 2026解决跨域问题
1. 利用器官/组织的解剖解耦故一致性来作为迁移先验
2. 将医学图像特征视为图结构
3. 从支持集中提取结构先验图
4. 使用器官子图来匹配解码
5. 对于边界使用对比学习
ResNet50链接跨域适应, 少样本分割, 医学影像, 图模型
47MaskMed: Decoupled Mask and Class Prediction for Medical Image SegmentationICLR 2026(在投)参考MaskFormer/Mask2Fromer解耦分割头设计,将多类预测拆分为类别预测和掩码预测
1. 全尺度感知可变形transformer,低分辨率特征为query,全尺度特征为value
2.整体架构基于UNet
--医学影像, 解耦头, Transformer
48End-to-End Instance Segmentation with TransformerCVPR 2021 Oral1. 将视频实例分割变为序列预测,一次输出所有帧结果
2. 统一分割和跟踪
3. 匹配使用匈牙利算法,分割使用3d卷积
4.3D位置编码
ResNet101链接视频分割, 实例分割, Transformer, 端到端
49OpenESS: Event-based Semantic Scene Understanding with Open VocabulariesCVPR 2024 highlight事件相机开放词汇语义分割框架
1. 无监督知识迁移,对齐事件、图像、文本
2. 支持体素、帧重构、脉冲信号的表征
3. 同时支持无标注和少标注
~200M链接开放词汇分割, 事件相机, 多模态对齐
50Segment Anything in 3D Point CloudsICCV 2023无需训练将2d分割迁移到3d分割中
1. 基于 RGB-D 图像的深度信息与相机内外参,将结果投影到 3D 点云
2. 通过匹配相邻帧点云的对应关系,基于重叠阈值(δ=0.5)合并高重叠掩码;按对数步数逐步合并所有帧的局部 3D 掩码
3. 将 SAM3D 的分割结果与基于 3D 几何信息的过分割结果(正常图割方法生成)再次融合,同时利用 RGB 语义边缘与 3D 几何特征,提升分割精度。
--3D分割, 点云, 零样本迁移
51MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture SynthesisECCV 20243D语义分割
1. 利用GroundingDINO、SAM通过多视角分割,将结果聚合到3D
2. SD生成训练数据
3. 采用投票方式来融合多视角,通过多视角2D分割、投票聚合与纹理合成,实现3D网格的零样本语义分割
200M-3D分割, 零样本分割, 网格, 多视角融合
52SOFTooth: Semantics-Enhanced Order-Aware Fusion for Tooth Instance Segmentation-牙齿3D实例分割
1. 使用SAM来提取牙齿边界,使用门控融合到3D特征
2. 生成30个候选实例,强制要求掩码与中心位置匹配,细化分割
3. 匹配位置和顺序
--3D分割, 实例分割, 牙齿, 多模态融合
53Seg2Box: Segment to Box for LiDAR 3D Object Detection with Point-level Supervision Only-雷达点云 主要是多帧和多尺度--3D检测, 点云, 弱监督, 自动驾驶
54Empowering DINO Representations for Underwater Instance Segmentation via Aligner and PrompterAAAI 2026针对水下实例分割,方法和之前基于fft的很像
1. 基于DINOv2+mask2former 解码器
2. 场景级别适配,使用FFT提取频率和相位(固定为均值),在IFFT变换回去,仅保留颜色信息,再将结果使用cross attention进行交互 3. 物体级别适配,多尺度+伪掩码作为鲜艳进行交叉注意力
390M链接实例分割, 水下, 域适应, DINO
55Diffusion-Guided Weakly Supervised Semantic SegmentationarXiv 2507将低光特征视为正常光特征的含噪变体,通过扩散模型实现跨光照域特征对齐 引入 Depth Anything 生成的深度图作为光照不变几何先验,增强结构特征学习-链接弱监督分割, 扩散模型, 跨域适应
56FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and ClassificationECCV 20241. 结合患者人口统计学属性(性别、种族等)动态调整特征重要性
2. 构建首个fair跨域数据集 3. 提出相应评估指标
--跨域适应, 公平性, 医学影像, 新数据集
57VisionLLM v2NeurIPS 2024多任务VLM,引入了路由Token+对应的query,可由路由token触发对应解码器LLM 7BVisionLLM VitronVLM, 通用模型, 多任务
58SAM3: Segment Anything with ConceptsICLR 2026(在投)不光分割万物,还要理解万物
1. 共享编码器+双分支任务头
2. 检测器+跟踪器
3. 存在头,表示图中是否存在所需概念
-链接基础模型, 概念理解, 检测, 跟踪
59ENSAM: an efficient foundation model for interactive segmentation of 3D medical imagesarXiv 25091. 3D相对位置编码,基于Lie代数,通过学习斜对称矩阵生成旋转矩阵
2. 将自然语言1d注意力扩展到3d,l2归一化+单位超球面优化
3. Muon优化器(首次应用到3d医疗分割)
4.仅使用10%数据
5.5M-3D分割, 交互分割, 医学影像, 高效, 新优化器
60Lightweight Method for Interactive 3D Medical Image Segmentation with Multi-Round Result Fusion-轻量CNN交互式3D医学分割
1. 2d交互模块生成初始提示掩码
2. 记忆模块3D双向传播(设计与之前的一个超声工作类似)
3. 多轮结果融合
4. 模块筛选最优掩码
5. 三阶段训练
30M-3D分割, 交互分割, 医学影像, 轻量化, 记忆机制
61Interactive 3D Medical Image Segmentation with SAM2-零样本交互式3d医学分割 1. 与MedSAM2一致
2. 从中间切片标注,双向扩散
-链接3D分割, 交互分割, 医学影像, 零样本
62Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, EditingNIPS 2024通用视觉多模态llm,不同编码器+llm+不同解码器llm7B链接VLM通用模型多任务

病理分割

论文名称发表会议核心贡献模型大小代码地址
Semi-supervised Segmentation of Histopathology Images with Noise-Aware Topological ConsistencyECCV 2024拓扑感知、半监督
1. 现有半监督分割结果 腺体/细胞核合并、分离错误、缺失等拓扑误差
2. 噪声感知拓扑一致性损失(Noise-Aware Topological Consistency Loss),将似然预测图转化为持久图(即调整不同的阈值,图中点的出现/消亡构成的散点图),再分解为信号拓扑+噪声拓扑,使用Wasserstein距离
3. 基于 Mean-Teacher 框架,教师模型参数通过学生模型的指数移动平均(EMA)更新,保证拓扑表征的稳定性
https://github.com/Melon-Xu/TopoSemiSeg
PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology SegmentationCVPR 20241. 将肾脏而解剖关系转换为矩阵形式,定义超集、子集、互斥和无关四种关系
2. 引入类别感知token+尺度感知token,分别编码 8 类解剖结构的类别知识和 4 种放大倍数(5×、10×、20×、40×)的尺度知识;通过全局平均池化(GAP)和 2D 卷积控制器融合特征+动态感知头
3. 基于关系矩阵,将解剖关系转化为半监督约束,通过 Dice loss和BCE量化预测与解剖规则的一致性(如子集结构预测区域不超出超集、互斥结构重叠最小化)。
4. 首次实现肾脏病理从区域(皮质、髓质)、功能单元(肾小管、肾小球等)到细胞(足细胞、系膜细胞)的跨层级全景分割
Residual-U-Net
Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology整合多尺度数据,适配不同病理放大率的差异
1. 额外添加类别信息和尺度信息,使用one-hot表示,和上面的感知token差不多
2. 基于DoDNet,动态感知分割头,也是和上面的一样
A General-Purpose Self-Supervised Model for Computational Pathology病理学领域的通用自监督模型
1. Mass-100K 数据集,包含来自 100,426 张全切片图像(覆盖 20 种主要组织类型)的 1 亿多个patch
2. 涵盖 ROI 分类、分割、检索、切片级分类等多种任务类型,实现分辨率无关的组织分类,支持从 224² 到 1792² 不同分辨率图像的稳定性能
3. 自蒸馏损失,教师学生模型对同一图像的两个增强分辨编码,最小化CLA token CE loss
4. 掩码图像重建损失,学生预测教师的掩码位置token
Graph-Theoretic Consistency for Robust and Topology-Aware Semi-Supervised Histopathology SegmentationAAAI 2026