Survey
现在主要的发展趋势有
- 统一模态、任务,追求模型的通用能力,但是需要大量的数据以及训练资源
- 更强的零样本或者跨域迁移能力,让基础 模型在数据不足的情况下也能生效
- 医学分割主要聚焦于弱监督,或者自监督生成伪标签,利用基础模型来完成任务
针对数据不足以及数据噪声大(标注缺失、错误),以下论文比较符合要求 18、20、25、28、37、45
论文列表
| 排名 | 论文名称 | 发表会议 | 核心贡献 | 模型大小 | 代码地址 | 标签 |
|---|---|---|---|---|---|---|
| 1 | Segment Anything Model (SAM) | ICCV 2023 | 开创性基础模型,提出提示式分割范式,构建超大规模数据集SA-1B,零样本能力强。 1. 点、框、掩码、文本prompt 2. “辅助手动→半自动→全自动” 生成含 110 亿掩码的 SA-1B 数据集 3. 图像嵌入可复用,单提示推理仅需50ms 4. 零样本适配能力 | 91/308/636M | 链接 | 基础模型, 交互分割, 零样本分割, 通用视觉 |
| 2 | MedSAM & MedSAM2 Segment Anything in Medical Images | Nature Comms / arXiv | 将SAM范式成功迁移至医学影像,构建大规模医学标注数据集,统一2D/3D/视频处理。 1. 150万有标注医学图像 2. 沿用SAM,但是优先采用bbox提示,支持3d,拆分为2d MedSAM2: 统一2d/3d/视频医学数据 1. 将3d数据作为视频序列,SAM2有记忆库 2. 增加记忆注意力模块 3. 分层特征,全量微调 4. 人机数据闭环 5. focal loss + dice loss 6. 图像编码器低学习率,防止丢失通用分割能力 | ~90M / 40M | MedSAM MedSAM2 | 基础模型, 医学影像, 交互分割, 3D分割 |
| 3 | SegVol: Universal and Interactive Volumetric Medical Image Segmentation | NeurIPS 2024 | 首个通用、交互式3D医学图像分割基础模型,整合多数据集,结合文本提示与滑动窗口。 1. 整合 25 个公开数据集 2. 构造伪标签 3. 先缩放生成粗分割掩码,定位ROI,再结合滑动窗口提升局部精度 4. CLIP文本编码,与3d ViT特征双向注意力 5. 3d vit SimMIM自监督预训练(90K CT数据)+6K 有监督微调 | 181M | 链接 | 基础模型, 3D分割, 交互分割, 医学影像, 开放词汇分割 |
| 4 | Segment Everything Everywhere All at Once | NeurIPS 2023 | 统一多模态提示(点、框、文本、参考图)的分割模型,提供语义标签,数据效率高。 1. 统一的视觉表示,将点、框、涂鸦多边形、跨图像参考区域等非文本prompt统一编码,以支持任意prompt的零样本组合 2. 引入记忆提示,可以将前一轮的分割信息记录 3. 不同于SAM,可以提供语义标签 4. 数据量仅为SAM的1/100 | 50/88/200M | 链接 | 基础模型, 开放词汇分割, 语义分割, 实例分割, 提示学习 |
| 5 | CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection | ICCV 2023 | 将 CLIP 预训练的文本嵌入引入分割模型(MLP) | 62M | 链接 | 开放词汇分割, 零样本分割, 医学影像, 提示学习 |
| 6 | Open-Vocabulary SAM | ECCV 2024 | 将SAM与CLIP能力结合,实现开放词汇分割的经典框架,提出双向知识蒸馏。 1. 双向知识迁移,SAM2CLIP(多尺度Transformer adapter+MSE loss蒸馏 )+CLIP2SAM(FPN+ROIAlign+标签token) 2. CLIP编码器+SAM提示编码器+SAM解码器 | 304M | 链接 | 开放词汇分割, 蒸馏, 基础模型 |
| 7 | VISTA3D: Unified Segmentation Foundation Model for 3D Medical Imaging | ECCV 2024 | 统一的3D医学分割基础模型,整合自动、交互、零样本分割,训练策略复杂且完整。 1. 整合自动分割(127类)+交互式修正+零样本分割 2. 基于SAM蒸馏的3D超体素生成训练数据 3. 零样本嵌入,支持类会训练好对应的类别嵌入响亮,新类则使用零样本嵌入 4. 四阶段训练,通用3d分割能力-交互分支微调-自动分支训练-自动分支合成数据微调 5. 分割使用类别嵌入驱动,将对应而的类别嵌入映射为特征,与解码器输出相乘取sigmoid,得到二进制分割结果 | - | 链接 | 基础模型, 3D分割, 医学影像, 交互分割, 零样本分割 |
| 8 | DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting | CVPR 2022 | 让像素和文本配对 1. 文本使用固定模板,a photo of [] 2. 让image embedding与文本特征交互 3. 更新后的文本嵌入与图像嵌入计算piexl-text score map,与图像嵌入一起输入解码器 4. text score map使用label进行监督 | - | 链接 | 开放词汇分割, 语义分割, 提示学习 |
| 9 | EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation | AAAI 2025 | 单阶段通用共享集高效开放词汇全景分割框架 1. 词汇感知选择模块,将视觉文本特征编码之后拆分为不同的head,计算注意力,额外添加可学习的scale和offset 2. 双向动态嵌入专家,将cnn based和vit based的特征进行动态权重融合 | 71M/127M/225M | 链接 | 开放词汇分割, 全景分割, 高效 |
| 10 | Scene-Centric Unsupervised Panoptic Segmentation | CVPR 2025 Highlight | 面向场景中心图像的无监督全景分割框架,融合视觉表征、深度线索、运动信息生成高质量全景伪标签,通过 “伪标签生成→网络引导训练 →自训练优化” 三阶段流程 | 85M | 链接 | 无监督分割, 全景分割, 伪标签 |
| 11 | VISTA-CLIP: Visual Incremental Self-Tuned Adaptation for Efficient Continual Panoptic Segmentation | CVPR 2025 | 1. 提出视觉增量自调适应方法,解决类别增量学习中的灾难性遗忘问题 2.Mask2Former+ResNet-50 3. 基础类训练时在图像编码器前添加可学习的噪声扰动 4. 在图像左上角30x30大小添加可学习的视觉prompt 5. DecoderDrift,利用clip文本编码器提取新类文本嵌入,直接相加到视觉嵌入 6. cross attention | 0.608M | - | 增量学习, 全景分割, 提示学习 |
| 12 | PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation | CVPR 2024 | 将概率输出与不确定性估计结合,解决增量学习+开放集分割 1. 专用解码器估计分割不确定性 2. 对于开放集任务,基于概率输出生成伪标签,先通过最大软max概率筛选不确定点,结合距离与不确定性相似度迭代扩展未知区域,构建点云+最小生成树,使用高斯混合模型分割边权重 3. 对于增量学习,使用蒸馏 | - | 链接 | 3D分割, 开放集分割, 增量学习, 点云 |
| 13 | Diffusion Models for Open-Vocabulary Segmentation | ECCV 2024 | 1. 合成支持集,为每个文本类别使用SD合成32张图像,分割前景背景 2. 为每个类别同时构建前景(目标)和背景(上下文),将所有类别的背景原型合并为全局背景类原型,直接通过原型匹配分配背景像素,无需阈值筛选或额外背景提示。 3. 用 CLIP 进行多标签分类,筛选出图像中实际存在的类别,使用CHATGPT自动区分stuff和thing | ~1000M | - | 开放词汇分割, 扩散模型, 零样本分割 |
| 14 | MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation… | CVPR 2024 | 1. 3D 多尺度掩码自编码(MAE):同时处理局部补丁(8³ )与下采样全局扫描(4³ ),70% 掩码比例 2. 3D 掩码伪标签(MPL):教师模型基于完整图像生成伪标签,学生模型在掩码图像上学习,通过 EMA 更新教师参数 3. 全局 - 局部特征协作(GLC):融合局部补丁特征与全局扫描特征,通过余弦相似度正则化保持特征一致性,利用解剖学位置先验提升伪标签可靠性 4. 无目标评估:基于源域 Dice 分数与目标域伪标签损失的模型选择分数 | - | 链接 | 跨域适应, 无监督分割, 3D分割, 医学影像, 伪标签 |
| 15 | Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation | CVPR 2024 | 1. 构建上下文先验池,同时学习任务先验和模态先验,任务先验适配不同临床目标(如器官、肿瘤),模态先验针对 CT、MRI等 2. 双向注意力+多尺度融合 3. 模态分类辅助损失 | 10/40/160M | 链接 | 通用模型, 医学影像, 上下文学习 |
| 16 | One-Prompt to Segment All Medical Images | CVPR 2024 | 1. 只需要一个带提示的样本 2. 支持point, bbox, doodle, seg 四种提示 3. 双分支注意力,query image + prompted image | 192M | 链接 | 少样本分割, 交互分割, 医学影像, 提示学习 |
| 17 | MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation | CVPR 2024 Oral | 为超声视频分割设计记忆机制,利用预测结果强化记忆,实现高效半监督分割。 | 90M | 链接 | 视频分割, 记忆机制, 医学影像, 半监督 |
| 18 | MedDINOv3: How to adapt vision foundation models for medical image segmentation? | arXiv 2509 | 超声心电图分割 1. 设计工作记忆、长期记忆和感觉记忆 2. 利用预测掩码对记忆强化 3. 半监督,仅需第一帧少量点提示+稀疏标注(舒张末期+收缩末期标注) | ~100M | 链接 | 基础模型适配, 医学影像, DINO |
| 19 | Efficient MedSAMs: Segment Anything in Medical Images on Laptop | CVPR 2024 | 主要是考虑轻量化 1. 使用更轻量的ViT 2. 蒸馏大模型如MedSAM 3. 优化部署推理 | 20M | 链接 | 轻量化, 蒸馏, 医学影像, 高效部署 |
| 20 | SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts | MICCAI 2025 | 无训练少样本医学分割 1. 结合DINOv2(强语义弱空间)SAM(强空间弱语义),分别提取两类支持集和查询集 2. 加权融合生成置信度图 3. 正提示覆盖关键区域,负提示不再选择背景而是解剖学相关区域 4. 粗掩码腐蚀-膨胀,提取连通域查询集特征,计算得分,最高区域为初步精掩码,作为掩码提示由SAM再次分割得到结果 | - | 链接 | 少样本分割, 零样本分割, 医学影像, 提示学习, 无训练 |
| 21 | ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements | CVPR 2025 Workshop | 无训练开放词汇分割,从图像增强、文本增强、架构修改多角度提升CLIP分割能力。 | CLIP-based | 链接 | 零样本分割, 开放词汇分割, 无训练, CLIP增强 |
| 22 | AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models | ICLR 2026在投 | 零样本+可学习测试时适应+分割 1.基于医学图像+文本描述 2. CogVLM将文本描述转换为bbox 3. dinov2提取特征,kmeans生成点提示 4. 结合bbox+point使用SAM生成 5. 通过 HSV/RGB 偏移、CLAHE、非锐化 masking 等操作,缓解自然图像预训练模型与医学图像的领域鸿沟 6. 从 LLM 生成的候选提示中自动选择最优项 7. 采用贝叶斯优化(TPE),以代理验证器的评分为目标,无需真实标签即可搜索最优配置。 8. 无标签评估分割质量,分割区域与类别对比+分割区域与llm生成描述匹配c | - | - | 零样本分割, 测试时适应, 医学影像, 自动提示 |
| 23 | Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates | arXiv 2504 | 1. 基于MedSAM,提出直接优化图像latent而非模型参数 2. 分布近似latent CRF损失 3. 熵最小化损失,对置信度>0.95的前景区域计算熵损失,防止背景干扰 | 94M | - | 测试时适应, 医学影像, 非参数更新 |
| 24 | HERA: Efficient Test-Time Adaptation for Cross-Domain Few-Shot Segmentation with Vision Foundation Models | ICLR 2026(撤稿) | 跨域少样本分割,模型利用少量标注支持样本,在与训练域分布不同的目标域中,对未见类别进行像素级分割 1. 选择网络中层特征(动态),留一法计算支持集伪查询 mIoU,选择风险最低的图层 2. 正则化使用高斯先验 3. 校准使用特征相似度、注意力图、图像嵌入,加权融合, 使用自适应门控 | - | - | 测试时适应, 跨域适应, 少样本分割 |
| 25 | Efficient Universal Models for Medical Image Segmentation via Weakly Supervised In-Context Learning | arXiv 2510 | 弱监督上下文学习 1. 使用弱提示(bbox point)来构建上下文集合 2. 上下文集合与target image各使用一个分支,信息会跨分支交流 | 20M | 链接 | 弱监督分割, 上下文学习, 医学影像, 高效 |
| 26 | D-CAM: Learning Generalizable Weakly-Supervised Medical Image Segmentation from Domain-invariant CAM | MICCAI 2025 | 仅源域图像级标注 + 目标域无标注 弱监督分割 1. 利用频率特性构建域不变特征,先利用FFT得到频率和相位,实例归一化之后利用FFT得到域不变频率和相位,融合相位+域不变频率,IFFT得到特征 2. 基于特征运用CAM类方法生成伪标签 | - | - | 弱监督分割, 跨域适应, 医学影像, 域不变特征 |
| 27 | Endo-SemiS: Towards Robust Semi-Supervised Image Segmentation for Endoscopic Video | MIDL 2026 | 内窥镜视频分割 1. 双网络交叉监督,使用两个UNet相互提供伪标签 2. 同时考虑数据本身噪声+模型预测噪声,使用均值+标准差过滤低置信度区域 3. 让两个模型在各层相互对齐 4. 时空矫正,利用相邻5帧的信息 | 2xUNet | - | 半监督, 视频分割, 医学影像, 伪 标签 |
| 28 | MetaDCSeg: Robust Medical Image Segmentation via Meta Dynamic Center Weighting | ICLR 2026(在投) | 缓解标注噪声(错误、边界模糊) 1. 元学习,给每个像素动态分配权重,模糊不确定的像素权重低,同时结合自身预测伪标签辅助 2. 图像分为前景背景边界三个部分,计算每个像素到三个区域特征中心的距离 | UNet++ | - | 噪声标注, 元学习, 医学影像 |
| 29 | DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning | CVPR 2025 | 1. 任务范式统一,将文档布局分析、多粒度文本分割、表格结构识别等任务,统一建模为实例分割与语义分割 2. 通过 Sentence-BERT 将数据集类别名(Text Table Figure)映射为语义查询,与可学习的实例查询交互,既作为分割引导提示,又作为类别原型支持实例分类。 3. 混合查询解码器,交叉注意力+自注意力混合 4. 多个预测头,分割+定位+分类 | 200M/300M | 链接 | 文档分割, 统一框架, 实例分割, 语义分割 |
| 30 | Order-aware Interactive Image Segmentation | ICLR 2025 | 交互分割中引入指令顺序感知的信息 | 107.88M | - | 交互分割, 顺序感知 |
| 31 | I-MedSAM: Implicit Medical Image Segmentation with Segment Anything | ECCV 2024 | 1. 额外增加FFT之后的频 率谱图像,以及频率适配器用于提取边界信息 2. 先生成粗结果,再通过MC Dropout 计算像素预测方差,自适应筛选高不确定性的特征点进行优化 | 3.5M (LoRA) | 链接 | 医学影像, 边界增强, 不确定性, 高效微调 |
| 32 | PART-AWARE PERSONALIZED SEGMENT ANYTHING MODEL FOR PATIENT-SPECIFIC SEGMENTATION | TMLR 2025 / ICLR 2025被拒 | 解决SAM的歧义问题 1. SAM根据单点生成参考图像的前景特征 2. k means++聚类为n个部件特征 3. 提取目标图像特征,计算各个部件的余弦相似度,每个部件中选择分数最高的点为正点提示,由于医学背景高度相关,从参考背景特征中生成负点提示 | 90/200M | 链接 | 个性化分割, 医学影像, 部件感知, 提示生成 |
| 33 | UN-SAM: Domain-Adaptive Self-Prompt Segmentation for Universal Nuclei Images | Medical Image Analysis | 无提示自动分割框架 1. 基于SAM,每层SA后添加一个分支,用于捕捉所有细胞的通用和专用特征 2. FPN融合后使用1x1卷积+sigmoid+动态阈值分割,传递给decoder,self-prompt | - | 链接 | 无提示分割, 医学影像, 细胞核, 自提示 |
| 34 | WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models | ECCV 2024 | 1. 轻量 Transformer 结构(2 层卷积 + 6 层编解码),从 SAM 的图像特征里自动学 “部件提示令牌”,直接喂给 SAM 解码器。 2. SAM 提示编码器当 “老师”,拿弱监督标注(点 / 框)生成 “老师提示”,再通过匈牙利算法匹配 “学生提示”,联合分类 + 回归损失训练。 | - | 链接 | 弱监督分割, 部件分割, 蒸馏 |
| 35 | Incremental Nuclei Segmentation from Histopathological Images via Future-class Awareness and Compatibility-inspired Distillation | CVPR 2024 | 增量细胞核分割 主要为增量学习设计的 | ResNet101 | 链接 | 增量学习, 实例分割, 医学影像, 蒸馏 |
| 36 | Eliminating Feature Ambiguity for Few-Shot Segmentation | ECCV 2024 | 解决少样本分割中的特征模糊问题,通过先验生成与模糊消除器提升匹配精度。 1. 跨注意力机制的少样本分割,深层骨干网络的大感受野导致前景(FG)特征不可避免混入背景(BG)特征,阻碍 FG-FG 匹配,降低支持集信息利用率。 2. 先验生成器(PG):生成学习无关的先验掩码,通过 “FG 先验 - BG 先验” 的裁剪减法操作,得到判别性先验掩码,精准定位查询 FG 区域,提升模型收敛速度。 3. 模糊消除器(AE):利用判别性 FG 区域特征,加权融合查询与支持 FG 原型,通过特征拼接与线性层精炼,增强 FG-FG 匹配的有效性。 | 40.7M | 链接 | 少样本分割, 特征解耦 |
| 37 | Learning Cross-Representation Affinity Consistency for Sparsely Supervised Biomedical Instance Segmentation | ICCV 2023 | 生物医学实例分割 1. 双分支,隐(像素级)/显式(特征级)亲和图 2. 伪标签噪声过滤,自适应阈值(基于熵动态筛选高置信区域)+置信像素选择网络(CPSN,训练识别分割误差),使用两类亲和图的高置信区域作为伪标签相互监督 | - | 链接 | 弱监督分割, 实例分割, 生物医学, 伪标签 |
| 38 | PCTrans: Position-Guided Transformer with Query Contrast for Biological Instance Segmentation | ICCVW 2023 | 生物医学实例分割,引入位置 1. 预先均匀生成一系列点 2. 迭代更新点的坐标,作为分割实例的中心 3. 辅助预测 | ResNet50/101+ 6层transformer | 链接 | 实例分割, 生物医学, 位置感知, Transformer |
| 39 | ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image Segmentation | MICCAI 2023 | 1. 3x3 conv+bn+relu+多轮下采样代替ViT的patch embeding 2. 3x3 conv生成邻域QKV,余弦相似度计算初始注意力,利用可学习高斯距离图动态调整感受野 3. 1x1 conv + bn + relu代替FFN+LN | - | 链接 | Transformer, CNN, 医学影像, 高效架构 |
| 40 | UltralightUNet: Rethinking U-shaped Network with Multi-kernel Lightweight Convolutions for Medical Image Segmentation | ICLR 2025(撤稿) | 1. 多kernel深度可分离卷积,channelshuffle保证信息交互 2. 通道/空间注意力 3. 3x3分组卷积实现 gate 4. 3D扩展 | 3.7M | - | 轻量化, 医学影像, 高效架构 |
| 41 | GCA-ResUNet: Medical Image Segmentation Using Grouped Coordinate Attention | arXiv 2512 | 1. 通道分组注意力,每组沿水平垂直两方向计算平均池化和最大池化,通过共享的1x1卷积聚合信息 | - | - | 注意力机制, 医学影像, 高效架构 |
| 42 | Hybrid Transformer-Mamba Architecture for Weakly Supervised Volumetric Medical Segmentation | MIDL 2026 | 1. Transformer负责切片内数据,manba负责跨切片 | - | 链接 | 3D分割, 弱监督分割, Mamba, Transformer, 医学影像 |
| 43 | LCPDN: Lightweight Cross-text-vision Prompting Diffusion Network for Medical Image Segmentation | ICLR 2026(撤稿) | 1. 把医学报告当作分割准则,如左肺核密度高等 2. 先对齐图像和文本,生成能够统一的导航特征,再扩散 | 4.52M | - | 扩散模型, 文本引导, 医学 影像, 轻量化 |
| 44 | TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation | - | 解决CLIP 做医疗分割会有 “结构细节丢、医学语义弱、图文对齐差” 的问题 1. 给CLIP视觉编码器添加轻量CNN分支,补充细节特征 2. 使用LLM给原本的医学报告补充医学知识 3. 在统一的特征空间中双向校准,通过门控网络来整合文本+视觉特征,结果作为attention的kv,文本视觉特征为q,通过两次交叉注意力得到校准之后的特征 | 10M | - | 文本引导分割, 医学影像, 特征对齐, VLM增强 |
| 45 | Instructive Feature Enhancement for Dichotomous Medical Image Segmentation | MICCAI 2023 | 1. 首次定义 2D 二分医学图像分割(DMIS)并构建大规模基准数据集 Cosmos55k 2. 量化特征通道的 “指导性”(纹理丰富度、鉴别力),自适应筛选关键通道并与原始特征融合,量化准则可选曲率或者信息熵 | - | 链接 | 医学影像, 特征增强, 新任务 |
| 46 | Contrastive Graph Modeling for Cross-Domain Few-Shot Medical Image Segmentation | TMI 2026 | 解决跨域问题 1. 利用器官/组织的解剖解耦故一致性来作为迁移先验 2. 将医学图像特征视为图结构 3. 从支持集中提取结构先验图 4. 使用器官子图来匹配解码 5. 对于边界使用对比学习 | ResNet50 | 链 接 | 跨域适应, 少样本分割, 医学影像, 图模型 |
| 47 | MaskMed: Decoupled Mask and Class Prediction for Medical Image Segmentation | ICLR 2026(在投) | 参考MaskFormer/Mask2Fromer解耦分割头设计,将多类预测拆分为类别预测和掩码预测 1. 全尺度感知可变形transformer,低分辨率特征为query,全尺度特征为value 2.整体架构基于UNet | - | - | 医学影像, 解耦头, Transformer |
| 48 | End-to-End Instance Segmentation with Transformer | CVPR 2021 Oral | 1. 将视频实例分割变为序列预测,一次输出所有帧结果 2. 统一分割和跟踪 3. 匹配使用匈牙利算法,分割使用3d卷积 4.3D位置编码 | ResNet101 | 链接 | 视频分割, 实例分割, Transformer, 端到端 |
| 49 | OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies | CVPR 2024 highlight | 事件相机开放词汇语义分割框架 1. 无监督知识迁移,对齐事件、图像、文本 2. 支持体素、帧重构、脉冲信号的表征 3. 同时支持无标注和少标注 | ~200M | 链接 | 开放词汇分割, 事件相机, 多模态对齐 |
| 50 | Segment Anything in 3D Point Clouds | ICCV 2023 | 无需训练将2d分割迁 移到3d分割中 1. 基于 RGB-D 图像的深度信息与相机内外参,将结果投影到 3D 点云 2. 通过匹配相邻帧点云的对应关系,基于重叠阈值(δ=0.5)合并高重叠掩码;按对数步数逐步合并所有帧的局部 3D 掩码 3. 将 SAM3D 的分割结果与基于 3D 几何信息的过分割结果(正常图割方法生成)再次融合,同时利用 RGB 语义边缘与 3D 几何特征,提升分割精度。 | - | - | 3D分割, 点云, 零样本迁移 |
| 51 | MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis | ECCV 2024 | 3D语义分割 1. 利用GroundingDINO、SAM通过多视角分割,将结果聚合到3D 2. SD生成训练数据 3. 采用投票方式来融合多视角,通过多视角2D分割、投票聚合与纹理合成,实现3D网格的零样本语义分割。 | 200M | - | 3D分割, 零样本分割, 网格, 多视角融合 |
| 52 | SOFTooth: Semantics-Enhanced Order-Aware Fusion for Tooth Instance Segmentation | - | 牙齿3D实例分割 1. 使用SAM来提取牙齿边界,使用门控融合到3D特征 2. 生成30个候选实例,强制要求掩码与中心位置匹配,细化分割 3. 匹配位置和顺序 | - | - | 3D分割, 实例分割, 牙齿, 多模态融合 |
| 53 | Seg2Box: Segment to Box for LiDAR 3D Object Detection with Point-level Supervision Only | - | 雷达点云 主要是多帧和多尺度 | - | - | 3D检测, 点云, 弱监督, 自动驾驶 |
| 54 | Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter | AAAI 2026 | 针对水下实例分割,方法和之前基于fft的很像 1. 基于DINOv2+mask2former 解码器 2. 场景级别适配,使用FFT提取频率和相位(固定为均值),在IFFT变换回去,仅保留颜色信息,再将结果使用cross attention进行交互 3. 物体级别适配,多尺度+伪掩码作为鲜艳进行交叉注意力 | 390M | 链接 | 实例分割, 水下, 域适应, DINO |
| 55 | Diffusion-Guided Weakly Supervised Semantic Segmentation | arXiv 2507 | 将低光特征视为正常光特征的含噪变体,通过扩散模型实现跨光照域特征对齐 引入 Depth Anything 生成的深度图作为光照不变几何先验,增强结构特征学习 | - | 链接 | 弱监督分割, 扩散模型, 跨域适应 |
| 56 | FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification | ECCV 2024 | 1. 结合患者人口统计学属性(性别、种族等)动态调整特征重要性 2. 构建首个fair跨域数据集 3. 提出相应评估指标 | - | - | 跨域适应, 公平性, 医学影像, 新数据集 |
| 57 | VisionLLM v2 | NeurIPS 2024 | 多任务VLM,引入了路由Token+对应的query, 可由路由token触发对应解码器 | LLM 7B | VisionLLM Vitron | VLM, 通用模型, 多任务 |
| 58 | SAM3: Segment Anything with Concepts | ICLR 2026(在投) | 不光分割万物,还要理解万物 1. 共享编码器+双分支任务头 2. 检测器+跟踪器 3. 存在头,表示图中是否存在所需概念 | - | 链接 | 基础模型, 概念理解, 检测, 跟踪 |
| 59 | ENSAM: an efficient foundation model for interactive segmentation of 3D medical images | arXiv 2509 | 1. 3D相对位置编码,基于Lie代数,通过学习斜对称矩阵生成旋转矩阵 2. 将自然语言1d注意力扩展到3d,l2归一化+单位超球面优化 3. Muon优化器(首次应用到3d医疗分割) 4.仅使用10%数据 | 5.5M | - | 3D分割, 交互分割, 医学影像, 高效, 新优化器 |
| 60 | Lightweight Method for Interactive 3D Medical Image Segmentation with Multi-Round Result Fusion | - | 轻量CNN交互式3D医学分割 1. 2d交互模块生成初始提示掩码 2. 记忆模块3D双向传播(设计与之前的一个超声工作类似) 3. 多轮结果融合 4. 模块筛选最优掩码 5. 三阶段训练 | 30M | - | 3D分割, 交互分割, 医学影像, 轻量化, 记忆机制 |
| 61 | Interactive 3D Medical Image Segmentation with SAM2 | - | 零样本交互式3d医学分割 1. 与MedSAM2一致 2. 从中间切片标注,双向扩散 | - | 链接 | 3D分割, 交互分割, 医学影像, 零样本 |
| 62 | Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing | NIPS 2024 | 通用视觉多模态llm,不同编码器+llm+不同解码器 | llm7B | 链接 | VLM, 通用模型, 多任务 |
病理分割
| 论文名称 | 发表会议 | 核心贡献 | 模型大小 | 代码地址 |
|---|---|---|---|---|
| Semi-supervised Segmentation of Histopathology Images with Noise-Aware Topological Consistency | ECCV 2024 | 拓扑感知、半监督 1. 现有半监督分割结果 腺体/细胞核合并、分离错误、缺失等拓扑误差 2. 噪声感知拓扑一致性损失(Noise-Aware Topological Consistency Loss),将似然预测图转化为持久图(即调整不同的阈值,图中点的出现/消亡构成的散点图),再分解为信号拓扑+噪声拓扑,使用Wasserstein 距离 3. 基于 Mean-Teacher 框架,教师模型参数通过学生模型的指数移动平均(EMA)更新,保证拓扑表征的稳定性 | https://github.com/Melon-Xu/TopoSemiSeg | |
| PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation | CVPR 2024 | 1. 将肾脏而解剖关系转换为矩阵形式,定义超集、子集、互斥和无关四种关系 2. 引入类别感知token+尺度感知token,分别编码 8 类解剖结构的类别知识和 4 种放大倍数(5×、10×、20×、40×)的尺度知识;通过全局平均池化(GAP)和 2D 卷积控制器融合特征+动态感知头 3. 基于关系矩阵,将解剖关系转化为半监督约束,通过 Dice loss和BCE量化预测与解剖规则的一致性(如子集结构预测区域不超出超集、互斥结构重叠最小化)。 4. 首次实现肾脏病理从区域(皮质、髓质)、功能单元(肾小管、肾小球等)到细胞(足细胞、系膜细胞)的跨层级全景分割 | Residual-U-Net | |
| Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology | 整合多尺度数据,适配不同病理放大率的差异 1. 额外添加类别信息和尺度信息,使用one-hot表示,和上面的感知token差不多 2. 基于DoDNet,动态感知分割头,也是和上面的一样 | |||
| A General-Purpose Self-Supervised Model for Computational Pathology | 病理学领域的通用自监督模型 1. Mass-100K 数据集,包含来自 100,426 张全切片图像(覆盖 20 种主要组织类型)的 1 亿多个patch 2. 涵盖 ROI 分类、分割、检索、切片级分类等多种任务类型,实现分辨率无关的组织分类,支持从 224² 到 1792² 不同分辨率图像的稳定性能 3. 自蒸馏损失,教师学生模型对同一图像的两个增强分辨编码,最小化CLA token CE loss 4. 掩码图像重建损失,学生预测教师的掩码位置token | |||
| Graph-Theoretic Consistency for Robust and Topology-Aware Semi-Supervised Histopathology Segmentation | AAAI 2026 |