Survey

现在主要的发展趋势有

统一模态、任务，追求模型的通用能力，但是需要大量的数据以及训练资源
更强的零样本或者跨域迁移能力，让基础模型在数据不足的情况下也能生效
医学分割主要聚焦于弱监督，或者自监督生成伪标签，利用基础模型来完成任务

针对数据不足以及数据噪声大（标注缺失、错误），以下论文比较符合要求 18、20、25、28、37、45

论文列表

排名	论文名称	发表会议	核心贡献	模型大小	代码地址	标签
1	Segment Anything Model (SAM)	ICCV 2023	开创性基础模型，提出提示式分割范式，构建超大规模数据集SA-1B，零样本能力强。 1. 点、框、掩码、文本prompt 2. “辅助手动→半自动→全自动” 生成含 110 亿掩码的 SA-1B 数据集 3. 图像嵌入可复用，单提示推理仅需50ms 4. 零样本适配能力	91/308/636M	链接	`基础模型`， `交互分割`， `零样本分割`， `通用视觉`
2	MedSAM & MedSAM2 Segment Anything in Medical Images	Nature Comms / arXiv	将SAM范式成功迁移至医学影像，构建大规模医学标注数据集，统一2D/3D/视频处理。 1. 150万有标注医学图像 2. 沿用SAM，但是优先采用bbox提示，支持3d，拆分为2d MedSAM2: 统一2d/3d/视频医学数据 1. 将3d数据作为视频序列，SAM2有记忆库 2. 增加记忆注意力模块 3. 分层特征，全量微调 4. 人机数据闭环 5. focal loss + dice loss 6. 图像编码器低学习率，防止丢失通用分割能力	~90M / 40M	MedSAM MedSAM2	`基础模型`， `医学影像`， `交互分割`， `3D分割`
3	SegVol: Universal and Interactive Volumetric Medical Image Segmentation	NeurIPS 2024	首个通用、交互式3D医学图像分割基础模型，整合多数据集，结合文本提示与滑动窗口。 1. 整合 25 个公开数据集 2. 构造伪标签 3. 先缩放生成粗分割掩码，定位ROI，再结合滑动窗口提升局部精度 4. CLIP文本编码，与3d ViT特征双向注意力 5. 3d vit SimMIM自监督预训练（90K CT数据）+6K 有监督微调	181M	链接	`基础模型`， `3D分割`， `交互分割`， `医学影像`， `开放词汇分割`
4	Segment Everything Everywhere All at Once	NeurIPS 2023	统一多模态提示（点、框、文本、参考图）的分割模型，提供语义标签，数据效率高。 1. 统一的视觉表示，将点、框、涂鸦多边形、跨图像参考区域等非文本prompt统一编码，以支持任意prompt的零样本组合 2. 引入记忆提示，可以将前一轮的分割信息记录 3. 不同于SAM，可以提供语义标签 4. 数据量仅为SAM的1/100	50/88/200M	链接	`基础模型`， `开放词汇分割`， `语义分割`， `实例分割`， `提示学习`
5	CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection	ICCV 2023	将 CLIP 预训练的文本嵌入引入分割模型（MLP）	62M	链接	`开放词汇分割`， `零样本分割`， `医学影像`， `提示学习`
6	Open-Vocabulary SAM	ECCV 2024	将SAM与CLIP能力结合，实现开放词汇分割的经典框架，提出双向知识蒸馏。 1. 双向知识迁移，SAM2CLIP（多尺度Transformer adapter+MSE loss蒸馏）+CLIP2SAM（FPN+ROIAlign+标签token） 2. CLIP编码器+SAM提示编码器+SAM解码器	304M	链接	`开放词汇分割`， `蒸馏`， `基础模型`
7	VISTA3D: Unified Segmentation Foundation Model for 3D Medical Imaging	ECCV 2024	统一的3D医学分割基础模型，整合自动、交互、零样本分割，训练策略复杂且完整。 1. 整合自动分割（127类）+交互式修正+零样本分割 2. 基于SAM蒸馏的3D超体素生成训练数据 3. 零样本嵌入，支持类会训练好对应的类别嵌入响亮，新类则使用零样本嵌入 4. 四阶段训练，通用3d分割能力-交互分支微调-自动分支训练-自动分支合成数据微调 5. 分割使用类别嵌入驱动，将对应而的类别嵌入映射为特征，与解码器输出相乘取sigmoid，得到二进制分割结果	-	链接	`基础模型`， `3D分割`， `医学影像`， `交互分割`， `零样本分割`
8	DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting	CVPR 2022	让像素和文本配对 1. 文本使用固定模板，a photo of [] 2. 让image embedding与文本特征交互 3. 更新后的文本嵌入与图像嵌入计算piexl-text score map，与图像嵌入一起输入解码器 4. text score map使用label进行监督	-	链接	`开放词汇分割`， `语义分割`， `提示学习`
9	EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation	AAAI 2025	单阶段通用共享集高效开放词汇全景分割框架 1. 词汇感知选择模块，将视觉文本特征编码之后拆分为不同的head，计算注意力，额外添加可学习的scale和offset 2. 双向动态嵌入专家，将cnn based和vit based的特征进行动态权重融合	71M/127M/225M	链接	`开放词汇分割`， `全景分割`， `高效`
10	Scene-Centric Unsupervised Panoptic Segmentation	CVPR 2025 Highlight	面向场景中心图像的无监督全景分割框架，融合视觉表征、深度线索、运动信息生成高质量全景伪标签，通过 “伪标签生成→网络引导训练→自训练优化” 三阶段流程	85M	链接	`无监督分割`， `全景分割`， `伪标签`
11	VISTA-CLIP: Visual Incremental Self-Tuned Adaptation for Efficient Continual Panoptic Segmentation	CVPR 2025	1. 提出视觉增量自调适应方法，解决类别增量学习中的灾难性遗忘问题 2.Mask2Former+ResNet-50 3. 基础类训练时在图像编码器前添加可学习的噪声扰动 4. 在图像左上角30x30大小添加可学习的视觉prompt 5. DecoderDrift，利用clip文本编码器提取新类文本嵌入，直接相加到视觉嵌入 6. cross attention	0.608M	-	`增量学习`， `全景分割`， `提示学习`
12	PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation	CVPR 2024	将概率输出与不确定性估计结合，解决增量学习+开放集分割 1. 专用解码器估计分割不确定性 2. 对于开放集任务，基于概率输出生成伪标签，先通过最大软max概率筛选不确定点，结合距离与不确定性相似度迭代扩展未知区域，构建点云+最小生成树，使用高斯混合模型分割边权重 3. 对于增量学习，使用蒸馏	-	链接	`3D分割`， `开放集分割`， `增量学习`， `点云`
13	Diffusion Models for Open-Vocabulary Segmentation	ECCV 2024	1. 合成支持集，为每个文本类别使用SD合成32张图像，分割前景背景 2. 为每个类别同时构建前景（目标）和背景（上下文），将所有类别的背景原型合并为全局背景类原型，直接通过原型匹配分配背景像素，无需阈值筛选或额外背景提示。 3. 用 CLIP 进行多标签分类，筛选出图像中实际存在的类别，使用CHATGPT自动区分stuff和thing	~1000M	-	`开放词汇分割`， `扩散模型`， `零样本分割`
14	MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation…	CVPR 2024	1. 3D 多尺度掩码自编码（MAE）：同时处理局部补丁（8³ ）与下采样全局扫描（4³ ），70% 掩码比例 2. 3D 掩码伪标签（MPL）：教师模型基于完整图像生成伪标签，学生模型在掩码图像上学习，通过 EMA 更新教师参数 3. 全局 - 局部特征协作（GLC）：融合局部补丁特征与全局扫描特征，通过余弦相似度正则化保持特征一致性，利用解剖学位置先验提升伪标签可靠性 4. 无目标评估：基于源域 Dice 分数与目标域伪标签损失的模型选择分数	-	链接	`跨域适应`， `无监督分割`， `3D分割`， `医学影像`， `伪标签`
15	Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation	CVPR 2024	1. 构建上下文先验池，同时学习任务先验和模态先验，任务先验适配不同临床目标（如器官、肿瘤），模态先验针对 CT、MRI等 2. 双向注意力+多尺度融合 3. 模态分类辅助损失	10/40/160M	链接	`通用模型`， `医学影像`， `上下文学习`
16	One-Prompt to Segment All Medical Images	CVPR 2024	1. 只需要一个带提示的样本 2. 支持point, bbox, doodle, seg 四种提示 3. 双分支注意力，query image + prompted image	192M	链接	`少样本分割`， `交互分割`， `医学影像`， `提示学习`
17	MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation	CVPR 2024 Oral	为超声视频分割设计记忆机制，利用预测结果强化记忆，实现高效半监督分割。	90M	链接	`视频分割`， `记忆机制`， `医学影像`， `半监督`
18	MedDINOv3: How to adapt vision foundation models for medical image segmentation?	arXiv 2509	超声心电图分割 1. 设计工作记忆、长期记忆和感觉记忆 2. 利用预测掩码对记忆强化 3. 半监督，仅需第一帧少量点提示+稀疏标注（舒张末期+收缩末期标注）	~100M	链接	`基础模型适配`， `医学影像`， `DINO`
19	Efficient MedSAMs: Segment Anything in Medical Images on Laptop	CVPR 2024	主要是考虑轻量化 1. 使用更轻量的ViT 2. 蒸馏大模型如MedSAM 3. 优化部署推理	20M	链接	`轻量化`， `蒸馏`， `医学影像`， `高效部署`
20	SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts	MICCAI 2025	无训练少样本医学分割 1. 结合DINOv2（强语义弱空间）SAM（强空间弱语义），分别提取两类支持集和查询集 2. 加权融合生成置信度图 3. 正提示覆盖关键区域，负提示不再选择背景而是解剖学相关区域 4. 粗掩码腐蚀-膨胀，提取连通域查询集特征，计算得分，最高区域为初步精掩码，作为掩码提示由SAM再次分割得到结果	-	链接	`少样本分割`， `零样本分割`， `医学影像`， `提示学习`， `无训练`
21	ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements	CVPR 2025 Workshop	无训练开放词汇分割，从图像增强、文本增强、架构修改多角度提升CLIP分割能力。	CLIP-based	链接	`零样本分割`， `开放词汇分割`， `无训练`， `CLIP增强`
22	AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models	ICLR 2026在投	零样本+可学习测试时适应+分割 1.基于医学图像+文本描述 2. CogVLM将文本描述转换为bbox 3. dinov2提取特征，kmeans生成点提示 4. 结合bbox+point使用SAM生成 5. 通过 HSV/RGB 偏移、CLAHE、非锐化 masking 等操作，缓解自然图像预训练模型与医学图像的领域鸿沟 6. 从 LLM 生成的候选提示中自动选择最优项 7. 采用贝叶斯优化（TPE），以代理验证器的评分为目标，无需真实标签即可搜索最优配置。 8. 无标签评估分割质量，分割区域与类别对比+分割区域与llm生成描述匹配c	-	-	`零样本分割`， `测试时适应`， `医学影像`， `自动提示`
23	Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates	arXiv 2504	1. 基于MedSAM，提出直接优化图像latent而非模型参数 2. 分布近似latent CRF损失 3. 熵最小化损失，对置信度>0.95的前景区域计算熵损失，防止背景干扰	94M	-	`测试时适应`， `医学影像`， `非参数更新`
24	HERA: Efficient Test-Time Adaptation for Cross-Domain Few-Shot Segmentation with Vision Foundation Models	ICLR 2026（撤稿）	跨域少样本分割，模型利用少量标注支持样本，在与训练域分布不同的目标域中，对未见类别进行像素级分割 1. 选择网络中层特征（动态），留一法计算支持集伪查询 mIoU，选择风险最低的图层 2. 正则化使用高斯先验 3. 校准使用特征相似度、注意力图、图像嵌入，加权融合，使用自适应门控	-	-	`测试时适应`， `跨域适应`， `少样本分割`
25	Efficient Universal Models for Medical Image Segmentation via Weakly Supervised In-Context Learning	arXiv 2510	弱监督上下文学习 1. 使用弱提示（bbox point）来构建上下文集合 2. 上下文集合与target image各使用一个分支，信息会跨分支交流	20M	链接	`弱监督分割`， `上下文学习`， `医学影像`， `高效`
26	D-CAM: Learning Generalizable Weakly-Supervised Medical Image Segmentation from Domain-invariant CAM	MICCAI 2025	仅源域图像级标注 + 目标域无标注弱监督分割 1. 利用频率特性构建域不变特征，先利用FFT得到频率和相位，实例归一化之后利用FFT得到域不变频率和相位，融合相位+域不变频率，IFFT得到特征 2. 基于特征运用CAM类方法生成伪标签	-	-	`弱监督分割`， `跨域适应`， `医学影像`， `域不变特征`
27	Endo-SemiS: Towards Robust Semi-Supervised Image Segmentation for Endoscopic Video	MIDL 2026	内窥镜视频分割 1. 双网络交叉监督，使用两个UNet相互提供伪标签 2. 同时考虑数据本身噪声+模型预测噪声，使用均值+标准差过滤低置信度区域 3. 让两个模型在各层相互对齐 4. 时空矫正，利用相邻5帧的信息	2xUNet	-	`半监督`， `视频分割`， `医学影像`， `伪标签`
28	MetaDCSeg: Robust Medical Image Segmentation via Meta Dynamic Center Weighting	ICLR 2026（在投）	缓解标注噪声（错误、边界模糊） 1. 元学习，给每个像素动态分配权重，模糊不确定的像素权重低，同时结合自身预测伪标签辅助 2. 图像分为前景背景边界三个部分，计算每个像素到三个区域特征中心的距离	UNet++	-	`噪声标注`， `元学习`， `医学影像`
29	DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning	CVPR 2025	1. 任务范式统一，将文档布局分析、多粒度文本分割、表格结构识别等任务，统一建模为实例分割与语义分割 2. 通过 Sentence-BERT 将数据集类别名（Text Table Figure）映射为语义查询，与可学习的实例查询交互，既作为分割引导提示，又作为类别原型支持实例分类。 3. 混合查询解码器，交叉注意力+自注意力混合 4. 多个预测头，分割+定位+分类	200M/300M	链接	`文档分割`， `统一框架`， `实例分割`， `语义分割`
30	Order-aware Interactive Image Segmentation	ICLR 2025	交互分割中引入指令顺序感知的信息	107.88M	-	`交互分割`， `顺序感知`
31	I-MedSAM: Implicit Medical Image Segmentation with Segment Anything	ECCV 2024	1. 额外增加FFT之后的频率谱图像，以及频率适配器用于提取边界信息 2. 先生成粗结果，再通过MC Dropout 计算像素预测方差，自适应筛选高不确定性的特征点进行优化	3.5M (LoRA)	链接	`医学影像`， `边界增强`， `不确定性`， `高效微调`
32	PART-AWARE PERSONALIZED SEGMENT ANYTHING MODEL FOR PATIENT-SPECIFIC SEGMENTATION	TMLR 2025 / ICLR 2025被拒	解决SAM的歧义问题 1. SAM根据单点生成参考图像的前景特征 2. k means++聚类为n个部件特征 3. 提取目标图像特征，计算各个部件的余弦相似度，每个部件中选择分数最高的点为正点提示，由于医学背景高度相关，从参考背景特征中生成负点提示	90/200M	链接	`个性化分割`， `医学影像`， `部件感知`， `提示生成`
33	UN-SAM: Domain-Adaptive Self-Prompt Segmentation for Universal Nuclei Images	Medical Image Analysis	无提示自动分割框架 1. 基于SAM，每层SA后添加一个分支，用于捕捉所有细胞的通用和专用特征 2. FPN融合后使用1x1卷积+sigmoid+动态阈值分割，传递给decoder，self-prompt	-	链接	`无提示分割`， `医学影像`， `细胞核`， `自提示`
34	WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models	ECCV 2024	1. 轻量 Transformer 结构（2 层卷积 + 6 层编解码），从 SAM 的图像特征里自动学 “部件提示令牌”，直接喂给 SAM 解码器。 2. SAM 提示编码器当 “老师”，拿弱监督标注（点 / 框）生成 “老师提示”，再通过匈牙利算法匹配 “学生提示”，联合分类 + 回归损失训练。	-	链接	`弱监督分割`， `部件分割`， `蒸馏`
35	Incremental Nuclei Segmentation from Histopathological Images via Future-class Awareness and Compatibility-inspired Distillation	CVPR 2024	增量细胞核分割主要为增量学习设计的	ResNet101	链接	`增量学习`， `实例分割`， `医学影像`， `蒸馏`
36	Eliminating Feature Ambiguity for Few-Shot Segmentation	ECCV 2024	解决少样本分割中的特征模糊问题，通过先验生成与模糊消除器提升匹配精度。 1. 跨注意力机制的少样本分割，深层骨干网络的大感受野导致前景（FG）特征不可避免混入背景（BG）特征，阻碍 FG-FG 匹配，降低支持集信息利用率。 2. 先验生成器（PG）：生成学习无关的先验掩码，通过 “FG 先验 - BG 先验” 的裁剪减法操作，得到判别性先验掩码，精准定位查询 FG 区域，提升模型收敛速度。 3. 模糊消除器（AE）：利用判别性 FG 区域特征，加权融合查询与支持 FG 原型，通过特征拼接与线性层精炼，增强 FG-FG 匹配的有效性。	40.7M	链接	`少样本分割`， `特征解耦`
37	Learning Cross-Representation Affinity Consistency for Sparsely Supervised Biomedical Instance Segmentation	ICCV 2023	生物医学实例分割 1. 双分支，隐（像素级）/显式（特征级）亲和图 2. 伪标签噪声过滤，自适应阈值（基于熵动态筛选高置信区域）+置信像素选择网络（CPSN，训练识别分割误差），使用两类亲和图的高置信区域作为伪标签相互监督	-	链接	`弱监督分割`， `实例分割`， `生物医学`， `伪标签`
38	PCTrans: Position-Guided Transformer with Query Contrast for Biological Instance Segmentation	ICCVW 2023	生物医学实例分割，引入位置 1. 预先均匀生成一系列点 2. 迭代更新点的坐标，作为分割实例的中心 3. 辅助预测	ResNet50/101+ 6层transformer	链接	`实例分割`， `生物医学`， `位置感知`， `Transformer`
39	ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image Segmentation	MICCAI 2023	1. 3x3 conv+bn+relu+多轮下采样代替ViT的patch embeding 2. 3x3 conv生成邻域QKV，余弦相似度计算初始注意力，利用可学习高斯距离图动态调整感受野 3. 1x1 conv + bn + relu代替FFN+LN	-	链接	`Transformer`， `CNN`， `医学影像`， `高效架构`
40	UltralightUNet: Rethinking U-shaped Network with Multi-kernel Lightweight Convolutions for Medical Image Segmentation	ICLR 2025（撤稿）	1. 多kernel深度可分离卷积，channelshuffle保证信息交互 2. 通道/空间注意力 3. 3x3分组卷积实现 gate 4. 3D扩展	3.7M	-	`轻量化`， `医学影像`， `高效架构`
41	GCA-ResUNet: Medical Image Segmentation Using Grouped Coordinate Attention	arXiv 2512	1. 通道分组注意力，每组沿水平垂直两方向计算平均池化和最大池化，通过共享的1x1卷积聚合信息	-	-	`注意力机制`， `医学影像`， `高效架构`
42	Hybrid Transformer-Mamba Architecture for Weakly Supervised Volumetric Medical Segmentation	MIDL 2026	1. Transformer负责切片内数据，manba负责跨切片	-	链接	`3D分割`， `弱监督分割`， `Mamba`， `Transformer`， `医学影像`
43	LCPDN: Lightweight Cross-text-vision Prompting Diffusion Network for Medical Image Segmentation	ICLR 2026（撤稿）	1. 把医学报告当作分割准则，如左肺核密度高等 2. 先对齐图像和文本，生成能够统一的导航特征，再扩散	4.52M	-	`扩散模型`， `文本引导`， `医学影像`， `轻量化`
44	TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation	-	解决CLIP 做医疗分割会有 “结构细节丢、医学语义弱、图文对齐差” 的问题 1. 给CLIP视觉编码器添加轻量CNN分支，补充细节特征 2. 使用LLM给原本的医学报告补充医学知识 3. 在统一的特征空间中双向校准，通过门控网络来整合文本+视觉特征，结果作为attention的kv，文本视觉特征为q,通过两次交叉注意力得到校准之后的特征	10M	-	`文本引导分割`， `医学影像`， `特征对齐`， `VLM增强`
45	Instructive Feature Enhancement for Dichotomous Medical Image Segmentation	MICCAI 2023	1. 首次定义 2D 二分医学图像分割（DMIS）并构建大规模基准数据集 Cosmos55k 2. 量化特征通道的 “指导性”（纹理丰富度、鉴别力），自适应筛选关键通道并与原始特征融合，量化准则可选曲率或者信息熵	-	链接	`医学影像`， `特征增强`， `新任务`
46	Contrastive Graph Modeling for Cross-Domain Few-Shot Medical Image Segmentation	TMI 2026	解决跨域问题 1. 利用器官/组织的解剖解耦故一致性来作为迁移先验 2. 将医学图像特征视为图结构 3. 从支持集中提取结构先验图 4. 使用器官子图来匹配解码 5. 对于边界使用对比学习	ResNet50	链接	`跨域适应`， `少样本分割`， `医学影像`， `图模型`
47	MaskMed: Decoupled Mask and Class Prediction for Medical Image Segmentation	ICLR 2026（在投）	参考MaskFormer/Mask2Fromer解耦分割头设计，将多类预测拆分为类别预测和掩码预测 1. 全尺度感知可变形transformer，低分辨率特征为query，全尺度特征为value 2.整体架构基于UNet	-	-	`医学影像`， `解耦头`， `Transformer`
48	End-to-End Instance Segmentation with Transformer	CVPR 2021 Oral	1. 将视频实例分割变为序列预测，一次输出所有帧结果 2. 统一分割和跟踪 3. 匹配使用匈牙利算法，分割使用3d卷积 4.3D位置编码	ResNet101	链接	`视频分割`， `实例分割`， `Transformer`， `端到端`
49	OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies	CVPR 2024 highlight	事件相机开放词汇语义分割框架 1. 无监督知识迁移，对齐事件、图像、文本 2. 支持体素、帧重构、脉冲信号的表征 3. 同时支持无标注和少标注	~200M	链接	`开放词汇分割`， `事件相机`， `多模态对齐`
50	Segment Anything in 3D Point Clouds	ICCV 2023	无需训练将2d分割迁移到3d分割中 1. 基于 RGB-D 图像的深度信息与相机内外参，将结果投影到 3D 点云 2. 通过匹配相邻帧点云的对应关系，基于重叠阈值（δ=0.5）合并高重叠掩码；按对数步数逐步合并所有帧的局部 3D 掩码 3. 将 SAM3D 的分割结果与基于 3D 几何信息的过分割结果（正常图割方法生成）再次融合，同时利用 RGB 语义边缘与 3D 几何特征，提升分割精度。	-	-	`3D分割`， `点云`， `零样本迁移`
51	MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis	ECCV 2024	3D语义分割 1. 利用GroundingDINO、SAM通过多视角分割，将结果聚合到3D 2. SD生成训练数据 3. 采用投票方式来融合多视角，通过多视角2D分割、投票聚合与纹理合成，实现3D网格的零样本语义分割。	200M	-	`3D分割`， `零样本分割`， `网格`， `多视角融合`
52	SOFTooth: Semantics-Enhanced Order-Aware Fusion for Tooth Instance Segmentation	-	牙齿3D实例分割 1. 使用SAM来提取牙齿边界，使用门控融合到3D特征 2. 生成30个候选实例，强制要求掩码与中心位置匹配，细化分割 3. 匹配位置和顺序	-	-	`3D分割`， `实例分割`， `牙齿`， `多模态融合`
53	Seg2Box: Segment to Box for LiDAR 3D Object Detection with Point-level Supervision Only	-	雷达点云主要是多帧和多尺度	-	-	`3D检测`， `点云`， `弱监督`， `自动驾驶`
54	Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter	AAAI 2026	针对水下实例分割，方法和之前基于fft的很像 1. 基于DINOv2+mask2former 解码器 2. 场景级别适配，使用FFT提取频率和相位（固定为均值），在IFFT变换回去，仅保留颜色信息，再将结果使用cross attention进行交互 3. 物体级别适配，多尺度+伪掩码作为鲜艳进行交叉注意力	390M	链接	`实例分割`， `水下`， `域适应`， `DINO`
55	Diffusion-Guided Weakly Supervised Semantic Segmentation	arXiv 2507	将低光特征视为正常光特征的含噪变体，通过扩散模型实现跨光照域特征对齐引入 Depth Anything 生成的深度图作为光照不变几何先验，增强结构特征学习	-	链接	`弱监督分割`， `扩散模型`， `跨域适应`
56	FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification	ECCV 2024	1. 结合患者人口统计学属性（性别、种族等）动态调整特征重要性 2. 构建首个fair跨域数据集 3. 提出相应评估指标	-	-	`跨域适应`， `公平性`， `医学影像`， `新数据集`
57	VisionLLM v2	NeurIPS 2024	多任务VLM，引入了路由Token+对应的query，可由路由token触发对应解码器	LLM 7B	VisionLLM Vitron	`VLM`， `通用模型`， `多任务`
58	SAM3: Segment Anything with Concepts	ICLR 2026（在投）	不光分割万物，还要理解万物 1. 共享编码器+双分支任务头 2. 检测器+跟踪器 3. 存在头，表示图中是否存在所需概念	-	链接	`基础模型`， `概念理解`， `检测`， `跟踪`
59	ENSAM: an efficient foundation model for interactive segmentation of 3D medical images	arXiv 2509	1. 3D相对位置编码，基于Lie代数，通过学习斜对称矩阵生成旋转矩阵 2. 将自然语言1d注意力扩展到3d，l2归一化+单位超球面优化 3. Muon优化器（首次应用到3d医疗分割） 4.仅使用10%数据	5.5M	-	`3D分割`， `交互分割`， `医学影像`， `高效`， `新优化器`
60	Lightweight Method for Interactive 3D Medical Image Segmentation with Multi-Round Result Fusion	-	轻量CNN交互式3D医学分割 1. 2d交互模块生成初始提示掩码 2. 记忆模块3D双向传播（设计与之前的一个超声工作类似） 3. 多轮结果融合 4. 模块筛选最优掩码 5. 三阶段训练	30M	-	`3D分割`， `交互分割`， `医学影像`， `轻量化`， `记忆机制`
61	Interactive 3D Medical Image Segmentation with SAM2	-	零样本交互式3d医学分割 1. 与MedSAM2一致 2. 从中间切片标注，双向扩散	-	链接	`3D分割`， `交互分割`， `医学影像`， `零样本`
62	Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing	NIPS 2024	通用视觉多模态llm，不同编码器+llm+不同解码器	llm7B	链接	`VLM`， `通用模型`， `多任务`

病理分割

论文名称	发表会议	核心贡献	模型大小	代码地址
Semi-supervised Segmentation of Histopathology Images with Noise-Aware Topological Consistency	ECCV 2024	拓扑感知、半监督 1. 现有半监督分割结果腺体/细胞核合并、分离错误、缺失等拓扑误差 2. 噪声感知拓扑一致性损失（Noise-Aware Topological Consistency Loss），将似然预测图转化为持久图（即调整不同的阈值，图中点的出现/消亡构成的散点图），再分解为信号拓扑+噪声拓扑，使用Wasserstein距离 3. 基于 Mean-Teacher 框架，教师模型参数通过学生模型的指数移动平均（EMA）更新，保证拓扑表征的稳定性		https://github.com/Melon-Xu/TopoSemiSeg
PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation	CVPR 2024	1. 将肾脏而解剖关系转换为矩阵形式，定义超集、子集、互斥和无关四种关系 2. 引入类别感知token+尺度感知token，分别编码 8 类解剖结构的类别知识和 4 种放大倍数（5×、10×、20×、40×）的尺度知识；通过全局平均池化（GAP）和 2D 卷积控制器融合特征+动态感知头 3. 基于关系矩阵，将解剖关系转化为半监督约束，通过 Dice loss和BCE量化预测与解剖规则的一致性（如子集结构预测区域不超出超集、互斥结构重叠最小化）。 4. 首次实现肾脏病理从区域（皮质、髓质）、功能单元（肾小管、肾小球等）到细胞（足细胞、系膜细胞）的跨层级全景分割	Residual-U-Net
Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology		整合多尺度数据，适配不同病理放大率的差异 1. 额外添加类别信息和尺度信息，使用one-hot表示，和上面的感知token差不多 2. 基于DoDNet，动态感知分割头，也是和上面的一样
A General-Purpose Self-Supervised Model for Computational Pathology		病理学领域的通用自监督模型 1. Mass-100K 数据集，包含来自 100,426 张全切片图像（覆盖 20 种主要组织类型）的 1 亿多个patch 2. 涵盖 ROI 分类、分割、检索、切片级分类等多种任务类型，实现分辨率无关的组织分类，支持从 224² 到 1792² 不同分辨率图像的稳定性能 3. 自蒸馏损失，教师学生模型对同一图像的两个增强分辨编码，最小化CLA token CE loss 4. 掩码图像重建损失，学生预测教师的掩码位置token
Graph-Theoretic Consistency for Robust and Topology-Aware Semi-Supervised Histopathology Segmentation	AAAI 2026

论文列表​

病理分割​

论文列表

病理分割