Skip to main content

LargeModel

论文名称发表会议核心贡献模型大小代码地址标签
Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modellingarxiv 2601MIDL 2026在投1. 提出 Polysome 合成指令生成工具,将非结构化文本如临床报告转化为结构化指令-响应对。2. 构建 HISTAI - Instruct 数据集,基于Polysome和HISTAI数据集,包含2.5万张20倍全切片,和111万对话3. 训练 ANTONI - α 模型,基于MedGemma 4B,训练8卡h20使用HEST模型在20倍下全尺寸分割,将前景切片使用Virchow生成嵌入,再使用PRISM聚合信息4B+https://github.com/computationalpathologygroup/ANTONI-Alphahttps://github.com/computationalpathologygroup/Polysomehttps://huggingface.co/datasets/SaltySander/HISTAI-Instruct病理图像,器官识别、肿瘤检测、诊断、VQA
MedVL - SAM2: A unified 3D medical vision–language model for multimodal reasoning and prompt - driven segmentationarxiv 26011. InternVL 2.5+SAM22. 报告生成、VQA、分割、语义分割、指代分割、交互式分割M3D-Seg CT数据集4B+CT、分割
PathMR: Multimodal Visual Reasoning for Interpretable Pathology Analysisarxiv 25081. 基于PatchGastricADC22 数据集扩展,包含 9 种胃腺癌亚型,图像分辨率为 600×600 像素,40倍放大,HoverNet+医生确认2. GPT-4o 生成两类问答对(通用形态问题 + 亚型诊断问题)。3. llava/qwen7B/13Bhttps://github.com/zhangye-zoe/PathMR病理图像、VQA、指代分割、语义分割
Zero - shot segmentation of skin tumors in whole - slide images with vision - language foundation modelsarxiv 25111. 为每一个目标类表生成大量不同的文本提示,得到嵌入取平均2. 将wsl前景分割出来,在切片为448x448大小,重叠75%通过视觉编码器得到特征嵌入3. 计算patch嵌入和文本嵌入余弦相似度,映射回像素,argmax得到分类结果4. 重叠区域取平均https://github.com/cvblab/ZEUS零样本分割
PathChat - SegR1: Reasoning Segmentation in Pathology via SO - GRPOICLR 2026在投1. 使用病理专用视觉编码器RuiPath和MedSAM2. 三阶段、预训练(染色不变自蒸馏)+sft+rl3. 强化学习优化seg token生成时机,将离散分割指标如dice iou转化为连续分布4. 公共数据集+私有(4.3万+),四种放大倍数,各种形态,包括冷冻切片等。qwen2.5 vl 3b + RuiPathhttps://openreview.net/forum?id=DQESI75YrDhttps://anonymous.4open.science/r/PathChat-Seg-3116强化学习、零样本分割、自然语言查询、单轮对话
Segment Anything for HistopathologyMIDL 20251. 基于uSAM2. 交互式分割3. 首个针对病理组织学细胞核分割的视觉基础模型https://github.com/computational-cell-analytics/patho-sam细胞核分割