智能與秩序

Stanford Merlin：原生3D CT影像AI突破

得到App 2026/04/16 更新 2026/04/17

摘要

Stanford AIMI 中心開源 Merlin，首個原生 3D 視覺語言模型，直接處理完整腹部 CT 立體數據。該模型採用「3D 權重膨脹」技術將 2D 神經網路擴展為空間理解能力，訓練資料涵蓋 15,331 次 CT 掃描、180 萬條診斷代碼、600 萬詞元放射科報告。同步釋出 25,494 份開源腹部 CT 數據集。Merlin 在 752 項任務評測中，僅用 10% 訓練數據超越領域公認最強工具 nnU-Net，實現 CT 查看、報告生成、3D 分割、慢性病風險預測等多任務能力，臨床表型預測準確率達 0.81。論文刊登 Nature，突破醫療 AI 數據稀缺瓶頸，緩解全球放射科醫師 80-90% 職業倦怠率。

重點

原生 3D 模型透過權重膨脹技術實現立體空間理解，超越切片堆疊方式
利用醫院放射科日常報告作訓練數據，繞過專門標注需求，破解醫療數據壁壘
以 10% 訓練數據超越 nnU-Net，展現超高樣本效率與遷移學習能力
整合 CT 影像理解、報告生成、器官分割、風險預測於單一多任務模型
開源 25K 腹部 CT 數據集推動學術生態，應對全球年 7,500 萬次 CT 掃描需求

章節

Merlin 模型架構與創新
Stanford AIMI 開源 Merlin，首個原生 3D 視覺語言模型，採用 3D 權重膨脹技術直接處理立體 CT 數據。
訓練數據與規模
涵蓋 15,331 次 CT 掃描、180 萬診斷代碼、600 萬詞元放射科報告，開源 25,494 份腹部 CT 數據集。
性能突破與多任務能力
752 項評測中用 10% 訓練數據超越 nnU-Net，實現 CT 查看、報告生成、分割、風險預測，準確率 0.81。
臨床價值與全球影響
應對全球年 7,500 萬次腹部 CT 需求，緩解放射科 80-90% 倦怠率，突破醫療 AI 數據稀缺瓶頸，論文刊 Nature。

金句

原生 3D 視覺語言模型，直接處理完整腹部 CT 立體數據而非 2D 切片堆疊

訓練資料涵蓋 15,331 次 CT 掃描、180 萬條診斷代碼、600 萬詞元放射科報告

以 10% 訓練數據超越 nnU-Net（3D 器官分割公認最強工具）

放射科住院醫師職業倦怠率 80-90%

全球每年腹部 CT 約 7,500 萬次，按不眠不休計算需 2,854 年才能完成人工閱片

探索碰撞 ↗