智能與秩序

Stanford Merlin:原生3D CT影像AI突破

得到App 2026/04/16 更新 2026/04/17

摘要

Stanford AIMI 中心開源 Merlin,首個原生 3D 視覺語言模型,直接處理完整腹部 CT 立體數據。該模型採用「3D 權重膨脹」技術將 2D 神經網路擴展為空間理解能力,訓練資料涵蓋 15,331 次 CT 掃描、180 萬條診斷代碼、600 萬詞元放射科報告。同步釋出 25,494 份開源腹部 CT 數據集。Merlin 在 752 項任務評測中,僅用 10% 訓練數據超越領域公認最強工具 nnU-Net,實現 CT 查看、報告生成、3D 分割、慢性病風險預測等多任務能力,臨床表型預測準確率達 0.81。論文刊登 Nature,突破醫療 AI 數據稀缺瓶頸,緩解全球放射科醫師 80-90% 職業倦怠率。

重點

  • 原生 3D 模型透過權重膨脹技術實現立體空間理解,超越切片堆疊方式
  • 利用醫院放射科日常報告作訓練數據,繞過專門標注需求,破解醫療數據壁壘
  • 以 10% 訓練數據超越 nnU-Net,展現超高樣本效率與遷移學習能力
  • 整合 CT 影像理解、報告生成、器官分割、風險預測於單一多任務模型
  • 開源 25K 腹部 CT 數據集推動學術生態,應對全球年 7,500 萬次 CT 掃描需求

章節

  1. Merlin 模型架構與創新

    Stanford AIMI 開源 Merlin,首個原生 3D 視覺語言模型,採用 3D 權重膨脹技術直接處理立體 CT 數據。

  2. 訓練數據與規模

    涵蓋 15,331 次 CT 掃描、180 萬診斷代碼、600 萬詞元放射科報告,開源 25,494 份腹部 CT 數據集。

  3. 性能突破與多任務能力

    752 項評測中用 10% 訓練數據超越 nnU-Net,實現 CT 查看、報告生成、分割、風險預測,準確率 0.81。

  4. 臨床價值與全球影響

    應對全球年 7,500 萬次腹部 CT 需求,緩解放射科 80-90% 倦怠率,突破醫療 AI 數據稀缺瓶頸,論文刊 Nature。

金句

原生 3D 視覺語言模型,直接處理完整腹部 CT 立體數據而非 2D 切片堆疊
訓練資料涵蓋 15,331 次 CT 掃描、180 萬條診斷代碼、600 萬詞元放射科報告
以 10% 訓練數據超越 nnU-Net(3D 器官分割公認最強工具)
放射科住院醫師職業倦怠率 80-90%
全球每年腹部 CT 約 7,500 萬次,按不眠不休計算需 2,854 年才能完成人工閱片
探索碰撞 ↗
動態牆知識圖譜關於搜尋聯絡我
EN
字級