仅用1%数据也能精准预测!一个基于自监督学习的脑MRI基础模型

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯


编辑丨%
AI 凭借其高效的学习能力,在过去几十年里,在早期诊断和研究特定疾病或神经精神疾病的方面展现出了前景。举个例子来说,通过使用分析磁共振成像(MRI)收集的大量脑部扫描数据,AI 能够发现与肿瘤、中风和神经退行性疾病相关的模式,从而有助于诊断这些疾病。
但在临床方面,临床转化长期受困于一个核心矛盾:高质量的标注数据稀缺且昂贵,而不同中心、不同扫描仪、不同序列采集的海量未标注数据却「沉睡」在各地。如何唤醒这些数据,让模型能从中学到泛化能力强的特征,是突破瓶颈的关键。
来自麻省总医院布赖厄姆医院、哈佛医学院(Mass General Brigham, Harvard Medical School)等研究所的成员给出了一个强有力的答案——BrainIAC(Brain Imaging Adaptive Core)。这是一个专为脑 MRI 设计的基础模型,通过自监督学习在海量多参数 MRI 数据上预训练,然后在多个下游任务中展现出卓越的适应性和泛化能力。

图 1:BrainIAC 官网。
相关的研究以「A generalizable foundation model for analysis of human brain MRI」为题,于 2026 年 2 月 5 日发布在《Nature Neuroscience》。

论文链接:https://www.nature.com/articles/s41593-026-02202-6
为脑 MRI「量身定制」的预训练策略
在当下,脑 MRI AI 系统面临几个结构性问题。不同研究中心使用不同的协议,这导致数据较为分散;而结构与功能联合建模的困难也带来了模态分离的现状;模型的高度专业化也进一步指向任务专用化的问题。
为了涵盖多模态的庞大数据源,研究团队采用自监督学习(SSL),对共计 48,965 次 MRI 成像扫描进行了预训练 。BrainIAC 的预训练数据涵盖了 T1 加权、T2 加权、T1 增强(T1CE)、FLAIR 这四种主要序列,使其能学习到跨序列的、与采集协议无关的通用特征表示。

图 2:研究概述。
研究者们对比了三种主流的自监督学习框架与骨干网络组合——SimCLR-ResNet50、SimCLR-ViT-B 和 MAE-SwinViT,在全部七个下游任务上评估其小样本(K=1 和 K=5)适应能力。
结果显示,基于 Vision Transformer(ViT)的 SimCLR-ViT-B 表现最为稳定和优异,最终被选定为 BrainIAC 的骨干网络。ViT 的全局注意力机制,可能更适合捕捉脑 MRI 中复杂的、非局部的解剖结构关系。

图 3:下游应用性能比较。
评估训练
BrainIAC 在七个涵盖不同难度和临床场景的任务上,与三种基线模型进行了全方位比较:从头训练的监督学习模型(Scratch)、医学影像预训练模型(MedicalNet)和分割专用基础模型(BrainSegFounder)。评估维度包括不同数据比例下的微调性能、小样本学习能力和线性探测。
MRI序列分类:这是一个基础的「上游」任务,但在实际临床中,由于扫描协议混乱或元数据缺失,实际环境对自动分类并不友好。在仅有 10% 训练数据时,BrainIAC 的平衡准确率(BA)达到 90.8%,远高于 MedicalNet 的 74.2% 和 Scratch 的 79.0%。直到数据量增加到60%,其他模型才勉强追上。
脑龄预测:这是一个经典的回归任务,旨在用 MRI 预测个体年龄,偏差可作为神经退行性疾病的早期标志。在外部测试集上,仅用 20% 训练数据时,BrainIAC 的平均绝对误差(MAE)为 6.55 年。此外,对 BrainIAC 提取的潜特征进行 t-SNE 可视化,发现其能清晰地按年龄组聚类。
IDH 突变预测:这是最具挑战性的任务之一,对无法手术的患者意义重大。由于总数据量本身就很少,BrainIAC 的优势被放大。在 50% 训练数据时,其 AUC 达到 0.85,显著优于 MedicalNet(0.78)和 Scratch(0.68)。这直接证明了基础模型在极度稀缺数据场景下的核心价值。

图 4:BrainIAC 脑年龄预测表现。
极端小样本下的强大模型
在每类仅 1 个样本这样的极端小样本场景下,BrainIAC 在所有任务上的性能下降幅度最小。这归功于预训练阶段学到的强大特征,使其能快速从极少量新样本中「举一反三」。
BrainIAC 证明了针对 3D 脑 MRI,结合对比学习与 Vision Transformer 的预训练策略,可以学习到高度泛化、相关的特征表示。它为低资源场景(罕见病、新任务)提供了开箱即用的解决方案,极大地降低了开发临床 AI 工具的门槛和数据成本。
作为开源算法,其他研究团队已经开始使用该模型研究各种脑部相关疾病,检测其出现并追踪其进展。
相关链接:https://medicalxpress.com/news/2026-02-foundation-ai-mri-multiple-brain.html
算法链接:https://www.brainiac-platform.com/
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

