Nature Neuroscience | 如何在大规模自动化MRI分析中规避伪影陷阱?

发布于:2025-08-06 ⋅ 阅读:(12) ⋅ 点赞:(0)

摘要

基于大规模人群的青少年磁共振成像(MRI)研究有望为神经发育和精神疾病风险带来突破性认知。然而,青少年MRI研究特别容易受到运动伪影和其他伪影的影响,从而引入非随机噪声。通过对青少年脑认知发展(ABCD)研究中获得的11263份9-10岁受试者T1加权MRI扫描数据进行质量控制后,本研究发现55.1%图像质量欠佳的样本存在皮层厚度和表面积测量偏差。这些偏差影响了结构MRI与临床指标的相关性分析,导致假阳性和假阴性关联同时出现。表面孔洞数(拓扑复杂度的自动化指标,SHN)能以良好特异性可重复地识别低质量扫描,将其作为协变量纳入可部分消除质量相关偏差。对高质量扫描的进一步检查发现,图像预处理过程中还会引入额外的拓扑误差。通过手动编辑进行校正可重复地改变厚度测量值,并增强年龄-厚度关联。本研究证明,质量控制不佳会削弱大样本量在检测有效关联方面的优势,但通过结合自动化指标和人工质量控制可有效减小伪影的影响。

引言

磁共振成像(MRI)在临床神经科学研究中被广泛用于健康人群和神经精神疾病患者的神经解剖变异研究。结构(T1加权)MRI(sMRI)扫描可提供可靠的个体层面皮层厚度、表面积和体积指标,并能将其他脑成像数据(如功能MRI和正电子发射断层扫描)配准至解剖模板,从而便于进行组水平分析。根据精神疾病的神经发育模型,针对儿童和青少年的大规模脑MRI研究有望阐明精神病理学的复杂神经特征,这些发现也可应用于改进早期识别和治疗方法的开发。

近期研究强调了此类临床MRI研究需要数千名参与者,因为精神病理学与MRI指标间的效应量通常较小。此外,儿童和青少年的MRI扫描尤其容易因受试者运动产生伪影。一个尚待解决的问题是,大样本量(例如包含数千名参与者的研究)是否足以补偿因纳入低质量图像而导致的sMRI测量误差。另一项小规模研究表明,明显的运动伪影不仅会产生随机噪声,还可能会导致偏差,而这种偏差未必能通过增加样本量来抵消。

一个相关的问题是,自动化质量控制(QC)措施在大规模儿童sMRI研究中是否能够充分识别和校正低质量图像。值得注意的是,与功能MRI不同,头部运动在sMRI分析中较少被常规量化,其对sMRI测量的影响也未得到充分研究,尽管先前的研究已发现诱发或测量的运动与sMRI估计偏差存在一定关联。图像预处理软件能够提供自动化QC指标(如FreeSurfer中的“pass/fail”评级),ABCD研究将该指标与原始数据筛查和临床(放射学)评估相结合,为是否纳入分析的图像提供总体建议。然而,在小规模青少年研究中,常规自动化QC措施对sMRI扫描人工(视觉)QC评级所识别伪影的敏感性表现并不一致。

因此,对于ABCD等大规模研究,最终需考虑对后处理sMRI扫描进行人工质量控制(MQC)的附加价值、以及更耗时、更耗资源的人工皮层编辑过程。根据图像质量的不同,手动编辑一次扫描可能需要熟练技术人员30分钟至数天完成。尽管手动编辑在儿童sMRI研究中识别病例-对照差异的效用存疑,但其他研究已经证实了其对准确检测青少年亚诊断水平的细微神经发育差异至关重要。

本研究的主要目标是:(1)揭示图像质量的潜在变化对sMRI测量和临床分析的影响;(2)评估额外自动化和MQC干预对降低质量相关错误风险的作用。这些分析主要基于对ABCD研究基线期(9-10岁)和第二年随访(11-12岁)超过12000张sMRI图像的深入MQC评估,以及手动与自动QC干预的比较。

方法

ABCD研究样本

ABCD研究在美国22个站点招募了11875名基线年龄为9-10岁的参与者。参与者种族构成与美国人口普查数据匹配。主要分析使用了9-10岁儿童的基线数据。研究伦理审查委员会批准文件详见Auchter等人(2018)的研究。所有参与者均签署了书面知情同意书。

磁共振成像采集

如Casey等人(2018)所述,使用3T西门子、飞利浦或GE磁共振设备采集sMRI数据。所有MRI图像均使用标准化参数采集。采用T1加权像(矩阵大小256×256,层数176-225,TR=6.31-2500ms,TE=2-2.9ms,分辨率1×1×1mm)进行分析。西门子与GE设备配备实时运动检测容积导航系统,可自动触发重扫。其余MRI序列细节详见Casey等人的研究。除160名参与者外,其余参与者的最小化预处理T1容积数据均由美国国家数据档案馆(NDA)提供。所有分析中排除需临床会诊的基线MRI扫描(n=451)和那些没有T1数据的个体(n=160)。

图像处理

从ABCD数据库(4.0版)下载11264名参与者的基线T1图像,以及其中6941人的2年随访T1图像。扫描数据经N4偏场校正处理以消除低频强度不均匀性。随后,使用FreeSurfer 7.1(http://surfer.nmr.mgh.harvard.edu/)进行全脑处理和分析。选择该软件基于两点:(1)该软件在现有的数据分析中被广泛使用;(2)支持手动皮层编辑。通过自动分割(Desikan-Killiany图谱)提取68个感兴趣区的皮层厚度、表面积与体积,以及20个皮层下体积。

人工质控(MQC)等级标准建立

在对随机选择的500个扫描结果进行初步审查后,两位具有300例以上儿童MRI扫描编辑经验的专家(J.LR.与K.FD.)以及由其培训的第三位评估者(S.E.)共同确立了四个质量等级标准(1=最佳,4=最差)。该标准基于:(1)先前发表的方法,旨在描述结构MRI扫描中常见的伪影(详见https://surfer.nmr.mgh.harvard.edu/fswiki);(2)根据手动编辑耗时进一步分类扫描质量。分级细则参见https://doi.org/10.5281/zenodo.14872906上的扩展协议。具体评估流程如下:

1、三平面全容积视觉检查:识别信号丢失区(如扩展数据图2)、大囊肿(>1cm³)或导致皮层形态测量系统误差的重大缺陷(重影、环形伪影),分别标注为“信号丢失”、“囊肿”或“4级/不可用”;

2、逐层检查需手动编辑的局部问题:包括误含脑膜/颅骨组织、强度标准化错误、灰质/白质分割错误或非脑回边缘切面导致的皮层体积突变(例如仅单层出现的厚度变化不予标记);

3、具体等级:

1级:无需或仅需约30分钟的手动编辑;

2级:需1-2小时中等程度编辑;

3级:需数小时大量编辑;

4级:无法或不宜编辑。

MQC等级实施

由一名训练有素的评估员(S.E.)对所有处理过的基线扫描进行视觉评估。选择单个评估员是因为,既往研究采用了四个或更多的评分等级,虽然这对于充分捕捉ABCD扫描质量的差异是必要的,但这些研究显示评估者间信度仍不理想。权衡利弊后,本研究选择了使用一名评估员进行基线扫描的评估,但辅以两项客观验证测量:采用基于前期工作的客观自动化质量指标SHN验证人工分级;在2年随访扫描中使用新的评估员重复验证整套方法。

优先评估5105例欧裔参与者扫描数据(用于团队其他研究),其中随机混入373例非欧裔扫描数据。剩余扫描数据按随机顺序进行评估。368例被ABCD NDA标记为“不建议纳入”(因FreeSurfer预处理流自动质控指标和/或原始数据损坏),其余标记为“建议纳入”。人工复核排除了740例>1cm³囊肿者的扫描数据,228例因分割错误以及信号丢失经二次预处理未改善者的数据(图1a)。

分割错误导致组织缺失的特征分析

对228例局部信号丢失扫描数据单独进行1-4级评级,以评估未受分割错误影响的区域质量。由同一名训练有素的评估员在Freeview 7.1.1(https://surfer.nmr.mgh.harvard.edu/fswiki/FreeviewGuide)中测量矢状位、冠状位及轴位范围。假设椭球体模型计算组织缺失体积。采用SPM12的MarsBar构建长方体映射缺失区域,经全脑掩模阈值处理后,在xjView(https://www.alivelearn.net/xjview)示例结构像上显示>10例重叠的缺失区域。

SHN与其他自动化质控指标

采用FreeSurfer皮层分区数据中提取的SHN作为自动化质控指标。SHN反映了曲面细分图像的欧拉数(顶点数+面数-边数),既往研究表明较高的SHN预示较差的人工分级。本研究使用FreeSurfer 7.1计算了每个可用基线及第2年扫描的SHN,并将数据上传至NDA。将基线SHN分为四个层级(A-D),对应人工分级(1-4级)。另采用MRIQC(v24.0.2)软件包获取七项补充指标:信噪比、对比度噪声比、前景/背景能量比、背景峰度、熵聚焦准则、Mortamet质量指数2和白质标准差。分析这些指标与人工分级、SHN的相关性,并比较各分级/层级间的均值差异。

精神病理学测量

本研究采用父母报告的CBCL(儿童行为量表)作为精神病理学测量工具。该量表包含八个子量表(焦虑/抑郁、退缩/抑郁、躯体化、社交、思维、注意力、违规行为和攻击性症状),可分为总分、内化和外化分数。原始分数被转化为按年龄和性别标准化的T分数。

第二年T1加权像复测

本研究检查了所有可用的第二年T1加权图像,以评估基于基线扫描得出的SHN分层的可靠性。ABCD(青少年大脑认知发展研究)数据第4.0版包含7829名参与者的第二年扫描数据。采用与基线扫描相同的方法,本研究对6941名基线扫描符合纳入标准且获得MQC(人工质量控制)评分1-5分的个体进行了FreeSurfer图像处理。FreeSurfer为每例扫描计算了SHN值。此外,本研究半随机选取了1000例第二年扫描数据进行MQC评分,确保其满足:(1)包含不同扫描质量层次(通过选取大致等量的A、B、C、D层级扫描数据实现);(2)磁共振机型(西门子、飞利浦、GE)分布与基线分析样本一致。其中1例扫描因存在大型囊肿被剔除。D层级SHN样本量略少(仅168例),这些扫描均被纳入分析。两名评估人员(E.L.和K.A.K.)在不知晓SHN及其他参与者信息的情况下,以随机顺序对这些扫描进行MQC评分。他们此前已接受过基线扫描评估员(S.E)的培训,因此三位评估员在1000例基线扫描训练集上达到了>0.75的组内相关系数。由于使用多名评估员进行第二年扫描数据的评估,同时为了进一步验证方案的普适性,本研究执行了组内相关系数(ICC)检验。

ABCD扫描的手动编辑

手动编辑对皮层厚度的影响效应值可能相当显著。根据麻省总医院(MGH)儿科患者既往研究数据,本研究对64例8.0-11.0岁临床样本的MRI扫描数据进行手动编辑后,发现68个感兴趣区中有29个出现至少中等程度(d≥0.5)的皮层厚度变化。基于此,使用ABCD数据检测手动编辑对皮层厚度影响,180例扫描样本在相同效应值(d=0.5)下的统计功效可达92%。因此,本研究随机选取了180例已评分的基线扫描数据进行手动编辑,由受过培训的技术员(S.E.)完成。每例结构扫描在Freeview 7.1.1中加载以下体积文件:brainmask、wm、brain.finalsurfs.manedit和T1,以及以下表面文件:rh.pial、rh.white、lh.pial和lh.white。主要采用冠状面视图显示,必要时辅以矢状面和水平面视图。白质边界编辑直接在wm体积文件上使用控制点和擦除工具完成,软脑膜表面编辑在brainmask体积文件上进行。小脑与软脑膜间的误差使用brain.finalsurfs.manedit体积文件进行校正。当FreeSurfer后处理仅残留最小误差(即生成的软脑膜和白质边界更贴近T1图像实际边界)时,视为编辑完成。

MGH扫描的手动编辑

MGH样本作为复制集用于验证手动编辑对皮层MRI指标的影响,并评估此类影响在青春期后期的变化。研究样本、扫描仪特性和编辑方法详见Eryilmaz等人(2018)的研究。简而言之,根据出生日期、视觉检查确认的合格扫描质量(即伪影可通过手动编辑合理修正)及放射学报告排除病理改变,选取2005-2015年间MGH对292例8-17岁个体实施的临床脑MRI扫描。由培训技术员(K.F.D.)按照前述方法进行编辑,使用FreeSurfer 5.0在68个感兴趣区测量编辑前后皮层厚度、体积和表面积的变化。

统计分析

MQC等级的时间稳定性。将无信号丢失或囊肿的基线扫描MQC评分按评估时间顺序分为10个等量组别。首先分析已知影响扫描质量的因素(包括年龄、性别、扫描仪厂商和精神病理学[CBCL])是否随时间变化(时间作为分类或连续变量)。随后通过ANOVA评估MQC平均评分的线性或二次变化,控制其他因素及其与时间/时间平方项的交互作用。

基于表面的sMRI分析。使用FreeSurfer 7.1生成组间和个体内分析的表面图谱。每位参与者的图像经22mm半高全宽平滑处理。组间分析采用包含以下协变量的一般线性模型:年龄、性别、估计颅内体积、研究站点和扫描仪。连续预测变量在分析之前进行z转换。模型评估了MQC等级(1-4分)以及配对比较(1vs2、1vs3、1vs4)对皮层厚度、表面积和体积的线性影响。敏感性分析评估了SHN对这些指标的线性效应,以及控制SHN后MQC的效应(反之亦然)。使用未校正的显著性图(log P值)和效应值图(Cohen's d)对结果进行可视化。

基于ROI的sMRI分析。从FreeSurfer中提取ROI数据后,使用R 4.1.2(https://www.R-project.org/)进行皮层厚度、表面积以及皮层/皮层下体积分析。除非特别说明,否则均使用lme4包v1.1-14运行线性混合效应回归。协变量包括年龄、性别、估计颅内体积(固定效应),站点、扫描仪和ID(随机效应)。基于ROI数量采用FDR(q<0.05)校正多重比较。

SHN分级。通过ROC分析评估SHN识别低质量扫描的敏感性。使用R软件中的pROC包v1.18-5分析基线扫描数据,对比三个分界点:MQC=1 vs 2/3/4;MQC=1/2 vs 3/4;MQC=1/2/3 vs 4。采用Youden指数确定区分高低质量扫描的最佳阈值,据此定义SHN的A/B/C/D层级(A层最佳代表MQC=1,B层最佳代表MQC=2,依此类推)。在敏感性分析中,本研究将存在分割相关组织丢失的扫描纳入,检验阈值是否变化。为了检验可靠性,本研究根据SHN层级对所有可用的第二年扫描数据进行分组,并对其中1000例进行MQC评分(如前所述),评估SHN等级区分MQC水平的敏感性、特异性和准确性。

QC与MRI-临床关联的应用分析。使用线性混合模型分析皮层厚度与年龄、外化精神病理学之间的关联,分析时考虑了低质量扫描在数据中的比例。基于表面和ROI的分析方法同前,但以年龄或CBCL外化分数替代MQC作为预测因子。敏感性分析检查了添加SHN作为预测因子以及剔除皮层体积≥4个标准差离群值的影响。

手动编辑对sMRI指标的影响。对于ABCD基线扫描,使用FreeSurfer中的一般线性模型或R中的配对t检验进行编辑前后皮层厚度、表面积和体积的个体内对比。敏感性分析显示,年龄、性别、扫描仪和CBCL外化症状对编辑前后变化无显著影响,故不纳入协变量。ROI分析采用FDR(q<0.05)校正。MGH扫描分析聚焦于ABCD队列中显示手动编辑对皮层厚度有显著效应的脑区,通过ANOVA评估这些区域编辑前后变化幅度和方差随年龄组(8-10、11-12、13-14、15-17岁)的变化。

结果

基线扫描中图像质量的差异

共计10295个基线期(9-10岁)的T1扫描数据进行了MQC评分(图1a)。通过多平面逐层评估整个T1体积的整体外观,评分分为“1”(仅需训练有素的技术人员进行最小程度手动编辑,n=4630,45.0%)、“2”(需中等程度编辑,n=4063,39.5%)、“3”(需大量编辑,n=1383,13.4%)或“4”(不可用,n=219,2.1%)(图1b,c)。本研究已将这些评分上传至美国国家心理健康研究所(NIMH)数据档案库(NDA)。

图1.MQC评估流程。

MQC评分分布在扫描评估的时间序列中保持稳定,在纳入228个存在分割错误的扫描后结果依然一致。除325例扫描外,其余扫描均被标定为推荐使用;然而,这325例扫描在较高MQC评分组中占比较大(其中包括0.4%的MQC=1扫描,1.4%的MQC=2扫描,10.6%的MQC=3扫描和48.9%的MQC=4扫描)。

根据MQC组别划分的人口统计学、临床及扫描仪特性见附表1a。高质量扫描对象往往年龄稍大、女性居多,且在儿童行为量表(CBCL)中表现出较少的外化精神病理学症状和总体症状。扫描质量也因扫描仪制造商不同而有所差异;值得注意的是,未进行实时运动校正的飞利浦磁共振设备图像平均MQC评分(1.34,95%置信区间为1.29-1.38)优于具备该功能的西门子(1.71,1.69-1.73)和GE设备(1.96,1.93-1.99)(控制年龄、性别及精神病理学因素后,所有P<0.0001)。

图像质量对皮层测量的影响

皮层厚度、表面积和体积的自动化测量常用于识别病例-对照差异或作为精神疾病神经影像研究中维度测量(如精神病理学)的预测因子。本研究随后评估了MQC评分与FreeSurfer测定的这些指标方差之间的关联程度。MQC评分与大部分皮层厚度的减少呈线性相关(图2a),与外侧/上部区域皮层表面积的增加以及内侧/下部区域的表面积减少相关(图2b),对皮层体积的影响则呈现异质性(图2c)。最佳质量(MQC=1)与较低质量(MQC=2、3、4)图像的成对比较显示,随着MQC评分降低,对各结构指标的影响逐渐增强,在多个皮层区域观察到中度至强效应量。例如,MQC=1与MQC=2、3、4之间的皮层厚度比较,分别有39、55和61个ROI(共68个)存在统计学显著差异(错误发现率q<0.05)。质量控制不佳对厚度影响较强的区域既包含又超越了先前一项青少年和成人参与者(n=1840)小型研究发现的类似效应区域,且方向一致(例如,多个外侧ROI厚度增加,而内侧枕叶和后扣带回皮层厚度减少)。基于MQC评分的皮层下体积也存在显著差异,较高评分通常对应较小体积。

图2.MQC评分与sMRI指标的关联(n=10261)。

本研究随后比较了其他自动化质量控制指标(包括表面孔洞数SHN)与人工(MQC)评分的性能。SHN随MQC评分同步增加(rho=0.59;所有MQC层级间SHN均值差异均显著,P≤1.02×10−121)。SHN与皮层厚度、表面积以及体积差异的线性关联(图3a-c)与MQC结果高度相似(图2)。SHN在预测MQC评分方面优于所有其他自动化QC指标,其与其他评分的关联模式与MQC相似。SHN值在MQC组别中的分布随时间评估序列保持稳定。

图3.SHN对sMRI指标的影响以及结合MQC评分的SHN层级划分(n=10261)。

接下来,本研究检验了将SHN作为额外协变量纳入分析是否能减轻扫描质量差异对sMRI指标的影响(定义为MQC=1与MQC=2、3、4之间的测量差异)(图3d-f)。根据具体比较组别(MQC=1 vs 2、3或4),控制SHN可使MQC相关皮层厚度差异的效应量(Cohen's d)在ROI范围内降低42%至59%。在皮层表面积(39%-57%)和体积(16%-62%)上也呈现类似的降幅。此外,在控制SHN前显示皮层厚度差异的39个ROI中,有17个在控制SHN后失去显著性,而另有1个ROI出现显著差异。

然后,结合SHN数据与MQC评分开发并评估了分层自动化sMRI质量控制评估标准的可靠性。该标准将扫描分为四个级别,但完全基于SHN的自动化阈值,因此即使在没有人工质控的情况下也能应用。图3g展示了各MQC等级的SHN分布。通过受试者工作特征(ROC)曲线分析,得出了三个优化SHN阈值以筛除低质量扫描(图3h)。最严格阈值(SHN=29.5)排除了MQC≥2的扫描(灵敏度=0.81;图3i);次严格阈值(SHN=36.5)排除了MQC≥3的扫描(灵敏度=0.81;图3j);最宽松阈值(SHN=62.5)排除了MQC=4的扫描(灵敏度=0.93;图3k)。

这三个阈值定义了四个SHN组(A-D级),其与sMRI指标的线性效应相关。SHN层级的线性效应与MQC等级(图2)以及连续SHN值(图3a-c)的效应高度近似。敏感性分析显示,纳入FreeSurfer分割错误的扫描(n=228)未显著改变SHN在MQC评分中的分布或ROC分析中的SHN层级最优分界。

第二年扫描中图像质量效应的复现

对ABCD研究第二年扫描的评估使我们能验证基线SHN层级的可靠性。排除不符合基线分析标准的扫描后,共有6941例经最小化预处理的第二年T1数据可从ABCD数据档案库获取,这些扫描经FreeSurfer预处理并提取SHN值。值得注意的是,第二年扫描整体质量优于基线期,83.9%属于SHN A级(基线期为57.3%)。从预处理的第二年扫描中,半随机选取了1000例(平衡SHN层级和扫描仪厂商)进行MQC评分。结果显示,SHN再次与MQC评分同步增加(rho=0.58)。SHN层级能有效过滤高MQC评分扫描,灵敏度范围为0.87至1.00。

应用sMRI分析中的误差风险

sMRI测量常被用于探索与临床和发育数据的关联。ABCD研究的一个主要目标是通过纵向个体影像与临床测量关联,阐明精神疾病风险的相关轨迹。但鉴于低质量图像可能会导致青少年群体中的sMRI测量产生偏差,本研究随后考察了未校正的扫描质量变异可能对MRI-临床指标关联产生的影响。

作为阳性对照,本研究首先考虑了年龄与皮层厚度之间的已知关联。青春期大部分皮层会变薄,这在规模较小但质控严格的样本中已有体现。本研究将SHN校正的MQC=1样本(n=4617)与未校正全样本(n=10257)中的年龄-厚度效应进行比较。对于未校正全样本,即使是在9.0-10.9岁的横断面数据中,仍能观察到显著的年龄-厚度关系(图4a),但年龄对厚度的效应量远小于QC评分的影响(图2a)。尽管这些效应较小,但年龄-厚度效应仍能在较小的真实数据样本中检测到:68个皮层ROI中有59个存在显著负相关(FDR q<0.05)。值得注意的是,部分ROI在(更大的)未校正全样本中未显示显著的年龄-厚度差异,但经SHN校正后重新获得显著性。因此,纳入SHN有助于减少在未校正全样本中可能出现的II型错误(即假阴性),尽管只有少数区域受到影响。

图4.QC对sMRI数据应用分析的影响。

图4b同样展示了未进行质量校正图像可能导致的II型错误风险,该图绘制了所有68个ROI中年龄-皮层厚度关系的效应值。为了便于不同MQC等级间的比较,ROI按照1级扫描中的效应值大小进行从左到右的排序。随着低质量图像(依次纳入2级、3级、4级)被逐步加入分析,效应值普遍减小。这些结果与先前一项较小样本量(n=1598,平均年龄=15.0岁)的研究相一致,该研究发现低质量扫描会削弱年龄对皮层厚度的影响效应。

接下来,本研究考察了维度化精神病理学特征与皮层体积之间更具探索性的关系。多项研究(包括使用ABCD数据的研究)报告了CBCL量表分数与皮层体积呈负相关。本研究发现,在未进行质量校正的全样本(n=10257)中,CBCL外化症状得分(CBCLext)与整个皮层体积呈现广泛的负相关关系(图4c),尽管其效应量小于年龄-厚度关系的效应量(图4a)。在这个更大的样本中,43个ROI显示出CBCLext与体积之间存在显著关联(FDR q<0.05)(图4d)。然而,在真实数据(MQC=1)样本(n=4617)中出现了截然不同的模式,其中只有三个脑区表现出显著的CBCLext-体积关联。敏感性分析表明,无论是全样本还是真实数据样本,排除皮层体积测量值≥均值4个标准差(n=374名受试者)的ROI数据对显著区域数量的影响甚微。

为了理解全样本与真实样本间显著ROI的差异,本研究再次采用逐步分析策略调整质量控制严格程度。这些分析揭示了质量控制与统计效能之间的交互作用(图5)。解析这两个因素的关键在于:在具有足够统计效能的分析中,效应量不应随样本量的增加而增大。然而,纳入低质量图像导致了多个脑区的CBCLext-体积效应值显著增大。随着扫描质量的下降,体积测量的变异性(68个ROI的平均变异系数CV)从MQC=1时的0.15升至MQC=4时的0.24。该变异增幅是CBCLext变异增幅(MQC=1时CV=0.22,MQC=4时CV=0.24)的4倍以上,表明效应值增大源于扫描质量而非临床异质性。即使在仅纳入MQC=2图像时,某些脑区(如右侧颞中回、双侧岛叶和双侧额上回皮层)效应量也明显增大。

图5.逐步严格的QC对外化症状-体积关系统计显著性与效应值的影响。

手动编辑对sMRI测量的影响

图像重建误差会影响sMRI测量,并且可能因头动等伪影而加剧。这些误差包括颅骨剥离错误、分割错误、强度标准化错误、软脑膜表面定位错误和拓扑缺陷。在FreeSurfer中可通过手动编辑脑区和白质掩模体素、流域阈值以及添加控制点来进行校正。在这里,本研究考察了在相对较高图像质量的扫描中,手动编辑对sMRI指标的影响,以评估是否只有图像质量较好的扫描数据才适合进行手动校正。

共随机选取了150例MQC=1和30例MQC=2的基线扫描数据进行手动编辑。编辑前后皮层测量值变化的方向与效应值如图6、图7所示。手动编辑对皮层厚度和体积的影响最明显,且二者均有减小的趋势。这些变化在40个区域的皮层厚度(Cohen's d范围0.16-0.92)和28个区域的皮层体积(Cohen's d范围0.18-0.73)上达到了统计显著性(FDR q<0.05)。多个区域显示,在MQC=2的扫描中,手动编辑对皮层厚度和体积的影响强于MQC=1的扫描(如双侧海马旁回、尾侧额中回和上顶叶)。此外,体积图谱显示手动编辑对上矢状窦区域影响显著,尤其是对上顶叶皮层的影响(图7d)。在应用分析中,本研究考察了皮层编辑对皮层厚度与年龄关系效应大小的影响程度。在所有68个皮层ROI中,相较于编辑前的图像,编辑后的图像效应值略有增强(P=0.024)。

图6.手动编辑对sMRI指标的影响(n=180)。

图7.手动编辑对sMRI指标的影响,按MQC等级分层。

最后为评估皮层编辑效应的可重复性和发育特异性,本研究将ABCD结果与292名非重叠8-18岁青少年队列(MGH)进行了比较。在ABCD中表现出手动编辑对皮层厚度有显著影响的40个区域中,有18个区域在MGH MRI队列中呈现相同方向的显著性变化(15个达到FDR显著性,Cohen's d范围为0.12-0.98)。值得注意的是,在这18个区域中,8-10岁组编辑前后的厚度差异大于其他年龄组(11-12、13-14和15-17岁;总体F=8.49,P=0.0001,事后比较均P≤0.0002)。同样,个体水平编辑前后厚度变化的标准误在8-10岁组也是最大的(总体F=64.53,P=2.25×10−17,8-10岁组与其他组比较均P≤6.53×10−10)。手动编辑对年龄-皮层厚度关系的影响存在年龄组间差异(F=21.54,P=3.88×10−12),其中8-10岁组(d=−1.18)的编辑效应强于其他各年龄组(均P≤7.73×10−9)。

结论

本研究结果揭示了大型儿童脑部MRI队列中普遍存在且复杂的扫描质量差异,这些差异可能需要多管齐下的干预措施以避免结构MRI(sMRI)分析中的误差。基于目前最全面收集的儿童青少年sMRI数据库,本研究使用人工质量检查(MQC)对高质量扫描数据与存在不同程度伪影的数据进行区分。研究发现,纳入低质量扫描数据会导致广泛使用的sMRI指标(如皮层厚度和表面积)产生显著偏差,但通过引入SHN(一种能解释sMRI测量中质量相关变异的拓扑复杂度自动测量指标)能够有效减小这些偏差。然而,在将sMRI测量与临床数据相关联的应用分析中,若包含低质量扫描数据,SHN仍无法避免大多数I型和II型错误。此外,即使是在最高质量的扫描数据中,手动编辑也会导致皮层厚度和表面积的显著变化。在某些区域中,这些变化方向甚至与控制SHN或MQC时观察到的趋势相反,并且这一现象在非重叠临床队列中得到了复现。这些结果挑战了“大样本量本身就能提高脑-行为关系检测灵敏度或降低图像质量差异对误差风险影响”的传统认知。总体而言,本研究不仅对健康/异常脑发育轨迹研究具有启示意义,也对将结构指标与临床测量相关联的应用分析具有重要价值。

参考文献:Elyounssi, S., Kunitoki, K., Clauss, J.A. et al. Addressing artifactual bias in large, automated MRI analyses of brain development. Nat Neurosci (2025). https://doi.org/10.1038/s41593-025-01990-7

小伙伴们关注茗创科技,将第一时间收到精彩内容推送哦~


网站公告

今日签到

点亮在社区的每一天
去签到