机器学习+EEG熵进行双相情感障碍诊断的综合评估

发布于:2025-04-07 ⋅ 阅读:(32) ⋅ 点赞:(0)

摘要

双相情感障碍(BD)是一种常见的精神疾病,特点是躁狂或轻躁狂与抑郁交替发作,其严重程度各异,导致准确及时的诊断具有一定的挑战性。EEG的非线性特征被认为是精神障碍的生物标志物,能够反映大脑的非线性动态。尽管已有研究证明EEG功率谱密度在BD患者中存在显著变化,但熵度量作为一种互补的非线性方法,尚未得到充分探索。本研究对各种熵度量进行了全面评估,包括近似熵、样本熵、排列熵(PermEn)、模糊熵(FuzzyEn)和散布熵(DispEn)。此外,考虑到信号在不同尺度上的波动复杂性,本研究还评估了四种多尺度熵度量,以探讨其在区分BD患者与健康对照组(HCs)方面的有效性。本研究使用了60名个体的静息态EEG数据,其中包括30名BD患者(15名女性,平均年龄=37.33,标准差=8.83)和30名HC参与者(13名女性,平均年龄=35.73,标准差=9.01),涵盖了闭眼(EC)和睁眼(EO)两种条件。在对原始EEG数据进行预处理后,分别计算了五个大脑皮层区域的五种基本熵和四种多尺度熵。然后应用统计分析和机器学习方法来评估两组之间熵度量的差异。研究结果显示,与HC组相比,BD患者在所有基本熵度量中均表现出更高的额叶和中央脑区不规则性,其中散布熵和模糊熵的变化尤为显著。在多尺度熵分析中,前脑区β频段(近似尺度因子4)的结果最为显著,尤其是多尺度散布熵(MDE)。此外,在EO条件下,MDE度量的分类性能最佳,准确率达到95%,特异性为93.33%,敏感性为96.66%。本研究强调了熵度量的变化(特别是额叶脑区的MDE变化)作为双相情感障碍及相关障碍的敏感生物标志物的潜力。

引言

精神障碍通常表现为个体在认知、情绪或行为上的显著紊乱,表明生物、心理或发育过程中的功能失调。精神障碍不仅大大增加了全球疾病负担,而且极大地影响了个体的社会和经济福祉。精神障碍有许多类型,包括双相情感障碍(BDs),这是一种慢性疾病,由双相I型和双相II型障碍组成。双相I型障碍以躁狂发作为特征,而双相II型障碍则涉及轻躁狂发作和重度抑郁发作。全球双相I型障碍的终生患病率约为0.6-1.0%,双相II型障碍约为0.4-1.1%。通常,精神障碍通过对行为的仔细评估和对异常体验的主观报告来诊断。这一过程会将患者分类为不同的组别,然而这种分类可能会掩盖患者之间的显著异质性。BD是精神疾病中难以准确诊断的典型例子之一。

在过去的十年中,精神障碍的自动识别引起了神经科学和工程学界的广泛关注。在众多神经影像工具中,脑电图(EEG)作为一种非侵入性、成本效益高且具有高时间分辨率的方法脱颖而出,因此在临床应用方面具有很大的潜力。此外,机器学习方法在检测神经和精神疾病方面也越来越受欢迎。

虽然有一些研究观察到了BD患者静息态EEG的变化,但其结果存在差异。一些研究检测了BD个体的线性功率谱密度(PSD)的变化。例如,一项研究显示,与健康对照组(HC)相比,处于稳定期的BD个体在所有五个频段(δ、θ、α、β和γ)中的PSD显著增加,尤其是在与视觉空间处理相关的脑区。在睁眼(EO)条件下,右颞区的θ功率和左枕区的β功率增幅最为显著。此外,Khaleghi等人(2019)比较了BD(包括轻躁狂和抑郁发作)组和HC组之间的频谱功率,发现BD患者在额中央、中颞和右顶叶脑区的α功率更高。相比之下,一项综合性研究考察了各种神经和精神疾病,结果发现BD抑郁发作患者的δ、θ和α功率下降,同时前脑β功率增加。Kam等人(2013)的研究发现BD患者的高频段(β和γ)功率有所增加,但两组之间并未观察到显著差异。另一项早期研究发现,BD躁狂发作与左额叶α活动降低有关。Clementz等人(1994)报告称,BD患者的δ和θ活动增加,同时α活动减少。此外,处于稳定期的BD个体的α功率显著低于HC组。Painold等人(2014)发现,与BD抑郁发作患者相比,躁狂发作组的θ活动较低,而β-2(18.5-21.0Hz)和β-3(21.5-30.0Hz)频段的活动较高。值得注意的是,他们的研究使用了精神药物,这可能会影响结果的解释。

以往的研究强调,非线性动态通常比线性方法在理解脑疾病方面更有效。使用复杂性度量(如基于熵的方法),可以评估时间序列中的随机性或不规则性,从而使我们能够更全面地建模大脑活动。基于熵的方法已成为量化EEG信号复杂性的强大工具,为神经活动的动态特性提供了深刻见解。这些方法使研究人员能够评估神经皮层的复杂性,而神经皮层复杂性已经被证明反映了大脑的生理和病理状态。例如,先前的研究表明,熵度量(包括近似熵(ApEn)、样本熵(SampEn)和排列熵(PermEn))在检测注意力缺陷多动障碍(ADHD)儿童在使用哌甲酯治疗后的神经皮层复杂性水平降低方面具有实用价值。此外,有研究通过排列熵度量阐明了音乐经验在增强神经声音编码表现中的作用。将这些方法纳入EEG分析可以增强我们在各种背景下解释熵值功能意义的能力。

一些研究考虑使用非线性特征(包括熵)来区分BD和HC个体,主要采用机器学习方法。Khaleghi等人(2019)还使用了香农熵,结果显示BD组的δ、α和γ熵显著更高。该研究使用k近邻(KNN)(K=3)和所有α特征(熵和功率谱密度(PSD))在区分BD和HC个体方面达到了95.8%的准确率。此外,Mateo-Sotos等人(2022)使用了几种非线性特征,包括近似熵(ApEn)、Higuchi分形维数(HFD)、去趋势波动分析和Hurst指数,并结合线性PSD,采用极端梯度提升分类器取得了94%的准确率。另一项研究发现,BD组的HFD和样本熵(SampEn)值均高于HC组。该研究报告的准确率在90.24%到97.56%之间,其中使用样本熵特征时的性能最佳。Wang等人(2023)使用功率、均值、方差、偏度和香农熵特征对BD和HC个体进行分类,使用特征选择和自组织映射方法达到了97.62%的准确率。此外,还有一项研究采用了几种简单的非线性方法,包括三种分形特征(Petrosian分形维数、Katz和HFD)和三种熵度量(样本熵、排列熵和多尺度样本熵(MSE))。研究结果发现,当使用多层感知器神经网络时,熵特征产生了最佳分类结果,准确率高达95.74%。然而,该研究不仅未能将每个尺度因子下的MSE值与相应的频率范围联系起来,而且也没有包含最新的熵度量。最近,Hwang等人(2024)使用MSE进行评估发现,与HC组相比,BD组的双侧额叶和中央叶在某些尺度因子(13-40)上的MSE值更高。

总的来说,最新的综述文章报告了使用EEG信号自动诊断双相情感障碍(BD)的准确率约为90%。虽然这些进展值得关注,但它们作为临床工具的应用仍不确定,需要进一步的研究以获得临床界的广泛接受。许多先前的研究侧重于区分BD与其他精神障碍,但并未纳入健康对照组(HC)。大多数技术和研究侧重于机器学习结果,而没有对最新特征进行统计评估。此外,尽管基于熵的方法已用于EEG分析,但尚无研究专门针对抑郁症(包括BD)应用最新的熵度量。为此,基于BD文献中的空白,本研究旨在对各种熵度量进行全面评估,包括已建立的熵以及最近引入的多尺度散布熵(MDE),它通过估计不同尺度上的熵来捕捉EEG时间序列的复杂性。在使用统计方法评估这些特征后,本研究使用了多种分类器,如决策树(DT)、K近邻(KNN)和支持向量机(SVM),以评估研究结果的有效性,并确定其在临床实践中的实用性。

材料与方法

参与者

本研究共纳入了60名参与者,其中包括30名双相情感障碍(BD)患者(15名女性,平均年龄=37.33,标准差=8.83)和30名健康对照组(HC)参与者(13名女性,平均年龄=35.73,标准差=9.01)。纳入标准为参与者年龄在18至60岁之间,且无精神药物使用史。所有参与者均未报告有头部创伤、脑损伤或神经系统疾病史。BD患者的诊断基于DSM-V标准,并通过经验丰富的精神科医生进行访谈确认。所有患者完成了一系列自我评估量表,包括贝克抑郁量表-II(BDI-II)和贝克焦虑量表(BAI)。BDI-II得分≥29分表示中度至重度抑郁。值得一提的是,所有HC参与者均使用症状自评量表-90(SCL-90)进行评估,未发现明显的心理障碍。所有参与者在研究开始前都签署了知情同意书。

EEG数据记录

使用Mitsar-EEG-201设备(Mitsar Ltd.)采集闭眼(EC)和睁眼(EO)条件下的静息态EEG数据。使用了19个Ag/AgCl电极,包括额区(FP1、FP2、F7、F8、F3、F4和Fz)、中央(C3、C4和Cz)、顶区(P3、P4和Pz)、颞区(T7、T8、T5和T6)以及枕区(O1和O2)。这些电极按照国际10-20系统放置。EEG信号的采样率(Fs)为500Hz,参考电极为双侧乳突参考。在记录过程中,使用导电凝胶将皮肤阻抗保持在5KΩ以下。

EEG数据预处理

在本研究中,使用运行于MATLAB 2024a的EEGLAB工具箱进行预处理。首先,将所有通道降采样至250Hz,以减少计算时间,同时保留EEG信号中的关键信息。接下来,使用两个独立的有限脉冲响应(FIR)滤波器对数据进行滤波。应用截止频率为0.5Hz的高通滤波器以去除低频漂移和基线波动。此外,使用一个截止频率为45Hz的低通滤波器来抑制高频噪声,包括肌肉伪迹和电干扰。值得注意的是,这两个FIR滤波器均应用了零相移。在排除噪声通道后,对数据集应用了共同平均参考(CAR)。此外,对所有数据通道进行了目视检查,以去除和排除伪迹时间点,特别是与身体运动相关的伪迹。然后使用逻辑Infomax ICA算法进行独立成分分析(ICA),以将神经EEG数据与非神经成分(如眼动和肌肉伪迹)分离。被移除的通道使用球面样条插值法进行插值。最后,将连续的EEG数据分割为4s的时段以进行进一步分析。选择此时长是为了平衡关键考虑因素,包括解决EEG信号固有的非平稳性,并确保时段足够长以在多尺度熵分析中产生可靠的结果。

熵方法

熵是一种反映规律性或随机程度的指标,熵值越高表示序列越复杂或越无序,而较低的值则表示序列具有更高的规律性或结构性。在这里,本研究选择了五种基本的熵度量,包括近似熵(ApEn)、样本熵(SampEn)、排列熵(PermEn)、模糊熵(FuzzyEn)和散布熵(DispEn),以及四种多尺度熵度量,即多尺度近似熵(MAE)、多尺度排列熵(MPE)、多尺度样本熵(MSE)和多尺度散布熵(MDE)。本研究的选择基于先前EEG研究中的发现,特别是与双相情感障碍(BD)相关的研究成果,以及最新的方法和已建立的熵度量。

统计分析与分类

由于数据不符合正态分布,采用Wilcoxon秩和检验(p<0.05)评估健康个体与BD患者之间的差异。值得注意的是,本研究使用了单样本Kolmogorov-Smirnov检验来检验正态性。考虑到多重比较的影响,本研究对所有比较应用了错误发现率(FDR)校正。此外,使用Hedge’s g作为效应量度量,这对于处理小样本量特别有用。在提取非线性特征(包括基本熵和多尺度熵)后,应用互信息(MI)作为基于滤波器的特征选择方法,以确定最小特征集。MI通过测量每个特征与目标变量之间的依赖关系来选择最相关的特征,从而通过仅保留最具信息量的特征来降低数据维度。这种方法减少了计算时间,简化了模型,并且提高了预测准确性。值得注意的是,所选特征的数量是通过反复试验来确定的,以最小化分类错误。然后,使用多种分类器(包括决策树(DT)、KNN和支持向量机(SVM))来评估所选特征。本研究采用留一法交叉验证(LOSO-CV)来提高结果的可靠性。最后,使用准确率、特异性、敏感性和F1分数等指标评估模型的性能。图1展示了所提方法的框架。

图1.该方法框架包括诊断访谈、脑电记录与预处理、熵特征提取、统计分析和分类。

结果

在本研究中,所有分析(包括统计和机器学习程序)均使用MATLAB 2024a在一台配备16GB内存和2.50GHz Intel Core i5-10300H处理器的Windows PC上完成。熵度量使用EntropyHub工具箱和MATLAB脚本计算,相关代码可在https://github.com/HamedAzami上获取。

熵度量参数

对于近似熵(ApEn)、样本熵(SampEn)和模糊熵(FuzzyEn),必须谨慎选择三个关键参数——时延d、阈值r和嵌入维数m。将时延d设置为1,以避免d较大(d>1)时可能发生的混叠和频率信息丢失。设置d=1简化了分析,并与先前关于单变量熵方法的研究一致。阈值参数r设置为EEG信号标准差的0.2倍。选择该值是为了在对数似然估计的准确性和保留信号信息之间取得平衡。当r值过小时,条件概率估计变得不可靠。相反,建议使用较大的r值以减轻噪声的影响,但r值过大则会导致数据细节丢失。因此,需要在较小和较大的r值之间找到最佳平衡。在文献中,一种常见的方法是将r定义为原始信号标准差的常数因子(通常在0.1到0.3之间)。嵌入维数m(表示比较的序列长度)设置为2。这一选择基于文献中的建议,因为较大的m值需要更多的数据点来进行可靠计算,这对于生理数据来说可能具有挑战性。对于模糊熵(FuzzyEn),模糊幂参数(影响指数函数边界的梯度)设置为默认值2,这是文献中已验证的标准。对于排列熵(PermEn),考虑了两个主要参数:嵌入维数m和时延d。与其他方法一样,选择d=1以防止频率失真。嵌入维数m设置为3,旨在平衡计算效率和信号复杂度的分辨率。为了确保统计结果的可靠性,一般建议(m+1)!≪N,其中N表示数据点的数量。较大的m值提供了更详细的信息,但需要更多的数据点并增加计算需求。选择m=3可以确保在不过度增加计算成本的情况下提供足够的状态多样性,这与现有研究一致。散布熵(DispEn)依赖于三个参数:嵌入维数m、类别数c和时延d。对于散布熵,本研究选择m=2、c=6和d=1。这种组合符合散布熵在类别数或嵌入维数较小时需要较少的数据点以达到其最大值的原理。为了达到散布熵的最大值,至少需要ln(cm)个数据点,在选择参数时,确保散布熵在保持计算效率的同时,仍能有效地区分信号动态中的细微差异。

对于多尺度近似熵(MAE)、多尺度排列熵(MPE)、多尺度样本熵(MSE)和多尺度散布熵(MDE),为保持一致性,保留了它们各自单尺度方法中的参数。具体而言,对于MAE和MSE,r设置为信号时间序列标准差的0.2倍,并且m=2用于基础的ApEn和SampEn计算。对于MPE,m和d分别设置为3和1。对于MDE,使用m=2、c=6和d=1,与DispEn的设置一致。同样地,对于MAE和MPE,时延设置为d=1,嵌入维数分别设置为m=2和m=3。此外,选择尺度因子30以覆盖所有多尺度熵的整个频率范围(尺度因子τ与Fs/(2×τ)相关),使这些度量能够在不同尺度上表征快慢动态。

各脑区的基本熵

为了确定在比较两组时每个脑区的重要性,本研究将EEG电极划分为五个脑叶,包括额叶(Fp1、Fp2、F7、F8、F3、F4、Fz)、中央(C3、C4、Cz)、顶叶(P3、P4、Pz)、颞叶(T3、T4、T5、T6)和枕叶(O1、O2)。本研究计算了每个区域的中值以处理噪声段,并从这些选定区域提取特征。图2和图3分别展示了闭眼(EC)和睁眼(EO)条件下每个基本熵度量在五个指定脑区中的值。此外,表1展示了在五个脑区中,经过FDR校正后,HC组和BD组在EC和EO条件下的统计比较结果。可以看出,BD组在大多数脑区中具有较高的基本熵值(除了在EO条件下,颞叶、顶叶和枕叶区域的排列熵(PermEn))。进一步分析发现,大多数变化主要出现在额叶和中央脑区。统计结果显示,最显著的结果(基于Hedges’ g效应量)位于额叶和中央脑区,并与散布熵(DispEn)和模糊熵(FuzzyEn)相关。值得注意的是,在EC和EO条件下,排列熵(PermEn)均未观察到显著差异,因此该度量被排除在进一步分析之外。为了更清晰地展示,两组z值比较的地形图如图4所示,其中顶部为EC条件,底部为EO条件。该图清楚地显示,最显著的结果属于FuzzyEn和DispEn,从额叶延伸至顶叶脑区,并且在EO条件下观察到的结果最显著。

表1.在五个脑区中,HC组和BD组在EC和EO条件下的统计比较结果。

图2.在EC条件下,所有个体在五个特定脑区的基本熵值。

图3.在EO条件下,所有个体在五个特定脑区的基本熵值。

图4.两组之间z值地形图的比较。

各脑区的多尺度熵

与上一节类似,本研究计算了五个脑区中每个区域的多尺度近似熵(MAE)、多尺度排列熵(MPE)、多尺度样本熵(MSE)和多尺度散布熵(MDE)。图5展示了在闭眼(EC)和睁眼(EO)条件下,HC组和BD组参与者在不同脑区中MAE和MPE的均值和标准差随尺度因子的变化情况。值得注意的是,在EO条件下,两组的MAE和MPE最显著的差异位于额叶和中央脑区,且这些差异与较低的尺度因子(对应于β频段)相关。同样,图6展示了在EC和EO条件下,HC组和BD组参与者在每个脑区中MSE和MDE的均值和标准差随尺度因子的变化。值得注意的是,在MDE的EO条件下,两组之间最显著的差异位于额叶(校正后p=6.99e−08,BD>HC)和中央脑区(校正后p=8.60e−08,BD>HC),且尺度因子=4(对应于β频段)。此外,可以观察到,MSE和MDE在较高的尺度因子下都存在显著差异,特别是在EO条件下的额叶和中央脑区(额叶MDE:校正后p=1.07e−07,BD<HC;中央MDE:校正后p=2.26e−07,BD<HC;额叶MSE:校正后p=1.22e−07,BD<HC;中央MSE:校正后p=2.26e−07,BD<HC)。

图5.在闭眼(EC)和睁眼(EO)条件下,HC组和BD组在不同脑区中MAE和MPE的均值和标准差随尺度因子的变化情况。

图6.在EC和EO条件下,HC组和BD组在不同脑区中MSE和MDE的均值和标准差随尺度因子的变化情况。

机器学习

为了更好地评估每种熵度量(包括基本熵和多尺度熵),本研究使用留一受试者交叉验证(LOSO-CV)和几种传统分类器分别评估每种熵度量在BD中的效用。为了实现这一目标,本研究选择一名受试者作为测试数据,并使用其余受试者(共59名)训练每个分类器。此过程对每名受试者重复进行,以确保评估的稳健性。表2展示了每种熵度量的性能评估指标,包括敏感性、特异性、F1分数和准确率。从表中可以看出,使用支持向量机(SVM)分类器和MDE特征在EO条件下获得了区分BD和HC个体的最佳分类结果(准确率=95%,敏感性=96.66%,特异性=93.33%,F1分数=0.95)。值得注意的是,EC条件下的最佳分类结果是使用FuzzyEn度量和SVM分类器获得的(准确率=88.33%,敏感性=86.66%,特异性=90%,F1分数=0.88)。

表2.EC和EO条件下的分类结果,最佳结果以粗体突出显示。

结论

本研究首次全面探讨了常规熵和多尺度熵度量在非线性分析中的应用,并通过统计分析和机器学习技术对五个脑区的熵度量进行了评估。研究结果显示,双相情感障碍(BD)患者的基本熵度量值显著高于HC参与者。在EC和EO条件下,两组在散布熵(DispEn)和模糊熵(FuzzyEn)上的差异最为显著,并分别位于额叶和中央脑区。此外,与HC个体相比,BD患者在较低尺度因子(对应于β频段)下的熵值显著增加,而在较高尺度因子(对应于θ频段)下的熵值显著降低,尤其是在额叶和中央区域。值得注意的是,EO条件下的差异最为显著。机器学习结果进一步支持了熵度量(尤其是多尺度散布熵(MDE))作为双相情感障碍及相关障碍潜在生物标志物的价值。因此,本研究为使用熵度量提高双相情感障碍及相关障碍的诊断准确性提供了重要的见解。为了增强研究方法的稳健性,未来的研究应考虑更多种类的熵度量方法,如香农熵、对数能量熵、谱熵、改进的多尺度样本熵和多尺度波动散布熵等,这些方法能够提供互补的见解,从而提升分析的全面性。

参考文献:H. Bagheri et al., “A Comprehensive Assessment of EEG Entropy Measures for Bipolar Disorder Diagnosis Using Machine Learning,” in IEEE Access, vol. 13, pp. 26527-26541, 2025, doi: 10.1109/ACCESS.2025.3539323.

小伙伴们关注茗创科技,将第一时间收到精彩内容推送哦~