基于Transformer的零校准SSVEP识别模型
导读
稳态视觉诱发电位(Steady-State Visual Evoked Potential, SSVEP)是一种广泛应用于脑机接口(Brain-Computer Interface, BCI)系统的脑电模态信号。然而,传统的SSVEP分类方法依赖于个体特定的校准数据,难以满足即插即用的需求。为此,西南科技大学张杨松教授团队与南洋理工大学关存太教授、电子科技大学徐鹏教授合作,提出了一种基于Transformer架构的SSVEP分类模型——SSVEPformer,并进一步扩展为FB-SSVEPformer,以提升识别性能。实验结果表明,该模型在两个公开数据集上的分类准确率和信息传输率均优于现有方法,为BCI系统的跨被试应用提供了新的可能性。SSVEPformer的研究相关成果发表在Neural Networks上,目前引用量已超过60次。
代码链接: https://github.com/YuDongPan/DL_Classifier
1. 研究背景
1.1 SSVEP与脑机接口(BCI)
SSVEP是由周期性视觉刺激(如闪烁光)在枕叶视觉皮层诱发的节律性脑电信号,其频率成分与刺激频率及其谐波严格同步。这种特性使其成为构建高信息传输率(Information Transfer Rate, ITR)BCI系统的理想选择,典型应用包括字符拼写系统和智能轮椅控制1。
当前SSVEP-BCI面临的核心挑战在于跨被试泛化性
。传统方法依赖个体校准数据构建空间滤波器(如TRCA),但数据采集耗时且易受个体差异影响。根据国际BCI竞赛数据集统计,跨被试场景下传统方法的平均准确率较个体内场景下降约20%。
1.2 SSVEP分类算法的演进
1.2.1 无监督算法
- 功率谱密度分析(Power Spectrum Density Analysis, PSDA)2:基于SSVEP频率等同于刺激频率的先验知识进行分类
- 典型相关分析(Cannonical Correlation Analysis, CCA)3:通过最大化测试信号与参考模板的相关性进行分类
- 滤波器组CCA(Filter Bank Cannonical Correlation Analysis, FBCCA)4:通过多子带分解提升谐波信息利用率
1.2.2 任务驱动空间滤波
- 任务相关成分分析(Task Related Correlated Analysis, TRCA)5:基于类内任务一致性最大化提取空间滤波器
- 集成式TRCA(Ensemble TRCA)5:利用各类别的空间滤波器的相似性进一步提升TRCA算法空间滤波器的泛化性
- 任务判别成分分析(Task Discriminant Correlated Analysis, TDCA)6:多类线性判别分析来学习时空滤波器并以判别方式进行分类
1.2.3 深度学习范式
- EEGNet7:轻量级卷积网络,使用卷积神经网络提取空间特征与时间特征的联合提取
- CCNN8:首次将零填充的复谱特征引入SSVEP分类,并证明保留相位信息可进一步提升SSVEP分类性能
- SIS-GAN9:通过生成对抗网络缓解数据稀缺问题, 并学习被试不变性特征提升跨被试的分类性能
- SSVEPNet10: 利用卷积-循环神经网络混合网络结构学习时域与频域特征,标签平滑与谱归一化缓解过拟合现象
尽管基于深度学习的方法在个体特定(intra-subject)任务中表现出色,但在多类别(>10类别)的跨个体(inter-subject)任务中仍存在泛化性差的问题。如何减少训练数据需求,提高泛化能力,是BCI应用落地的关键挑战。
2. SSVEPformer模型
2.1 结构概述
SSVEPformer是首个将Transformer架构应用于SSVEP分类的深度学习模型,并结合SSVEP信号的复谱特征实现了对频域和空间信息的高效挖掘,其创新性体现在:
- 复谱特征输入:保留频谱的频率与相位信息
- 通道动态融合:替代固定空间滤波器
- 轻量化编码器:CNN-MLP混合结构代替传统的Attention机制,降低Attention的计算复杂度
2.2 模块详解
模型整体架构如下图所示,包含六个核心模块:
输入模块(Inputs): 输入经过带通滤波后的滤波信号(如8-64Hz)
复谱表征模块(Complex Spectrum Representation):
- 处理:通过FFT转换至频域,保留8-64Hz范围内的实部(Re)与虚部(Im)
- 输出:通道×频率的二维复谱矩阵 I c o m p ∈ R C × F I_{comp} \in \mathbb{R}^{C \times F} Icomp∈RC×F
通道组合模块(Channel Combination):
- 使用 C × 1 C \times 1 C×1 卷积核实现通道加权(等效空间滤波)
- 设计 2 C 2C 2C 个滤波器提升特征多样性
- 通过LayerNorm和GELU激活增强非线性表达能力
特征编码模块(SSVEPformer Encoder):
- CNN模块:31点一维卷积捕获局部频域模式
- MLP模块:全连接层实现全局特征交互
- 残差连接:缓解梯度消失问题
特征分类模块(MLP Head)
- 特征展平后经两层MLP输出类别概率
- Dropout层(0.5)防止过拟合
输出模块(Ouputs): 输出K个类别的分类概率以得到最终分类结果
2.3 复谱特征提取
传统方法多使用功率谱(Magnitude Spectrum)作为输入,但SSVEP的相位信息对分类具有关键作用5。SSVEPformer采用复谱特征:
X c o m p = [ Re ( FFT ( x ) ) ∥ Im ( FFT ( x ) ) ] (1) \mathbf{X}_{comp} = \left[ \text{Re} (\text{FFT}(x)) \parallel \text{Im} (\text{FFT}(x)) \right] \tag{1} Xcomp=[Re(FFT(x))∥Im(FFT(x))](1)
其中 ∥ \parallel ∥ 表示沿通道维度的拼接操作。实验表明,当SSVEP数据长度为1秒时,相比仅使用幅值特征( X m a g X_{mag} Xmag),复谱特征( X c o m p X_{comp} Xcomp)在12分类数据集Dataset 1上可提升准确率约23%,在40分类数据集Dataset2中可提升约27%。
2.4 滤波器组扩展(FB-SSVEPformer)
FB-SSVEPformer 进一步利用SSVEP的谐波信息,通过滤波器组技术(Filter Bank)扩展模型结构。每个子带数据分别输入SSVEPformer子网络,最终融合多个子网络的结果。
具体而言,FB-SSVEPformer采用了以下策略以进一步提升SSVEP频率识别性能:
子带划分策略
- 下限频率选取:截止频率为 m × 8 m \times 8 m×8 Hz( m = 1 , 2 , 3 m=1,2,3 m=1,2,3), m m m为子带序号,可剔除低频的呼吸、眼电等伪迹干扰成分
- 上限频率选取:固定为80Hz, 可基本覆盖最高刺激目标频率的5次谐波成分(15.8Hz×5=79Hz)
- 频段过渡:每个子带增加2Hz过渡带宽防止频谱泄漏,避免吉普斯现象
多分支融合机制
- 每个子带独立输入各SSVEPformer子网络,学习不同频带下的频谱特征,如子带1学习SSVEP的所有频率信息成分,子带2学习SSVEP的2次谐波以上成分,子带3关注SSVEP的3次谐波成分以上成分
- 通过可学习权重 w s w_s ws 融合各子带 s s s 在每个目标频率 f f f 下的分类概率 ρ s , f \rho_{s,f} ρs,f:
Y = arg max f ∑ s = 1 S w s ⋅ ρ s , f (2) Y = \arg\max_f \sum_{s=1}^{S} w_s \cdot \rho_{s,f} \tag{2} Y=argfmaxs=1∑Sws⋅ρs,f(2)
- 多步训练策略
- 每个SSVEPformer子网络单独训练若干个epoch, 如100个epoch,达到稳定的分类性能
- 整个网络再训练洛若干个epoch,如20个epoch, 训练轮次一般小于子网络训练次数避免子网络学习的特征遗忘
实验表明,采用3个子带时模型在参数量与性能间达到最优平衡。在1s数据长度下,FB-SSVEPformer在40目标数据集上的ITR达到157.65 bits/min,较基线方法CCNN提升21.3%。
3. 实验结果与分析讨论
3.1 数据集与数据预处理
- UCSD数据集(Dataset1)9:
– 研究团队: 加州大学圣地亚哥分校Nankanish Masaki博士脑机接口课题组
– 采集设备: AgCl湿电极脑电帽采集系统: BioSemi ActiveTwo EEG system (Biosemi, Inc.)
– 被试信息:共10位被试,包含9名男性被试与1名女性被试,平均年龄为28岁,均视力正常或经过视力矫正
– 目标信息:共12目标,频率范围为9.25-14.75Hz, 以0.5Hz为频率间隔,相位范围为0-1.5pi,以0.5pi为相位间隔
– 采样率: 设备原始采样率为2048Hz, 便于算法分析且保留足量的高频成分降采样到256Hz
– 通道: 覆盖枕区的8个通道(O1, Oz, O2, PO3, POZ, PO4, PO7, PO8)
– 单被试试次数目: 12类别 × 15轮次=180试次
– 试次时长: 1s(引导期)+ 4s (闪烁呈现期)
- Benchmark数据集(Dataset2)10:
– 研究团队: 清华大学高小榕教授脑机接口课题组
– 采集设备: AgCl湿电极脑电帽采集系统: Synamps2 EEG system (Neuroscan, Inc)
– 被试信息:共35位被试,包含17名女性被试与18名男性被试,平均年龄为22岁,均视力正常或经过视力矫正
– 目标信息:共40目标,频率范围为8-15.8Hz, 以0.2Hz为频率间隔,相位范围为0-1.5pi,以0.5pi为相位间隔
– 采样率: 设备原始采样率为1000Hz, 便于算法分析且保留足量的高频成分降采样到250Hz
– 通道: 采集了全脑64个导联信息,包括覆盖枕区的9个通道(O1, Oz, O2, PO3, POZ, PO4, PZ, PO5 与 PO6)
– 单被试试次数目: 40类别 × 6轮次=240试次
– 试次时长: 0.5s(引导期)+ 4s (闪烁呈现期) + 0.5s (休息期)
- 数据预处理:
– 通道筛选:Dataset1中选取了覆盖枕区8个通道(O1, Oz, O2, PO3, POZ, PO4, PO7, PO8) ,Dataset2中选取了覆盖枕区的9个通道(O1, Oz, O2, PO3, POZ, PO4, PZ, PO5 与 PO6)
– 零填充频域变换:使用零填充FFT提取复谱特征,Dataset1中的频率分辨率为0.25Hz, Dataset2中的频率分辨率为0.2Hz
– 视觉延迟校准:Dataset1中从闪烁呈现期中剔除头0.135s数据,Dataset2中移除试次中闪烁呈现期头0.14s数据
– 时间窗口选取:0.5s - 1.2s, 以0.1s为时间间隔,覆盖常用的时间窗口长度大小。
– 跨被试数据构建:N-1个被试的数据按试次维度进行拼接,如1s窗长的情况下Dataset1中跨被试数据维度为(1620 × 8 × 256),其中180×9=1620代表N-1个被试的试次数目,8为电极数目,256为采样点个数
– 目标被试数据构建:被试的数据按试次维度进行拼接,如1s窗长的情况下Dataset1中跨被试数据维度为(180 × 8 × 256),其中180代表目标被试的试次数目,8为电极数目,256为采样点个数
3.2 实验结果对比
3.2.1 UCSD数据集上的跨被试分类结果
从UCSD数据集的实验结果可以看出,SSVEPformer和FB-SSVEPformer在跨被试分类任务中均表现优于传统方法。尤其是FB-SSVEPformer,在所有数据长度情况下都取得了最高的分类准确率和信息传输率。这表明,基于Transformer架构的模型在不依赖个体特定数据的情况下,仍然能够有效提取跨个体的稳健特征。
3.2.2 Benchmark数据集上的跨被试分类结果
在Benchmark数据集上,FB-SSVEPformer依然取得了最佳的分类表现,相较于CCNN、EEGNet等基准模型,准确率和信息传输率均有明显提升。这进一步证明了该模型在多类别、多被试任务中的泛化能力。
3.2.3 Benchmark数据集上的个体域适应分类结果
基于个体域适应(subject-specific adaptation)的实验结果显示,SSVEPformer和FB-SSVEPformer在仅使用少量个体数据进行微调后,分类性能显著提升。相比于完全跨被试的情况,适应后的准确率提升了约10%。这表明,通过结合预训练和个体适应技术,可以在减少数据采集负担的同时,提高BCI系统的实时性和用户体验。
3.2.4 USCD数据集上的t-SNE散点聚类结果
t-SNE(t-分布随机邻域嵌入)是一种降维可视化方法,用于评估模型对不同类别的区分能力。从USCD数据集的t-SNE散点聚类结果可以看出,SSVEPformer和FB-SSVEPformer能够有效地将不同类别的SSVEP信号聚类到不同的区域,相比于其他基线方法,分类边界更清晰。这说明模型成功提取了具有判别力的特征,提高了跨被试情况下的分类性能。
3.2.5 USCD数据集上Grad-CAM结果
Grad-CAM(梯度加权类激活映射)用于分析模型在分类任务中关注的关键区域。从USCD数据集的Grad-CAM结果可以看出,SSVEPformer的注意力主要集中在SSVEP信号的关键频率区域,尤其是在谐波成分上。这进一步验证了模型对频域信息的有效提取能力,并证明了使用复谱特征作为输入的合理性。
3.2.6 SSVEPformer核心模块的消融实验
为了评估SSVEPformer的各个模块对整体性能的贡献,我们进行了消融实验。实验结果表明:
移除Channel Combination模块后,分类准确率下降程度最为明显,相比于全模块使用的情况下,SSVEformer在USCD数据集上准确率降低约3%,FB-SSVEPformer降低约为5%;SSVEPformer在Benchmark数据集上准确率降低约为5%,FB-SSVEPformer降低约为4%,这些结果表明通道组合模块学习的 2 ∗ C 2*C 2∗C个被试通用的空间滤波器在跨被试场景下起到了关键作用。
移除SSVEPformer Encoder后,SSVEPformer模型的性能进一步下降,这表明Transformer的编码器模块在跨被试场景中的有效性。
移除MLP Head后,SSVEPformer模型的性能进一步下降,尤其对于FB-SSVEPformer而言,其在UCSD数据集中分类准确率降低约为5.5%,在Benchmark数据集上分类准确率降低约4%,这表明贡献了大量参数的全连接分类模块可在复杂的跨被试分类场景下取得更加鲁棒的分类结果。
整体来看,各个模块的协同作用使SSVEPformer能够在跨被试任务中取得最优结果。
3.2.7 SSVEPformer与基线模型的计算复杂度分析
计算复杂度是影响模型实际部署的关键因素。从计算复杂度分析结果可以看出,SSVEPformer相比于EEGNet与CCNN模型方法具有更高的计算开销,但仍在可接受范围内。FB-SSVEPformer由于增加了滤波器组处理,其计算复杂度略高于SSVEPformer。然而,考虑到其在分类性能上的显著提升,该额外的计算开销是值得的。此外,相较于其他深度学习方法,如EEGNet和CCNN,SSVEPformer的计算复杂度与其相当,但取得了更高的分类性能。
SSVEPformer超越了所有基线模型的分类结果,这表明其在跨被试任务中的优越性能可能源于其强大的特征学习能力。然而,这也引出了一个潜在问题:在完全没有被试内数据(pure inter-subject setting)的情况下,SSVEPformer是否仍然能够维持高性能?这一问题将在未来研究中进一步探讨。
4. 结论与展望
尽管SSVEPformer和FB-SSVEPformer在跨被试SSVEP分类任务中取得了优异的表现,但仍然存在一些限制。首先,研究仅使用了两个公开数据集进行评估,未来可进一步采用更多数据集(如BETA)进行实验,以验证模型的泛化能力。其次,尽管SSVEPformer和FB-SSVEPformer可以在跨被试场景下工作,但仍然需要大量已有被试的数据进行训练。如何在有限的数据条件下,进一步减少训练数据的需求,同时保持模型性能,是未来研究的重要方向。此外,本研究的实验均在离线条件下进行,未来可以进一步探索模型在在线SSVEP-BCI系统中的效率和有效性。
数据采集过程耗时且复杂,因此设计一个能够在跨被试场景下取得卓越表现的模型,是SSVEP-BCI系统的迫切需求。本研究结合Transformer架构和SSVEP信号的特性,提出了SSVEPformer及其基于滤波器组技术的扩展模型FB-SSVEPformer,并在两个公开数据集上进行了广泛的实验。实验结果表明,该模型优于五种流行的基线方法,其中FB-SSVEPformer取得了最佳性能。此外,我们还使用t-SNE和grad-CAM方法验证了模型的有效性和可解释性。该研究验证了Transformer架构在SSVEP分类任务中的可行性,所提出的模型在推动SSVEP-BCI系统的实际应用方面具有广阔的前景。
5. 参考文献
Pan Y, Chen J, Zhang Y. A survey of deep learning-based classification methods for steady-state visual evoked potentials[J]. Brain-Apparatus Communication: A Journal of Bacomics, 2023, 2(1): 2181102. https://www.tandfonline.com/doi/full/10.1080/27706710.2023.2181102 ↩︎
Hakvoort G, Reuderink B, Obbink M. Comparison of PSDA and CCA detection methods in a SSVEP-based BCI-system[J]. 2011. https://research.utwente.nl/en/publications/comparison-of-psda-and-cca-detection-methods-in-a-ssvep-based-bci ↩︎
Lin Z, Zhang C, Wu W, et al. Frequency recognition based on canonical correlation analysis for SSVEP-based BCIs[J]. IEEE transactions on biomedical engineering, 2006, 53(12): 2610-2614. https://ieeexplore.ieee.org/abstract/document/4015614/ ↩︎
Chen X, Wang Y, Gao S, et al. Filter bank canonical correlation analysis for implementing a high-speed SSVEP-based brain–computer interface[J]. Journal of neural engineering, 2015, 12(4): 046008. https://iopscience.iop.org/article/10.1088/1741-2560/12/4/046008/meta ↩︎
Nakanishi M, Wang Y, Chen X, et al. Enhancing detection of SSVEPs for a high-speed brain speller using task-related component analysis[J]. IEEE Transactions on Biomedical Engineering, 2017, 65(1): 104-112. https://ieeexplore.ieee.org/abstract/document/7904641 ↩︎ ↩︎ ↩︎
Liu B, Chen X, Shi N, et al. Improving the performance of individually calibrated SSVEP-BCI by task-discriminant component analysis[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2021, 29: 1998-2007. https://ieeexplore.ieee.org/abstract/document/9541393 ↩︎
Waytowich N, Lawhern V J, Garcia J O, et al. Compact convolutional neural networks for classification of asynchronous steady-state visual evoked potentials[J]. Journal of neural engineering, 2018, 15(6): 066031. https://iopscience.iop.org/article/10.1088/1741-2552/aae5d8/meta ↩︎
Ravi A, Beni N H, Manuel J, et al. Comparing user-dependent and user-independent training of CNN for SSVEP BCI[J]. Journal of neural engineering, 2020, 17(2): 026028. https://iopscience.iop.org/article/10.1088/1741-2552/ab6a67/meta ↩︎
Aznan N K N, Atapour-Abarghouei A, Bonner S, et al. Leveraging synthetic subject invariant EEG signals for zero calibration BCI[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 10418-10425.https://ieeenew.66557.net/abstract/document/9411994 ↩︎ ↩︎
Pan Y, Chen J, Zhang Y, et al. An efficient CNN-LSTM network with spectral normalization and label smoothing technologies for SSVEP frequency recognition[J]. Journal of Neural Engineering, 2022, 19(5): 056014. https://iopscience.iop.org/article/10.1088/1741-2552/ac8dc5/meta ↩︎ ↩︎