Visual Decoding and Reconstruction via EEG Embeddings with Guided Diffusion-EW帮帮网

DreamDiffusion一直复现不成功，BrainDreamer又没有代码，只能再换赛道了，，，

全文总结

通过引导扩散的脑电图嵌入实现视觉解码和重构

本文提出了一种新颖的基于脑电图(EEG)的视觉解码和重建框架，在图像分类、检索和重建任务中实现了最先进的性能。该框架包括一个名为自适应思维映射器(ATM)的定制大脑编码器，将神经信号投射到与图像嵌入共享的子空间中，以及一种分两个阶段的图像生成策略，分别从EEG数据中提取高级和低级视觉特征。该框架的多功能性在EEG和MEG数据上得到了证明，突出了使用低成本、便携式EEG进行广泛的脑机接口应用的潜力。

主要观点

- 开发了一个零样本 EEG 视觉解码框架，优于以前的 EEG/MEG 方法
- 引入了一种新的 EEG 编码器 ATM，在下游视觉任务上达到了最先进的性能
- 提出了一种两阶段图像生成策略，分别从 EEG 中提取高级和低级视觉特征
- 展示了该框架在 EEG 和 MEG 数据上的多样性，展示了使用便携式 EEG 进行 BCI 应用的潜力

2.1 ATM for EEG Embedding

Shared Token、 Subject Tokens 和 Sequence Tokens

2.2 Image Embedding

2.3 EEG Guidance Image Generation

In Stage I, 关注the prior diffusion stage.

In Stage II

本文采用的diffusion model ：

Classifier-free guidance method：

条件模型（conditional model）和无条件模型（unconditional model）

C.3 Low-level pipeline

C.4 Semantic-level pipeline

1. IP-Adapter 简介

2.4 Loss Function

3 Experiments

3.1 Training and Computational Considerations

3.2 EEG Decoding Performance

3.3 Image Generation Performance

3.4 Temporal Analysis时间分析

3.5 Spatial Analysis空间分析

4 Related Works

5 Discussion and Conclusion

Abstract

如何通过神经信号破译人类视觉一直是神经科学和机器学习领域长期关注的问题。现代对比学习和生成模型提高了基于功能性磁共振成像(fMRI)的视觉解码和重建性能。然而，fMRI的高成本和低时间分辨率限制了其在脑机接口(BCI)中的应用，促使人们迫切需要基于脑电图(EEG)的视觉解码。

In this study, we present an end-to-end EEG-based visual reconstruction zero-shot framework, consisting of a tailored brain encoder, called the Adaptive Thinking Mapper (ATM), which projects neural signals from different sources into the shared subspace as the clip embedding, and a two-stage multi-pipe EEG-to-image generation strategy. In stage one, EEG is embedded to align the highlevel clip embedding, and then the prior diffusion model refines EEG embedding into image priors. A blurry image also decoded from EEG for maintaining the lowlevel feature. In stage two, we input both the high-level clip embedding, the blurry image and caption from EEG latent to a pre-trained diffusion model. Furthermore, we analyzed the impacts of different time windows and brain regions on decoding and reconstruction.

本研究提出了一种端到端的基于EEG的视觉重建零样本框架，包括一种称为the Adaptive Thinking Mapper (ATM)的定制brain encoder，将来自不同源的神经信号作为clip embedding，映射到共享的子空间中，以及一种两阶段的多管道EEG到图像生成策略。

在第一阶段，EEG被嵌入到高层次片段嵌入中进行对齐，然后先前的扩散模型将EEG嵌入细化为图像先验。同时也从EEG解码出一个模糊的图像以维持低层特征。

在第二阶段，我们将高层次片段嵌入、模糊图像和来自EEG潜空间的caption输入到预训练的扩散模型中。

此外，我们分析了不同时间窗口和大脑区域对解码和重建的影响。我们的框架的多样性也体现在磁脑电图(MEG)数据模态中。实验结果表明，我们的基于EEG的视觉零样本框架在分类、检索和重建方面实现了最先进的性能，突出了EEG的可移植性、低成本和高时间分辨率，为各种BCI应用提供可能。我们的代码可在https://github.com/ncclab-sustech/EEG_Image_decode获得。

1 Introduction

长期以来，人们认为脑电图（EEG）在自然图像解码/重建任务中无法与功能性磁共振成像（fMRI）相媲美，因为EEG存在低信噪比、低空间分辨率和大的个体差异问题。
最近多模态对齐的进步使得基于磁脑图（MEG）/EEG的视觉解码成为可能，尽管其性能仍然低于fMRI[8、46、17]。
Yohann Benchetrit等人使用CLIP模型提取图像的潜在表示，并训练MEG编码器将其与CLIP提取的图像表示对齐。这实现了优秀的MEG和fMRI数据集检索和重建性能，表明了实时视觉解码和重建使用EEG/MEG信号的潜力。

Yohann Benchetrit, Hubert J. Banville, and Jean-Rémi King.Brain decoding: toward real-time reconstruction of visual perception.ArXiv, abs/2310.19812, 2023.

最近，Song等人[46]使用基于ShallowNet [39]的EEG编码器进行表示对齐，在THING-EEG数据集[15]上实现了出色的解码性能。
这两项研究为基于EEG/MEG的视觉解码提供了初步证据。然而，它们的性能与fMRI水平相比仍有很大差距。这一差距主要是由于EEG视觉解码和重建框架尚未得到充分探索造成的。

To fill this gap, we have developed a visual decoding framework based on EEG/MEG, including a novel EEG encoder and a two-stage image generation strategy. Our work has three main contributions:

We present brain decoding framework, which is the first work allows zero-shot image classification, retrieval, and reconstruction via EEG data. Experimental results demonstrate that our framework is applicable to various common EEG encoder architectures.
By extensively studying the existing EEG encoder modules, we construct a tailored EEG encoder ATM, which achieves state-of-the-art performance in three downstream visual decoding tasks.
We report a two-stage EEG-to-image generation strategy, which separately extracts highlevel and low-level visual features from EEG and refining these features with an additional lightweight prior diffusion model, enabling reliable reconstruction of images using less than 500ms EEG.

prior diffusion的论文

1 Introduction
作者提出了PriorDiffusion，将人类提供的场景语言描述作为先验知识，引导深度图预测。在文本到图像预训练过程中，扩散模型学习生成与提供语言描述相符的多样化场景。

为了实现这一目标，扩散模型必须理解每个目标的尺寸和形状、空间关系以及语言输入中描述的场景大小，以生成准确地表示输入文本在各种视图和场景布局下的图像。

因此，在深度估计中，由人类生成的描述允许模型利用输入文本中嵌入的几何先验知识更有效地感知3D场景。

在作者的PriorDiffusion中，在去噪过程中，模型使用图像和语言输入来预测要移除的噪声。最终，高斯噪声逐步细化为与输入图像和语言描述都相符的深度图。由于在训练和推理图像中获取足够的人类提供文本描述具有挑战性，作者利用视觉语言模型（例如LLaVA[11]）为每张图像生成描述，模拟人类标注。

为了支持作者的假设，作者在两个合成数据集上进行训练，分别是HyperSim [62]和Virtual KITTI [4]，并在四个真实世界数据集上进行零样本评估，包括NYUv2 [69]，KITTI [24]，ETH3D [68]和ScanNet [10]。与其他最先进的扩散深度估计器相比，作者在定性结果上取得了优越性，同时在保真度更高的定量结果上，收敛速度更快。

Our contributions.通过利用语言作为先验，使用预训练的文本到图像生成的扩散模型，进行单目深度估计，证明了：

语言可以为语言描述中的物体提供关于其存在、几何属性和空间关系的先验信息，从而使深度估计器更好地推理这些物体的深度。

语言先验知识指导模型的注意力指向特定区域，使其根据用户的意图感知3D场景。这对视觉系统来说特别有益，尤其是那些具有小尺寸、恶劣照明、遮挡或与背景具有高度视觉相似性的区域。

语言先验为扩散轨迹的收敛速度提供了约束。作者的直觉是，从压缩的低维语言特征中学习3D属性（如几何特性和空间关系）比从冗余的高维图像特征中学习更有效。

2 Method

为了学习高质量的EEG数据潜在表示，考虑EEG通道的空间位置和EEG信号的时空特性是至关重要的。设T表示数据的时间窗长度，C表示EEG通道数，N表示数据样本总数。我们的目标是从大脑活动数据E∈R(N×C×T)中导出EEG嵌入ZE=f(E)∈R(N×F），其中f是EEG编码器，F是嵌入的投影维度。同时，我们使用CLIP模型从图像I中提取图像嵌入ZI∈RN×F。我们的目标是有效地将EEG表示与图像表示对齐，如图2所示。

在训练阶段，EEG编码器使用对比学习框架训练EEG和图像对。

在推理阶段，从训练好的EEG投影器中获得的EEG嵌入can be used for a variety of zero-shot tasks, including EEG-based image classification, retrieval, and image reconstruction.

2.1 ATM for EEG Embedding

受高级时间序列模型[28、13]的启发，我们开发了一种名为ATM的EEG编码器，用于将原始EEG信号与其特征表示空间对齐（图3）。

ATM基于the channel-wise Transformer encoder, Temporal-Spatial convolution and multilayer perceptron (MLP) architecture.。

与其他常规做法相比，原始EEG无需分段，每个序列都作为一个patch。在正弦位置嵌入之后，这些patch通过channel-attention module进行信息整合。随后，通过the Temporal-Spatial aggregation，我们用MLP对输出进行投影以获得合理的shape representations。

时空卷积模块是用少量参数表示EEG数据的有效方式[46]，可以防止训练过拟合。我们的组件是即插即用的，可根据需要灵活替换为不同类型的时空卷积组件，以适应各种EEG/MEG数据集。

时空卷积模块是一种专门处理时序信号（如EEG）的神经网络组件，通过联合学习 时间维度 和 空间维度（通道间关系）的特征。其核心优势在于：

时间卷积：捕捉信号的时间动态模式（如脑电波的时变特征）

空间卷积：建模不同电极（通道）间的拓扑关系（如头皮空间分布）

最后，MLP投射器由M个简单的残差组件和全连接层组成，在输出处应用LayerNorm以确保训练的稳定性。

除了输入原始序列外，我们还提供已知受试者的识别输入，可以专门将此token用于下游任务。对于未知的受试者，我们使用shared tokens or average all tokens equally直接输入到MLP投射器中。

这句话理解还可参考：

[NeurIPS 2024] 视觉重建论文解读：Visual Decoding and Reconstruction via EEG Embeddings with Guided Diffusion-CSDN博客

在跨被试（cross-subject）或多模态任务中，Shared Token、Subject Tokens 和 Sequence Tokens 是用于处理不同个体（subject）或序列（sequence）差异的核心设计，尤其在处理脑电（EEG）或脑磁（MEG）等神经信号时至关重要。以下是详细解释：

1. 核心概念

术语

定义

应用场景

Subject Tokens

为每个已知受试者（subject）分配的唯一标识向量，编码个体特异性（如脑电信号差异）

已知受试者的个性化建模（如训练集中的被试）

Shared Token

共享的通用标识向量，用于处理未知受试者或新受试者

模型泛化到未见过的受试者（测试集或新用户）

Sequence Tokens

编码时间序列或空间序列的动态信息（如EEG信号的时序特征）

处理时序数据的分段或跨时间步建模

2. 作用机制

(1) Subject Tokens（已知受试者标识）

个性化表征：
每个受试者分配一个可学习的嵌入向量（token），在训练中优化该向量，使其捕获该受试者的独有特征（如脑电信号基线差异）。

下游任务适配：
在任务层（如分类、重建）中，通过交叉注意力或拼接（concatenate）将Subject Token与输入特征结合，实现个性化输出。

(2) Shared Token（共享标识）

泛化能力：
当测试集中出现未知受试者时，使用Shared Token代替Subject Token，避免模型因缺失个体标识而失效。

实现方式：

直接替换：将Shared Token作为默认标识输入模型。

动态选择：通过相似度计算选择最接近的已知Subject Token，但计算成本较高。

(3) Sequence Tokens（序列标识）

时序建模：
将EEG信号分段后，为每段分配一个Sequence Token，编码其时间位置或上下文关系（类似Transformer中的位置编码）。

特征聚合：
通过自注意力机制，Sequence Tokens帮助模型捕捉长程依赖（如脑电信号中的事件相关电位ERP）。

3. 具体实现示例

以EEG图像重建任务为例，模型架构可能包含以下模块：

输入处理：

原始EEG信号分割为多个时间窗口，每个窗口对应一个Sequence Token（T1,T2,...,TNT1,T2,...,TN）。

若受试者已知，添加对应的Subject Token（SkSk）；若未知，使用Shared Token（SsharedSshared）。

特征融合：
# 伪代码示例：嵌入层
subject_token = SubjectEmbedding(subject_id) if known else SharedEmbedding()
sequence_tokens = SequenceEmbedding(eeg_segments)

# 拼接或相加
combined_input = torch.cat([subject_token, sequence_tokens], dim=1)
# 或
combined_input = subject_token.unsqueeze(1) + sequence_tokens
3.下游任务处理：
通过Transformer编码器或MLP投影层（MLP projector）将融合后的特征映射到目标空间（如图像嵌入）。

对未知受试者，若未使用Shared Token，可将所有Sequence Tokens平均后输入MLP：
avg_sequence = sequence_tokens.mean(dim=1)  # 维度：[batch_size, embed_dim]
output = MLPProjector(avg_sequence)

术语	定义	应用场景
Subject Tokens	为每个已知受试者（subject）分配的唯一标识向量，编码个体特异性（如脑电信号差异）	已知受试者的个性化建模（如训练集中的被试）
Shared Token	共享的通用标识向量，用于处理未知受试者或新受试者	模型泛化到未见过的受试者（测试集或新用户）
Sequence Tokens	编码时间序列或空间序列的动态信息（如EEG信号的时序特征）	处理时序数据的分段或跨时间步建模

2.2 Image Embedding

采用监督学习训练的 VGG-19 和 ResNet
采用对比学习训练的 CLIP、DINO
以及采用自我监督学习的 VAE

相比，使用ViT架构预训练的 DINO 和 CLIP 模型在一系列下游任务（包括图像解码和重建）中表现更佳。

2.3 EEG Guidance Image Generation

In this study, we present a two-stage pipeline 来生成作为EEG记录视觉刺激的图像, as shown in the bottom right of Fig. 2.

In the left of Fig. 3 ，已经通过the EEG encoder ATM获得the EEG embeddings zE for each image .

现在我们的目标是使用EEG embeddings 来生成相应的图像

The joint distribution of images, EEG embeddings,and image embeddings 可以表示为

p(I, zE , zI ) = p(zI |zE )p(I|zI )

p(zI |zE )是通过先验扩散模型，根据EEG嵌入，得到的CLIP嵌入分布

p(I|zI )是生成器，作用是根据zI采样图像I

受DALL-E 2[37]和Mind's Eyes[42]的启发，训练了一个扩散模型conditioned on the EEG embeddings ˆZE，以学习CLIP嵌入分布p(zI|zE)。

以脑电图为条件的扩散阶段利用了无分类器引导策略以及 CLIP 嵌入和脑电图嵌入的数据对（zI , zE）。以脑电嵌入数据 zE 为条件，以有效捕捉 CLIP 嵌入数据 p(zI |zE)的分布。

无分类器引导方法：有效平衡了调节信号的保真度和生成输出的多样性。

In Stage I, 关注the prior diffusion stage.

构建了一个轻量级的U-Net：ϵprior(zt I、t、zE)，zt I代表the noisy CLIP embedding at diffusion time step t.
train the prior diffusion model using EEG and CLIP embeddings.
Through this diffusion model, we can generate corresponding CLIP embeddings zI from EEG embeddings as a prior for stage II.

In Stage II

使用 the pre-trained SDXL [ 35 ] and IP-Adapter [62 ] models 来建模 the generator p(I|zI), 从而根据zI采样图像I
In addition, 使用img2img引入 the low-level features

本文采用的diffusion model ：

扩散模型（DM）通过将高方差高斯噪声转化为结构化的数据表示，参与生成过程。这种转换是通过在一系列步骤中逐步降低噪声水平来实现的。

从高方差高斯噪声 xM ∼ N (0, σ2 max) 开始，通过一系列步骤对其进行系统去噪，从而得到 xt ∼ p(xt；t)

采样过程，其实就是去噪过程，该 DM 中的采样是通过数值模拟概率流常微分方程 (ODE) 或随机微分方程 (SDE) 来实现的。

DM 训练的核心是学习分数函数模型。这通常是通过去噪分数匹配（DSM）来实现的

Classifier-free guidance method：

通过同步 the outputs of both a conditional and an unconditional model来实现，该模型的公式如下：εw prior(zt I ; t, zE) = (1 + w)εprior(zt I ; t, zE ) - wεprior(zt I ; t)

其中 w ≥ 0 表示引导尺度。

周期性地用一个空向量替代脑电嵌入zE，以提高训练的可变性，比如时间的10%。

主要目的是在保持输出多样性的同时，提高 DM 生成的样本质量。

条件模型（conditional model）和无条件模型（unconditional model）

在扩散模型中， 条件模型（conditional model） 和 无条件模型（unconditional model） 是 Classifier-Free Guidance（CFG）技术的核心组成部分，它们分别代表两种不同的生成模式，通过协同作用实现高质量的条件控制生成。

1. 定义与区别

条件模型（Conditional Model）

无条件模型（Unconditional Model）

输入依赖

生成过程依赖外部条件（如EEG信号 zEzE、文本、类别标签等）

生成过程不依赖任何条件，仅基于随机噪声

目标

生成与条件严格对齐的数据（如匹配EEG信号的图像）

生成符合数据分布的一般样本（无特定条件约束）

训练方式

模型在训练时学习条件与数据的关联性

模型在训练时仅学习数据本身的分布

2. 在CFG中的作用

Classifier-Free Guidance 通过 联合使用两者 实现条件控制生成：

条件模型：提供条件相关的生成方向（如根据EEG信号生成特定图像）。

无条件模型：提供数据本身的分布先验（保证生成结果的多样性和合理性）。

协同公式：
最终的噪声预测通过加权两者的输出实现（公式4）：

ϵwprior(zt,t,zE)=(1+w)ϵprior(zt,t,zE)−wϵprior(zt,t)

w≥0：指导强度系数，控制条件对生成的影响。

当 w=0：退化为纯条件模型，生成严格对齐条件但可能缺乏多样性。

当 w>0：无条件模型的输出被“减去”，强化条件约束，同时保留多样性。

3. 实际实现方式

单一网络框架：
条件模型和无条件模型并非独立训练，而是共享同一神经网络。在训练时：

条件模式：正常输入条件（如EEG嵌入 zE）。

无条件模式：随机将条件替换为空（如10%概率将 zE 置为 null 或零向量）。

优势：

减少参数量和计算成本。

避免独立训练两模型导致的条件与无条件生成不一致问题。

4. 在EEG图像重建中的意义

在论文的上下文中：

条件模型：学习如何将EEG信号 zE 映射到对应的视觉特征，确保生成图像与脑电信号语义对齐。

无条件模型：学习自然图像的通用分布，防止生成结果过度受噪声EEG信号的干扰（如异常脑电片段导致的失真）。

平衡控制：通过调整 w 的值，在“忠实于EEG信号”和“生成合理图像”之间取得平衡。

5. 类比说明

假设你正在根据一段文字描述（条件）画一幅画：

条件模型：像一位严格遵循文字描述的画家，确保每处细节符合要求。

无条件模型：像一位自由创作的画家，只考虑美学和合理性，忽略具体描述。

CFG的作用：将两者的草图融合，最终画作既符合文字描述，又具备艺术性。

	条件模型（Conditional Model）	无条件模型（Unconditional Model）
输入依赖	生成过程依赖外部条件（如EEG信号 zEzE、文本、类别标签等）	生成过程不依赖任何条件，仅基于随机噪声
目标	生成与条件严格对齐的数据（如匹配EEG信号的图像）	生成符合数据分布的一般样本（无特定条件约束）
训练方式	模型在训练时学习条件与数据的关联性	模型在训练时仅学习数据本身的分布

在图 10 中，我们比较了单阶段和双阶段 EEG 引导图像生成的效果。我们展示了直接使用脑电图嵌入生成的图像（单阶段）和使用通过先验扩散获得的图像嵌入生成的图像（两阶段）。可以看出，两阶段脑电引导图像生成能更准确地重建原始图像的语义和低级视觉特征，而且风格更逼真。

我们合成流程的基石是 SDXL 框架，该框架在文本到图像的转换方面备受赞誉。

IP 适配器的集成引入了dual cross-attention mechanisms，允许 CLIP 嵌入 zI 作为指令输入，并引导 U-Net 结构中的去噪轨迹。

合成模型表示为εSD(zt, t, zI )，其中zt表示SDXL变异自动编码器（VAE）的扰动潜变量。

IP-Adapter 设计紧凑，已被证明能有效提高预训练文本到图像模型的图像提示适应性。它与用于多模态图像生成的文本提示兼容，扩展了我们基于脑电图的图像合成方法的多功能性。

C.3 Low-level pipeline

与 ViT、ResNet、DINO 等纯视觉预训练模型相比，CLIP 模型缺乏底层视觉特征。因此，为了弥补这一缺陷，我们的框架引入了底层视觉重建管道。我们希望通过与 VAE 的潜变量对齐，从 EEG 还原轮廓、姿势、方向等基本信息和其他像素级信息。

我们对低级管道进行了 200 次历时训练，尝试了潜均方误差（MSE）损失、对比学习损失和变异自动编码器（VAE）图像重构损失，以便将从投影层和上采样 CNN 获得的 4 × 64 × 64 EEG 潜像与 VAE 潜像对齐。

然而，重构损失或对比学习损失比仅应用潜空间损失的 性能更差，而且需要的 GPU 内存也更多。此外，我们还发现，在低级管道中使用低级视觉模型进行蒸馏学习不仅不利于 VAE latent 训练，还会导致过度拟合。

我们的结果表明，脑电图中的低级零点重建不够稳定，可能会误导模型结果。在使用低级管道时，我们通常将 SDXL 的推理步数设为 10（或 SDXL-turbo 设为 4），图像到图像的去噪强度设为 0.5。我们在图 11 中给出了几个重建实例，以比较使用低级管道前后的影响。

？？？怎么看好坏？？

only low level is worst

CLIP+low 颜色形状更像？

CLIP+low+S增加一些细节？比如派的烤焦和蓝色衣领？

only CLIP很逼真，但不像原图

CLIP+S有改进，但还是不像？

C.4 Semantic-level pipeline

除了在重构过程中使用EEG latent and low-level pipelines外，我们还在图像重构过程中添加了以文本标题为指导的相应语义级管道。我们将先验扩散输出的 1 × 1024 脑电图特征输入the trained image projector，从而获得 256 × 1024 图像特征。

利用 GIT 模型[51]，我们可以直接从图像的潜在特征生成caption。

IP-Adapter 接受这样的caption作为文本提示，以指导图像语义层面的重建。需要注意的是，由于 zeroshot 任务本身的难度和脑电特征的低维度，从潜特征生成的标题可能并不稳定，从而干扰原有正确的脑电语义。

考虑到 CLIP 模型本身提取的图像特征已经是高级视觉特征，不需要引入更多语义信息，因此该框架保留了文本提示的输入，所呈现的重构图像也不会强制使用语义级管道。

这就是图11最右两列由红酒杯变成粉色杯子的原因？

1. IP-Adapter 简介

IP-Adapter（Image Prompt Adapter）是由 腾讯 AI Lab 开发的一种 图像提示适配器，专为 Stable Diffusion 等扩散模型设计。它允许用户通过输入参考图像来引导 AI 生成符合特定风格、构图或特征的图像，而无需训练额外的 LoRA 或 Dreambooth 模型。

核心优势

无需训练：仅需一张参考图即可实现风格迁移，比传统 LoRA 训练更高效。

多图支持：可同时输入多张参考图，增强生成多样性。

强可控性：与 ControlNet 结合，实现更精准的图像控制。

解耦注意力机制：独立处理图像和文本特征，避免风格混淆。

2. IP-Adapter 的工作原理

IP-Adapter 的核心机制是 解耦交叉注意力（Decoupled Cross-Attention）：

图像编码：使用 CLIP 视觉模型提取参考图的特征。

独立注意力层：

文本提示（Prompt）通过原有的文本交叉注意力层影响生成。

图像特征通过新增的 图像交叉注意力层 影响生成，避免与文本特征混合9。

动态权重控制：

通过 weight 参数调整图像提示的强度（如 0.8 表示较强风格迁移）。

支持多种权重类型（如 ease in、ease out）控制风格融合方式。

对比传统方法：

方法

原理

缺点

img2img

直接修改输入图像的噪声，容易导致风格混淆（如老虎+人混合）

生成多样性低，依赖参考图质量

LoRA

需训练小型适配模型，成本高

训练时间长，灵活性低

IP-Adapter

动态融合图像和文本特征，保留 Prompt 主导

需调整权重参数以获得最佳效果

3. IP-Adapter 的主要功能

(1) 风格迁移

输入一张艺术风格图（如油画），生成相同风格的新图像。

示例：输入梵高风格的星空图，生成相同风格的风景画。

(2) 人脸特征保留

使用 FaceID 模型 迁移人脸特征（如将参考图的脸部结构应用到生成图）。

适用于肖像生成、角色一致性保持等场景。

(3) 构图控制

Composition 模型 可仅迁移参考图的构图（如建筑布局），而忽略细节风格。

(4) 多图融合

支持同时输入多张参考图，生成混合风格的结果（如 A 图的色彩 + B 图的纹理）。

4. 使用方法（以 Stable Diffusion + ComfyUI 为例）

步骤 1：安装 IP-Adapter

下载 IP-Adapter 模型（如 ip-adapter_sd15.bin）并放入 ComfyUI/models/ipadapter。

安装 CLIP 视觉模型（如 clip_vision）。

步骤 2：加载工作流
# 伪代码示例
from comfyui_ipadapter import IPAdapter
ip_adapter = IPAdapter(
    model="ip-adapter_sd15",
    clip_vision="clip_vision_model",
    weight=0.8,  # 控制风格强度
    weight_type="ease in"  # 调整融合方式
)
步骤 3：生成图像

输入：

参考图（风格/人脸/构图）

Prompt（描述目标内容）

输出：融合参考图风格的新图像

5. 实际应用案例

(1) 商业设计

海报生成：输入产品图 + 风格参考图，自动生成营销素材。

装修效果图：根据设计草图生成逼真渲染。

(2) 艺术创作

多风格融合：混合浮世绘和赛博朋克风格生成独特插画。

角色一致性：在漫画连载中保持角色面部特征稳定。

(3) 人脸编辑

换脸：使用 FaceID 模型替换生成图中的人脸。

年龄/表情调整：通过修改 Prompt 控制生成结果。

6. 参数优化建议

参数

推荐值

作用

weight

0.5~1.0

值越高，风格迁移越强

weight_type

ease in-out

平滑过渡，避免风格突变

num_samples

4

生成多张图以提高多样性

guidance_scale

7.5

平衡 Prompt 和图像提示的影响3

7. 与 ControlNet 的协同使用

IP-Adapter 可与 ControlNet 叠加，实现 多层控制：

第一层：IP-Adapter 提供风格参考。

第二层：ControlNet（如 Canny）控制边缘结构。

第三层：Prompt 提供语义指导。

示例工作流（ComfyUI）：

输入 风格图 → IP-Adapter。

输入线稿 → ControlNet-Canny。

生成 符合线稿且风格匹配 的图像。

8. 总结

IP-Adapter 是 AIGC 领域的重大突破，它通过 动态图像提示 实现了：

零训练风格迁移（比 LoRA 更高效）。

高精度控制（避免 img2img 的风格混淆）。

多模态融合（支持文本+图像+ControlNet 协同）。

未来可能的发展方向包括：

3D 生成引导（如 NeRF + IP-Adapter）。

视频风格迁移（稳定帧间一致性)。

如需进一步实践，可参考 IP-Adapter GitHub 或 ComfyUI 教程

方法	原理	缺点
img2img	直接修改输入图像的噪声，容易导致风格混淆（如老虎+人混合）	生成多样性低，依赖参考图质量
LoRA	需训练小型适配模型，成本高	训练时间长，灵活性低
IP-Adapter	动态融合图像和文本特征，保留 Prompt 主导	需调整权重参数以获得最佳效果

参数	推荐值	作用
`weight`	0.5~1.0	值越高，风格迁移越强
`weight_type`	`ease in-out`	平滑过渡，避免风格突变
`num_samples`	4	生成多张图以提高多样性
`guidance_scale`	7.5	平衡 Prompt 和图像提示的影响3

2.4 Loss Function

损失函数采用了双重方法，服务于不同的目标。

分类和检索任务：只使用 CLIP 损失函数，其灵感来自 Radford 等人[36]中描述的对比学习方法。该损失函数有助于将 EEG 数据 E 与相应的图像数据 I 对齐，从而促进 EEG 图像对的识别，并最大化 EEG 表征的边界。

生成任务：除了 CLIP 损失，增加了平均平方误差 (MSE) 损失，以促进回归中的一致性学习。

因此，模型的总体损失函数是 Loss = λ * LCLIP + (1 - λ) * LMSE

λ 是一个超参数，用于平衡每种损失类型的贡献。

3 Experiments

3.1 Training and Computational Considerations

我们在 THINGS-EEG 数据集的训练集上进行了实验。
为了验证 ATM 在嵌入电生理数据方面的多功能性，我们使用 THINGS-MEG 数据集[19]对 MEG 数据模式进行了测试。
所有实验均可在单个英伟达 RTX 4090 GPU 上完成。
使用 Adam 优化器在一组约 496,200 个样本上训练跨主体模型，在一组约 66,160 个样本上训练主体内模型
初始学习率为 3 × 10-4，批量大小为 16 和 1024。初始温度参数设置为 0.07。
在训练过程中，在每个训练epoch结束时都会在zero-shot test dataset上进行测试。
为了公平起见，所有模型的超参数都保持一致。
我们比较了不同编码器在主体内测试集和跨主体（leave-one-subject-out）测试集上的表现（见附录 H）。

3.2 EEG Decoding Performance

获得了用于分类任务的脑电图嵌入。

我们输出与文本嵌入余弦相似度最高的脑电图类别（图 5a）。

在图 5 中，我们测试了脑电图嵌入在图像检索任务中的有效性。 我们计算了图像数据集（200 幅图像）中脑电图嵌入和 CLIP 嵌入（而不是文本嵌入）之间的余弦相似度。与之前的模型相比，我们模型的 Top-1 准确率有了显著提高，而且 Top-5 图像都与原始图像保持了高度相似。参见表更详细的受试者测试准确率平均值见附录中的表 8。

ATM 的消融研究 我们系统地解构和分析了脑电图投影仪的每一层。我们对 ATM 的每个组件（即 MLP 投影仪、时空卷积模块和通道注意模块）都进行了消融研究。我们指定了两种不同的卷积架构，即 ShallowNet (ATM-S) 和 EEGNetV4 (ATM-E)，作为我们的卷积主干。附录 B.3 显示了不同实验配置下的结果

3.3 Image Generation Performance

图 6a 显示了在脑电图嵌入指导下生成图像以及评估生成图像质量的过程。

为了评估生成性能，我们进行了一项图像检索任务。具体来说，我们提取生成图像的 CLIP 嵌入，并比较所有图像的 CLIP 嵌入之间的相似性，以检索生成的图像。

图 6b 显示了分布的相似性。图 6c 显示了生成的样本。

生成的图像与所见的图像具有很高的语义相似性，并且在低级视觉特征方面具有很好的多样性，这可以通过引导尺度超参数来操作（图 6d）。

我们还在表中报告了不同数据集的 EEG、MEG 和 fMRI 在各种指标上的解码和重建性能。

以下是对该表格的详细分析，涵盖数据解读、方法对比及潜在结论：

1. 表格结构解析

列名含义

Dataset 数据集名称及方法来源（如[4]为对比方法，Ours为本文方法）

↑ PixCorr 像素级相关系数（越高表示像素空间越相似）

↑ SSIM 结构相似性指数（0-1，越高表示结构保留越好）

↑ AlexNet(2) AlexNet第2层特征相似度（低层特征对齐度）

↑ AlexNet(5) AlexNet第5层特征相似度（高层语义特征对齐度）

↑ Inception Inception-v3特征相似度（综合语义匹配）

↑ CLIP CLIP特征相似度（跨模态语义对齐）

↓ SwAV SwAV对比学习特征差异度（越低表示特征空间越相似）

2. 关键观察与对比

(1) 不同模态的性能差异

数据集

PixCorr

SSIM

语义指标（CLIP）

SwAV

结论

NSD-fMRI

高

高

高（0.915+）

低

fMRI空间分辨率高，重建质量最优（尤其是语义保留）

THINGS-MEG

低

中

中（0.603-0.767）

高

MEG时间分辨率高但空间模糊，语义保留较弱

THINGS-EEG

中

中高

高（0.786）

低

EEG时空分辨率均衡，本文方法在语义对齐上显著优于MEG

(2) 本文方法（Ours）的优势

EEG重建质量领先：

CLIP得分0.786：超越所有MEG方法（最高0.767），接近fMRI水平（0.917-0.942）。

SwAV 0.582：显著低于MEG的0.651，表明特征空间更接近真实图像。

MEG改进有限：

PixCorr/SSIM提升：从0.076→0.104（未平均）和0.336→0.340，但语义指标（如CLIP）下降（0.767→0.603），可能因过度关注低层特征而牺牲语义。

(3) 与其他工作的对比

方法特点局限性

NSD-fMRI [4] 基于fMRI的高质量重建（CLIP 0.917）依赖fMRI的高成本设备

THINGS-MEG [4] 原始MEG重建（CLIP 0.700）未利用时间平均导致噪声敏感

MEG (averaged) 时间平均后CLIP提升至0.767 丢失动态时间信息

Ours (EEG) 在EEG上实现CLIP 0.786，接近fMRI性能需验证跨被试泛化能力

3. 潜在结论

EEG的语义重建潜力：
通过本文方法，EEG在CLIP等高层语义指标上接近甚至超越MEG，挑战了“EEG空间分辨率低故不适合精细重建”的传统认知。

时间平均的权衡：
MEG时间平均（CLIP↑但SwAV↑）显示：

优势：抑制噪声，提升语义一致性。

代价：损失时序动态信息，降低特征区分度（SwAV恶化）。

方法改进方向：

MEG：需设计兼顾时序动态和语义保留的架构（如引入Transformer时序建模）。

EEG：可探索与扩散模型更深度的结合（如条件扩散的渐进细化）。

4. 对研究的启示

跨模态可迁移性：EEG的高语义重建能力可能受益于CLIP等通用视觉表征的迁移学习。

临床价值：EEG的低成本特性使其在脑机接口（BCI）应用（如梦境可视化）中更具实用性。

评价体系完善：需增加时序相关性指标（如动态SSIM）以全面评估MEG/EEG重建质量。

列名	含义
Dataset	数据集名称及方法来源（如[4]为对比方法，Ours为本文方法）
↑ PixCorr	像素级相关系数（越高表示像素空间越相似）
↑ SSIM	结构相似性指数（0-1，越高表示结构保留越好）
↑ AlexNet(2)	AlexNet第2层特征相似度（低层特征对齐度）
↑ AlexNet(5)	AlexNet第5层特征相似度（高层语义特征对齐度）
↑ Inception	Inception-v3特征相似度（综合语义匹配）
↑ CLIP	CLIP特征相似度（跨模态语义对齐）
↓ SwAV	SwAV对比学习特征差异度（越低表示特征空间越相似）

数据集	PixCorr	SSIM	语义指标（CLIP）	SwAV	结论
NSD-fMRI	高	高	高（0.915+）	低	fMRI空间分辨率高，重建质量最优（尤其是语义保留）
THINGS-MEG	低	中	中（0.603-0.767）	高	MEG时间分辨率高但空间模糊，语义保留较弱
THINGS-EEG	中	中高	高（0.786）	低	EEG时空分辨率均衡，本文方法在语义对齐上显著优于MEG

方法	特点	局限性
NSD-fMRI [4]	基于fMRI的高质量重建（CLIP 0.917）	依赖fMRI的高成本设备
THINGS-MEG [4]	原始MEG重建（CLIP 0.700）	未利用时间平均导致噪声敏感
MEG (averaged)	时间平均后CLIP提升至0.767	丢失动态时间信息
Ours (EEG)	在EEG上实现CLIP 0.786，接近fMRI性能	需验证跨被试泛化能力

3.4 Temporal Analysis时间分析

为了研究不同脑电图时间窗对视觉解码的影响，我们计算了滑动时间窗和增长时间窗的平均 top-1 分类准确率：

[0，t]：包括从视觉刺激开始到时间点 t的整个时间段
[t-100，t]：只包括时间点 t 之前 100 毫秒的数据

我们将准确率与随机选择的基线（0.5% 的概率水平）进行了比较，以测试预测性能（图 7）。

结果显示，在视觉刺激后 500 毫秒内，准确率达到约 30% 的上限，之后准确率不再提高（图7a）。

随着时间窗口的扩大，MEG 解码也显示出类似的情况（图 7b）。

我们在图 7c 中展示了不同脑电图时间窗 [0, t] 下生成的图像。当时间窗口小于 150 毫秒时，相似度较低，随着时间窗口的扩大，相似度逐渐增加。 500 毫秒后，脑电图引导的图像生成可以可靠地揭示所见图像的语义。

有趣的是，我们发现不同类别图像的最佳重建时间窗口存在差异，例如，果冻豆（200 毫秒）比航空母舰（500 毫秒）更快，这意味着人脑处理不同视觉对象的速度可能不同。这一发现凸显了脑电图在研究快速视觉处理过程中的高时间分辨率优势，而 fMRI 的时间分辨率较低。

3.5 Spatial Analysis空间分析

为了研究不同脑区对视觉解码的贡献，我们将 THING-EEG 数据中的脑电电极划分为五个不同的脑区（即图 8a 中的额叶区、颞叶区、中心区、顶叶区和枕叶区），然后对检索任务（图 8b）和重建任务（图 8c）进行了消融实验。

结果表明，在检索和生成任务中，使用所有脑区的信息都是最佳的。与其他区域相比，枕叶的检索准确率和重建性能最高。顶叶和颞叶区域包含一些语义信息，而额叶和中央区域对视觉解码的有用信息最少。

Visual Decoding and Reconstruction via EEG Embeddings with Guided Diffusion

全文总结

主要观点

Abstract

1 Introduction

prior diffusion的论文