CWGAN-GP 增强型 CAE 在非 IID 数据集中用于 5G-NR 干扰检测

发布于:2025-06-21 ⋅ 阅读:(15) ⋅ 点赞:(0)

抽象

在不断扩大的 5G-NR 无线蜂窝网络领域中,无线干扰攻击作为安全攻击普遍存在,损害了接收信号的质量。我们通过将加性高斯白噪声 (AWGN) 合并到真实世界的同相和正交 (I/Q) OFDM 数据集中来模拟干扰环境。利用卷积自动编码器 (CAE) 对各种特征(例如异构 I/Q 数据集)实施干扰检测;提取有关同步信号块 (SSB) 的相关信息,并减少具有明显类不平衡的 SSB 观测值。鉴于数据集的特点,通过采用 Conv1D 条件 Wasserstein 生成对抗网络梯度惩罚 (CWGAN-GP) 来获取平衡数据集 关于多数和少数 SSB 观察。此外,我们将所提出的 CAE 模型在增强数据集上的性能和检测能力与基准模型进行了比较:卷积去噪自动编码器 (CDAE) 和卷积稀疏自动编码器 (CSAE)。尽管所有数据集都涉及复杂的数据异质性,但 CAE 通过实现 CDAE 和 CSAE 的 97.33% 精度、91.33% 召回率、94.08% F1 分数和 94.35% 准确率的平均值,描述了干扰信号检测性能的稳健性。

索引术语:

数据增强、深度学习、干扰检测、卷积自动编码器、5G NR。

第一介绍

近年来,5G-NR 无线通信蓬勃发展,智能手机、平板电脑、物联网和大规模物联网设备等无线设备的显著增加。随着电信基础设施的出现,无线技术包括大规模多输入多输出 (MIMO)[1]、毫米波 (mmwave)[2]、载波聚合[3]、基于学习的资源分配[4]为 5G 蜂窝网络和最终用户之间的端到端服务连接提供服务。相反,5G-NR 无线蜂窝网络也容易受到安全攻击,尤其是干扰攻击,故意破坏传输信号的信噪比和误码率,从而降低通信质量。 干扰攻击以 5G NR 的物理层下行链路信道和下行链路信号为目标,利用同步信号块 (SSB) 中的固有漏洞,SSB 包含负责小区识别和用户与 gNodeB (gNB) 关联的主和辅助同步信号(PSS 和 SSS)等重要组件[5].

请参阅标题

图 1:家庭基站内 5G-NR 蜂窝网络中的干扰检测

5G-NR 网络中的一个关键问题是来自不同用户设备的数据异构分布,因为由于地理位置不同,数据通常是非独立且相同的分布式(非 IID)。这会导致用户数据集在多个用户之间的大小和数据分布方面存在显著差异[6].随着 5G-NR 网络的扩展,干扰检测需要机器学习技术[7,8]以及物理层深度学习 (PHY),以理解传播接收信号的底层模式。现有的基于深度学习的检测方法假设数据分布均匀,这可能与实际的 5G 部署不完全一致,因为在现实世界中,非独立和相同的分布式数据普遍存在。我们提出了一种干扰检测范式,该范式在解决真实数据集中的类不平衡问题时考虑了从每个用户那里获得的异构数据。Varotto 等人。[9]仅在非干扰信号上训练卷积自动编码器 (CAE),并针对基于正交频分复用 (OFDM) 的 5G 信号中的攻击提出安全策略。其他模型,例如双阈值深度神经网络 (DT-DDNN)[10]通过将 I/Q 样品转换为 2D 图像,能够以较低的误报和漏检率检测更广泛地检测干扰器。Almazrouei 等人。[11]通过使用卷积去噪自动编码器,提出了一种数据驱动的深度学习方法,在不依赖专业知识的情况下对 IEEE 802.11 协议的无线电信号进行去噪,并通过利用解码器和分类器来强调分类精度的提高。Luo 等人。[12]提出一种卷积稀疏自动编码器,通过将 MAX-pooling 集成到高效的特征学习中来稀疏特征映射。通过集成卷积神经网络,这些学习到的特征进一步用于使用 CSAE 提出图像分类策略。

干扰信号很少见,这会导致严重的类不平衡,从而导致在对非干扰和干扰的 SSB 信号进行分类时深度学习性能不佳。不同的信道条件和干扰水平减轻了学习过程。为了应对这一挑战,我们的框架包括具有梯度惩罚的条件 Wasserstein 生成对抗网络 (CWGAN-GP),用于增强少数类观察并减轻数据不平衡,而 CAE 增强特征提取以提高分类性能。使用生成对抗网络 (GAN) 在有效生成与真实数据分布非常相似的综合观测值和增加数据中的观测值数量方面很有希望。Chapaneri 和 Shah讨论了一种可靠的技术,通过利用 GAN 的变体来实现数据增强:Wasserstein GAN (WGAN) 来改善由网络流量中的网络攻击引起的少数攻击分类问题。Chen 等人。使用基于梯度惩罚 (CWGAN-GP) 的数据增强条件 Wasserstein 生成对抗网络来检测电力变压器中的绕组变形,并显示出与传统的基于人工智能 (AI) 的故障诊断模型相比有希望的改进。5G-NR 蜂窝网络中家庭基站的可视化表示如图 2 所示。1. 论文的主要贡献如下:

  1. 1. 

    通过捕获从多个位置的空口真实 5G 信号中收集的同相和正交 (I/Q) 样本,实现为射频域 5G 网络量身定制的两级干扰检测器。

  2. 2. 

    与之前处理均匀分布和平衡数据集的工作不同,我们采用 CWGAN-GP 来增强有限的 SSB 观察,专注于非 IID 数据集,以减轻对类不平衡的担忧并确保更具代表性的训练分布。

  3. 3. 

    增强数据集使用 CAE 进一步训练,CAE 联合执行基于重建和分类的干扰检测,提高检测能力,同时解决跨家庭小区的数据异构性问题。

我们的工作通过采用拟议的框架并评估基准模型的性能来推进现有的最先进方法在对时域数据集的非干扰和干扰信号进行训练时识别干扰信号。本文的组织结构如下。第 II 节详细阐述了用于干扰检测的 CWGAN-GP 数据增强技术。第 III 节讨论了用于干扰检测的系统模型。第 IV 节在第 V 节中介绍了实验装置和仿真结果,第 VI 节总结了本文中的工作。

第二CWGAN-GP 基于增强的干扰检测

这项工作的目标是定义一种基于增强 ML 的方法,该方法考虑了在不同地理位置收集的每个数据集的数据集异质性。这种异质性是通过存在代表属性偏度的非 IID 数据、数据集中 SSB 观察值(训练样本)数量的差异以及干扰和非干扰信号的不平衡类分布来识别的。拟议的框架处理数据收集和预处理的各个阶段,以模拟受干扰的 5G RF 环境。

II-A 型数据采集

数据是在频谱分析仪的帮助下获得的,频谱分析仪通过空口收集接收到的信号波形,并在电信运营商之间共享:Telus Communication Inc. 和 Rogers Communication Inc.。此外,这些接收到的波形是通过在可用的传输蜂窝网络上设置特定的中心载波频率和带宽来获取的,分别支持各种 5G-NR 频段和带宽。

II-B 型数据预处理

将采集到的接收信号转换为频谱图,连贯地反映了信道资源块的有用信息。仅以复杂 I/Q 样本的形式从资源块中提取特定的 SSB。鉴于𝒩地理位置不同,𝒩生成 I/Q 数据集,每个数据集都包含不同的训练 SSB 观察值。我们假设 I/Q 样本的绝对值对于基于功率的干扰检测有效,其中信号的相位在计算中被忽略。此外,这些绝对值在所有数据集中都进行了归一化,保持了高维特征空间。此外,通过将信噪比 (SNR) 改变到所有数据集的合适范围,模拟了 AWGN 作为干扰信号的合并。这提供了有关在所有数据集中具有非干扰和干扰信号类别分布不平衡的训练 SSB 的信息。我们提出的框架不仅限于 AWGN,还可以用于其他类型的干扰信号。

II-C 型数据增强解决类不平衡问题

为了解决数据增强技术,选择 CWGAN-GP 来生成更多的 SSB 观测值作为过采样方法。但是,对少数 (非干扰) 和多数 (干扰) 信号都采用过采样,以获得平衡的二进制分类问题。此外,增强有助于 CAE 偏向于一类信号。GAN 由 Goodfellow 等人提出的两个神经网络(生成器和判别器)组成。[16].该生成器旨在利用高斯噪声来获得类似于真实数据分布的合成观测值。GAN 的目标函数遵循最小-最大博弈,公式化为:

生成器LG和判别器LD损失表示如下:

哪里p(x)d⁢一个⁢t⁢一个表示实际数据分布;p(z)z表示高斯分布噪声 z;G(⋅)表示生成器函数;E(⋅) 表示预期的函数;D(⋅)表示鉴别器函数。的LD同时考虑真实数据和生成数据,同时区分它们,如 (3) 所示。WGAN 和 WGAN-GP 利用公制推地移动器 (EM) 距离作为实际数据分布和生成数据分布之间距离的量度,这优于传统 GAN 中遵循的 Jensen-Shanon (JS) 散度。WGAN 在规避模式崩溃问题方面非常有效。EM 距离表示为,

哪里Π⁢(ℙr,ℙg)表示整个联合概率分布γ⁢(x,y)实际分布ℙr和生成的数据分布ℙg.此外W⁢(ℙr,ℙg)描述了在转换分布时转移质量所需的最低成本ℙr到ℙg.此外,EM 距离对于获得有意义的梯度以进行梯度下降训练相对有用。 WGAN 的生成器 (G) 和评分者 (C)(称为判别器)之间的目标函数定义为:

相反,由于 WGAN 中的权重削波因子,WGAN 仍然无法收敛。因此,Gulrajani[17]介绍 WGAN-GP,这是 WGAN 的扩展,它惩罚了批评家对其输入的梯度规范。这使得 WGAN-GP 适用于几乎没有超参数调整的稳定训练。WGAN-GP 的修改后的目标函数定义为,

哪里λ是梯度惩罚系数𝐱^是实数分布之间的抽样分布ℙr和生成的分发ℙg如图 (7) 所示:

相反,CWGAN-GP 确保辅助条件信息𝐲;class 标签添加到批评者和生成器中。从形式上讲,最小化 critic 和生成器的损失函数的目标值函数表示为 (8)、(9) 和 (10)。

请参阅标题

图 2:卷积自动编码器 (CAE) 的架构。

第三使用卷积自动编码器进行干扰检测

CAE 用于单类分类或干扰检测。增强数据集中的 2D 时间相关性对于进行高维 I/Q 样本的卷积运算很有用。此外,与其他 CAE 通常被训练为重建的自动编码器不同,我们打算将 CAE 用作重构器和分类器。如图 1 所示。如图2所示,CAE取Q×维数P的输入数组X;其中 P 是 SSB 观测值,Q 是高维 I/Q 样本。CAE 的输出为 Y,由于模型的重建特性,它与 X 的大小相同。CAE 由 L 层组成ℓ= 1,..., 。编码器最后一层的输出为 (11)。解码器包括转置 Conv1D 层,这些层通过压缩的潜在空间从编码表示形成重建的输入。解码器最后一层的输出为 (12)。

哪里𝐔(ℓ)和𝐕(ℓ)是ℓth分别是 encoder 和 decoder 层,f⁢(⋅)是非线性激活函数,在本例中通常为 ReLU。𝐂(ℓ)和𝐃(ℓ)是层的卷积权重ℓ、卷积运算∗跟𝐔(ℓ−1)和𝐕(ℓ−1)和𝐛(ℓ),𝐝(ℓ)作为层的偏差ℓ.第一层的输入是 X ∈ ℝP×Q,最后一层 L 的输出为 Y = 𝐕(L).

为了实现干扰检测,我们的 CAE 是通过压缩输入 X 来训练的,该 X 表示干扰和非干扰信号的 I/Q 特征,使用潜在表示。目标是在无监督学习中训练模型,以最小化 (13) 中获得的 X 和 Y 之间的均方误差 (MSE)。但是,重建的权重We(ℓ)和偏见be(ℓ)从 CAE 的训练编码器中捕获ℓthEncoder 层。这些权重和偏差被转移到完全连接的神经网络 (FCN);通过将经过训练的编码器和 FCN(添加到编码器的头部)组合成一个新的更新模型,将 CAE 转换为分类器ℳ分别如 (14) 和 (15) 所示。

检测能力ℳ通过获取输入 X 和真实 R,训练超过 80% 的训练数据,并使用合适的阈值对 20% 的测试数据进行评估γ.

四实验装置

在 5G n71 频段内实现了实验设置。根据 3GPP 规范,该频段跨越 617 MHz 至 652 MHz 的下行链路频率范围,提供 35 MHz 的总带宽[18].频率范围由两个运营商 TELUS 和 Rogers 划分,每个运营商分配了 10 MHz 的带宽。TELUS 的中心频率为 632 MHz,而罗杰斯的中心频率为 622 MHz。该设置如图 1 所示。3,具有 ThinkRF RTSA R5500 频谱分析仪作为接收器,带有两个不同的天线,用于捕获来自 TELUS 网络的空口 (OTA) 5G 信号。

在各种环境中以 15.36 MHz 的频率进行采样,包括室内位置和室外场景(包括视线 (LOS) 和非视距 (NLOS) 条件)。收集的样本使用 PyRF4 API 以 CSV 格式保存,随后进行处理。要从 SSB 获得准确的信息,必须估计时间偏移 (TO) 和载波频率偏移 (CFO)。由于确切的中心频率未知,因此需要盲搜索方法。为了精确确定 TO 和 CFO,我们利用 PSS 相关特性和循环前缀正交频分复用 (CP-OFDM) 5G 波形中的循环前缀来与 gNB 信号对齐。

图 3:用于干扰检测的实验装置。

估算 CFO 的优化问题表示为:

哪里xp⁢s⁢s是主同步信号,是 SSB 中的第一个 OFDM 符号,fs是采样频率。 为了获得SSB的时间偏移量,Schmidl & Cox方法[19]被使用。因此,以下优化问题 (17) 以数值方式求解,其中𝒫⁢(t)和ℛ⁢(t)表示为 (18) 和 (19),其中L^是一个 OFDM 符号中样本数的一半。

表 I:有关数据集的信息

数据集 ID 位置和传播条件 SSB 观察计数 类不平衡
1 Banchory (户外、NLOS、LOS) 826 (1) : 793 (0) : 33
2 Legget (户外, LOS) 544 (1) : 518 (0) : 26
3 Indoor_2 (室内, LOS) 971 (1) : 933 (0) : 32
4 Indoor_3 (室内、NLOS) 1038 (1) : 998 (0) : 40
5 Indoor_4 (室内、NLOS) 877 (1) : 839 (0) : 38
6 Indoor_5 (室内、NLOS) 989 (1) : 945 (0) : 44
7 Neighbor_2 (Outdoor, LOS, NLOS) 805 (1) : 771 (0) : 34
8 Neighbor_3 (Outdoor, NLOS) 923 (1) : 886 (0) : 37
9 Neighbor_1 (Outdoor, LOS) 749 (1) : 719 (0) : 30
10 Park Shirley (户外, LOS, NLOS) 833 (1) : 799 (0) : 34
11 Shirin Market (Outdoor, LOS) 664 (1) : 638 (0) : 27
12 停车标志 (Outdoor, LOS) 978 (1) : 937 (0) : 41

表 II:CWGAN-GP 参数和超参数

参数/超参数 值/详细信息
模型架构 C:32-512 学分,G:128-64 学分
潜在向量维度 128
辍学 C:0.5,G:无
批量规范化 C:无,G:有
激活函数 C 和 G 隐藏:LeakyReLU,G 输出: tanH
批量大小 64
训练 Epochs 20
优化 α: 0.0001,β1: 0.5,β2: 0.9
梯度惩罚系数 20
评论家培训 7

V实验结果

仿真在 12 个异构数据集上执行,每个数据集都包含较少的 SSB 观测值,干扰 (1) 和非干扰 (0) 信号存在显著的类不平衡。表 I 总结了每个数据集的信息。

V-A使用 CWGAN-GP 进行数据增强

表 III:自动编码器的参数和超参数

参数/超参数 值/详细信息
CAE认证 CDAE CSAE
层数 (编码器) 3 3 3
层数 (解码器) 3 3 3
稀疏概率 - - 0.05
稀疏因子 - - 0.01
噪声系数 - 0.3 -
激活 ReLU 系列 ReLU 系列 ReLU 系列
辍学 0.2 0.2 0.2
批量大小 200 200 200
学习率 0.0001 0.0001 0.0001
时代 30 (自动编码器和分类器) 15 (自动编码器), 30 (分类器) 15 (自动编码器), 30 (分类器)
优化 Adam (自动编码器和分类器) Adagrad (自动编码器), Adam (分类器) SGD (自动编码器), Adam (分类器)
损失函数 MSE 和 BCE MSE 和 BCE MSE 和 BCE

表 IV:80:20 训练集/测试集上的干扰检测结果比较

数据集 ID CAE认证 CDAE CSAE
精度 召回 F1 分数 MDR 精度 召回 F1 分数 MDR 精度 召回 F1 分数 MDR
1 100 82 90 0 17.8 83 98 90 19.9 2 97 95 96 2.7 5
2 97 92 95 2.5 8 64 88 74 47.6 12 88 98 93 12.5 2
3 97 81 88 2.7 19 85 96 90 15.5 4 93 92 92 7 8
4 97 95 96 3.1 5 91 97 94 10.6 3 93 89 91 7.2 11
5 100 99 99 0.4 1 84 98 91 18 2 94 97 96 6 3
6 92 95 94 8.1 5 98 82 90 1.8 18 87 88 87 14.1 12
7 100 99 99 0.4 1 94 90 92 6.2 10 98 98 98 2 2
8 99 92 95 1.1 8 97 84 90 2.7 16 90 94 92 9.9 6
9 92 68 78 6.4 32 97 95 96 2.6 5 95 97 96 5.1 3
10 98 97 98 1.6 3 99 86 92 1 14 51 65 57 68.6 35
11 100 99 100 0.1 1 92 91 91 7.6 9 98 95 96 1.9 5
12 96 97 97 4.3 3 92 96 94 9.5 4 95 93 94 5.21 7

请参阅标题

图 4:CWGAN-GP 中的训练损失曲线。

我们采用 CWGAN-GP,它通过将观察数量增加到固定数量来处理每个数据集的异质性,例如,5000 个观察;强制执行 2500 个干扰信号和 2500 个非干扰信号。假设每个数据集的整个类不平衡是使用 CWGAN-GP 进行过采样之前的训练集。CWGAN-GP 的架构遵循一个用于 C 的五层 Conv1D 神经网络和用于 G 的两个 Conv1D 神经网络。CWGAN-GP 在几个 epoch 上以固定的批量大小进行训练[20]生成 250 个生成的观测值,即 5000 个观测值;其中包括 2500:干扰和 2500:非干扰 SSB 观测值。我们为优化器 Adam 选择默认值,设置梯度惩罚系数,并训练 critic 几次,这与[17].表 II 介绍了 CWGAN-GP 的参数和超参数的详细信息。CWGAN-GP 模型显示了训练时期的收敛性(见图 1)。4),描述评论家的损失与 Wasserstein 的损失一起稳定。然而,生成器损失在训练的早期阶段达到峰值,突出了生成的样本与真实样本相去甚远,并随着时间的推移逐渐稳定下来,以生成更真实的样本。

V-B使用 CAE、CDAE 和 CSAE 进行培训

CAE 在每个数据集 ID 上进行训练,以展示分类指标精度、召回率、F1 分数和模型准确性方面的检测性能。但是,干扰检测需要其他指标,例如误报率 (FAR) 和漏检率 (MDR) 来理解实际部署的有效性。FAR 和 MDR 指标对于测量误报和损害网络安全的潜在迹象至关重要。此外,CAE 首先在无监督学习算法中进行训练,同时假设 8:2 作为训练和验证集。在第一个训练过程中,CAE 捕获经过训练的编码器的权重和偏差,并传输到全连接层;充当分类器,随后以监督学习方式进行训练。表 III 中突出显示了 CAE 模型的参数和超参数。使用经过训练的权重的分类器的干扰检测性能展示了在考虑γ= 0.5 的但是,与其他数据集相比,数据集 ID 9 的召回率和 F1 分数分别为 68% 和 78%。这意味着更大比例的真正干扰信号被错误地检测为假阴性或非干扰信号。此外,漏检率为 0.32,这表明 32% 的干扰信号被识别为非干扰信号。此外,误报率为 0.064 或 6.4% 的真正非干扰信号被错误地识别为干扰信号。

相反,CDAE[11]和 CSAE[12]在无监督的情况下进行训练,并计算输入样本和解码输出之间的重建误差。在经过训练的编码器和全连接层的输入处仅使用重建误差,以获得具有相同阈值的分类性能,这与 CAE 遵循的类似训练不同。但是,权重/偏差由 CDAE 和 CSAE 捕获,并转发到 FCN,类似于 CAE。表 IV 中显示的 CDAE 检测能力突出了除数据集 ID 2 之外的所有数据集的有希望的性能;分别实现了 64%、88% 和 74% 的精确率、召回率和 F1 分数。低 precision 值表示存在高误报。较低的假负值提供了获得较高召回率的直接提示。此外,数据集 ID 2 的漏检率显示,12% 的干扰信号被识别为非干扰信号,47.6% 的非干扰信号的误报率被错误识别为干扰信号;导致更多的误报。相反,CSAE 在所有数据集中都表现令人满意,但数据集 ID 10 的精度、召回率、F1 分数和准确性如表 IV 所示。检测性能差一致地表明高假阴性和高假阳性分别导致获得低精度和召回率。从漏检率和误报率来看,35% 的干扰信号被区分为非干扰信号,68.6% 的非干扰信号被误认为是干扰信号。由于不同位置的干扰功率的传播和信道条件不同,所有数据集的性能差异是显而易见的。此外,所有数据集中模型的准确性比较突出了 CAE 优于 CDAE 和 CSAE,如图 2 所示。5. 此外,通过假设拟议的 CAE 优于其他基准模型:CDAE 和 CSAE,比较显示了显着的性能差异。精度、F1 分数和准确率的平均值突出表明,所提出的 CAE 模型优于基准模型,表 V 显示了显着差异。

请参阅标题

图 5:每个数据集的准确性比较。 表 V:模型的平均分类性能指标

模型 精度 (%) 召回率 (%) F1 分数 (%) 准确率 (%)
CAE认证 97.33 91.33 94.08 94.35
CDAE 89.67 91.75 90.33 89.93
CSAE 89.92 91.75 90.67 89.92

六结论和未来工作

我们提出了一种针对 5G-NR 网络的基于增强的干扰检测,同时假设各种因素:多个家庭小区的数据异构性、有限的 SSB 观测以及所有数据集中存在的类不平衡。我们的方法利用 CWGAN-GP 来生成更多的合成 SSB 观测并获得平衡的数据集;包含等量的 Jammed 和非 Jammed 信号。为了确保高分类性能和对干扰攻击的检测,我们采用了 CAE,并在 5G-NR 蜂窝网络的 IQ 信号的无监督和有监督学习中训练模型。结果表明,CAE 的检测能力在指标方面优于其他基准模型:CDAE 和 CSAE:精度、可接受的召回率、F1 分数和准确性。然而,对所有数据集的 CAE 模型与基准模型的详细比较表明,与 CDAE 和 CSAE 不同,所提出的方法在训练过程中没有涉及重建误差的情况下,实现了至少 90% 的准确率,性能更好。CAE 的检测性能取决于 CWGAN-GP 增强样本的质量,如果发生器损失频繁波动而不随时间收敛,则可能会影响性能。我们正在进行的工作旨在解决计算复杂性和优化策略,通过在 5G-NR 网络中假设更多的家庭基站来提高可扩展性。


网站公告

今日签到

点亮在社区的每一天
去签到