感兴趣文章研读

发布于:2025-05-10 ⋅ 阅读:(12) ⋅ 点赞:(0)

一、Blockchain-empowered Asynchronous Federated Reinforcement Learning for IoT-based Traffic Trajectory Prediction(《针对物联网下交通轨迹预测的区块链授权联邦强化学习》)

解决问题:轨迹数据的敏感性和数据持有者不愿共享数据限制了预测模型捕捉不同场景下车辆行为模式的能力。

①传统方法过于依赖物理模型和运动学方程,难以处理复杂的车辆运动。

②物联网设备实时收集车辆和环境数据,推动轨迹预测取得重大进展。然而,这些方法在处理复杂的交通场景时存在局限性,不能充分考虑周围车辆、行人等不确定因素的影响。

③为了克服传统轨迹预测方法的局限性,数据驱动的机器学习方法逐渐成为研究热点。深度学习在轨迹预测中有广泛的应用:递归神经网络(RNN)、长短期记忆网络(LSTM)和门控递归单元(gru)通过学习历史轨迹和交通模式,在复杂和动态的交通环境中实现更准确的预测。

       与LSTM相比,GRU具有更简单的结构。它只包含两个门(更新门和复位门),而LSTM有三个门。GRU通过合并某些门控操作来减少参数的数量。它能够以有限的计算资源实现更有效的训练和推理,同时保持更高的性能。相比之下,RNN在处理长时间序列数据时容易发生梯度爆炸或梯度消失。同时,利用卷积神经网络(cnn)和图神经网络(gnn)捕获环境中的时空特征,进一步提高预测精度。与CNN和GCN(图卷积网络)相比,GRU更擅长处理长时间依赖的时间数据,可以有效地捕捉轨迹预测中的动态时间特征。因此,我们选择GRU作为骨干网

④随着多智能协作和分布式学习的发展,引入了联邦学习技术用于轨迹预测。然而,联邦学习仍然面临着异构数据、通信开销、数据安全和模型更新延迟等方面的挑战。

安全和隐私保护问题:区块链技术凭借其去中心化和数据不变性等优势逐渐被引入到轨迹预测领域。区块链确保通过共识机制共享多代理数据时的安全性。

现有的共识算法:在自动驾驶轨迹预测方面存在明显的缺陷。例如:PoW算法消耗大量的计算资源,导致共识过程延迟。这会导致模型参数更新滞后,影响实时决策速度,增加驾驶风险。在大规模节点下,PBFT容易出现性能瓶颈,特别是在车速较快或交通密集的情况下。它降低了适应快速变化的能力,增加了错误预测的可能性。

现有的轨迹预测方法:大多集中在传统的强化学习和深度学习模型上。虽然这些方法可以在一定程度上提高预测精度,但它们仍然面临一些问题。特别是在多车协同轨迹预测场景下,如何避免模型陷入局部最优解。并且在提高模型性能的同时保证实时性仍然薄弱。因此,现有的研究在联邦学习框架下的实时数据共享和模型性能方面存在更多的问题。

问题总结:

  1. 数据隐私与共享矛盾:轨迹数据敏感性导致数据持有者不愿共享,限制了模型对多场景行为模式的学习。解决方法联邦学习框架(FL):通过本地模型训练,仅共享模型参数而非原始数据,保护数据隐私。区块链技术:使用区块链存储全局模型参数和更新记录,确保数据不可篡改,增强多方协作的可信度。

  2. 模型协作效率低:传统联邦学习依赖中心化服务器,存在单点故障风险,且同步更新机制导致通信开销大、实时性差。解决方法异步联邦学习(AFL):客户端完成本地训练后异步提交模型更新,服务器动态加权聚合(公式12-14),减少等待时间,提升实时性。动态权重分配:根据客户端提交时间(τi)和参与频率调整权重(ϕ(τi)),优先处理高频贡献节点(公式13-14)。

  3. 局部最优与探索不足:现有强化学习模型在复杂交通场景中易陷入局部最优,缺乏对未知状态空间的主动探索。解决方法好奇心驱动的C-PPO算法

    内部奖励机制:基于预测误差(rnintrnint​)激励智能体探索未知状态(公式17)。总奖励优化:结合外部环境奖励(rnextrnext​)和内部奖励,平衡即时反馈与长期探索(公式18)。策略裁剪(Clip):限制策略更新幅度(公式21),避免梯度爆炸或策略突变。
  4. 数据可信与安全:多节点协作场景中,恶意攻击可能导致模型参数篡改或数据不一致。解决方法动态分组共识算法(DG-PBFT)

    节点动态分组:基于欧氏距离(公式26)将区块链节点分至多个广播域,并行化共识过程,降低通信开销。中心节点迭代更新:通过最小化组内距离(公式27)动态选举中心节点,减少恶意节点影响。抗篡改机制:篡改需同时攻击多个分组,增强数据安全性。
  5. 时空特征建模不足:传统方法难以有效捕捉长时序依赖和复杂交通场景的动态特征。解决方法双GRU结构历史GRU:提取目标车辆的历史运动特征(hhaim​,公式9)。未来GRU:编码未来轨迹特征(hfaim,公式10),提供全局预测的丰富信息。门控机制优化:利用GRU的更新门(γn​)和重置门(νn​)灵活控制信息流(公式6-8),增强长时序建模能力。

创新点:

提出了一个基于区块链的异步联邦近端策略优化框架(BE-AFPPO),用于自动驾驶车辆的轨迹预测。(1)我们提出了好奇心近端策略优化算法(Curiosity Proximal Policy optimization, C-PPO)。该方法采用驱动探索策略,主动激励智能体对未知状态空间进行探索。避免策略模型在处理轨迹数据时达到局部最优。(2)将历史GRU和未来GRU设计为输入层。分别提取目标的历史运动特征和未来轨迹特征。(3)通过异步联邦学习接收各种数据。该模型可以充分学习车辆在不同场景下的行为模式,提高了预测精度。(4)开发了一种基于区块链的动态组实用拜占庭容错(DG-PBFT)共识算法。这增强了数据的可信度和完整性,同时丰富了轨迹数据的来源。

(1)我们设计了一种新的C-PPO算法。该算法通过引入好奇心驱动的探索策略,有效激发智能主动探索未知状态空间。避免了在处理复杂轨迹数据时陷入局部最优,提高了整体策略模型的预测能力

(2)我们设计了历史GRU和未来GRU作为单个飞行器轨迹数据的特征表示。它们分别用于提取目标的历史运动特征和未来轨迹特征。GRU能够更好地捕获轨迹数据中的长期依赖关系。具有路边单元聚合的全局预测模型的丰富特征信息

(3)通过使用异步联邦学习从多辆车收集丰富的轨迹数据,可以协作训练模型,而无需在参与者(例如不同的车辆或路边单元)之间直接共享数据。这使得单飞行器轨迹模型能够实时更新和优化,显著增强了其对新数据和新场景的适应性和泛化能力

(4)我们开发了一个基于区块链的DG-PBFT共识算法。DG-PBFT算法通过动态分组增强区块链网络的容错性。它有效地处理来自多个作为联邦学习服务器的路边单元(rsu)的轨迹数据。这提高了模型在不同交通场景下的学习能力,从而提高了车辆轨迹预测的准确性和鲁棒性

主要贡献总结:

我们设计了一种新颖的C-PPO模型。该模型通过激励智能主动探索未知状态空间和避免局部最优,显著提高了复杂交通数据的处理能力;

我们设计了历史GRU和未来GRU来提取自行车轨迹数据的历史和未来特征。利用GRU的门控机制有效捕获了长期依赖关系,为全局预测模型提供了丰富的信息;

异步联邦学习用于实现从客户端异步传输模型更新。通过接收来自多车的丰富轨迹数据,提高对新数据、新场景的适应能力和泛化能力;

设计DG-PBFT共识算法,增强区块链系统的容错性和数据处理效率,有效处理服务器全局模型。

所用技术与方法:

强化学习-近端策略优化算法(PPO)~C-PPO模块:C-PPO模块使用全局模型参数对策略网络进行优化。首先,C-PPO通过限制策略更新的大小来确保模型在优化过程中最大化预期收益。其次,C-PPO有助于避免过度优化和梯度爆炸/消失等问题。这提高了策略的可靠性和预测性能。最后,优化后的策略可以用来指导未来的决策过程,并为模型提供持续的反馈。

门控循环单元(GRU)~Bi-GRU模块:首先,框架通过传感器实时收集目标车辆及其周围交通参与者的历史轨迹数据。然后,通过统计方法去除异常值,计算均值和标准差,消除异常值。用线性插值法对缺失数据进行补全。最后,使用Bi-GRU模型对参与者进行本地培训。该模型能够有效地捕获时间序列数据中的长期和短期依赖关系,并提取目标车辆及其周围环境的关键特征。这一步骤避免了大数据传输的开销,并增强了实时轨迹更新。

异步联邦学习~AFL模块:当所有参与者完成本地训练后,系统使用AFL方法将每个参与者的本地模型更新参数聚合到中央服务器上。这种异步更新避免了由于网络延迟而导致的同步问题。此外,服务器通过聚合所有参与者的本地模型并将其分发给每个参与者来生成全局模型。在这一步中,参与者可以访问通过多方学习优化的模型,提高框架的可扩展性和效率。(AFL允许每个客户端在异步时间点提交其模型更新。服务器接收更新并立即执行聚合。)

共识算法~区块链模块:每次更新后,将全局模型及其参数、隐藏状态等重要信息提交给区块链网络。区块链技术提供了一种去中心化的信任机制,使不同网络环境中的参与者能够信任模型更新,保证模型传输过程的完整性和有效性。同时,系统采用DG-PBFT进行验证,保证了框架的有效性和一致性。此步骤确保了在网络异构条件下,所有参与者都能可靠地访问一致的模型更新信息。

          DG-PBFT:区块链网络中的节点首先动态分组。然后,将这些节点分配到多个广播域,以并行化共识过程。这也促使DG-PBFT算法利用区块链技术结合其动态分组方法来解决数据篡改攻击。这是因为联邦学习模型参数的更新在提交给区块链时无法更改。通过每组节点的独立验证,及时发现试图篡改更新后参数的恶意节点。此外,基于欧几里得距离和中心节点迭代重选的分组机制降低了恶意更新影响系统的可能性,使攻击者难以篡改数据。这是因为篡改必须同时破坏多个广播域中的节点。

技术方法

  1. 数据预处理与特征提取

    • 使用统计方法(均值、标准差)剔除异常值,线性插值填充缺失数据。

    • 双GRU结构分别编码历史轨迹(Taim)和未来轨迹(Paim),生成隐藏状态

  2. 异步联邦学习聚合

    • 客户端本地训练后,异步上传模型参数ΔζiΔζi​,服务器按时间权重(ϕ(τi))动态聚合,更新全局模型ζn+1ζn+1​。

  3. C-PPO策略优化

    • 结合外部奖励(环境反馈)与内部奖励(预测误差),最大化总奖励Rntotal,利用GAE(广义优势估计)优化策略网络。

    • 通过裁剪策略更新幅度(clip操作)避免梯度爆炸/消失。

  4. 区块链与DG-PBFT共识

    • 节点按欧氏距离动态分组,每组选举中心节点,定期更新以最小化组内距离总和。

    • 恶意节点篡改需同时攻击多组,增强数据安全性。

实验设置与结果:

结果表明,该方法提高了弹道预测的鲁棒性和精度

实验环境:使用PyTorch框架和HyperLedger Fabric构建联邦区块链,实验服务器配置为Intel(R)Core(TM)i9-12900K@2.5GHz,128GB RAM,以及NVIDIA GeForce(4090D-24G)*2。

数据集:采用nuScenes开源数据集,包含丰富的城市交通场景和多模态数据。

评价指标:使用与地面真实轨迹的偏差,包括MinADE-K(最小k均值位移误差)、MinFDE-K(最小最终位移误差)、MR-K₂(预测轨迹偏离阈值比例:2米内错误率);Off-Road Ratio(偏离道路率)和Off-Yaw Metric(偏航角误差)等指标评估轨迹预测性能。

对比实验:与现有先进模型(如MHA-JAM、cxxx、Multipath、Physics oracle、CoverNet、Trajectron++、P2T和CVAE)进行对比,验证所提方法的优越性。

消融实验:通过消融实验分析不同组件(如GRU、AFL、C-PPO和DG-PBFT)对模型性能的影响。

  • GRU + AFL vs. GRU + SFL:AFL的异步机制使MinADE-5降低0.28,偏离道路率降低0.05。

  • C-PPO + AFL vs. C-PPO + SFL:AFL提升鲁棒性,MinADE-5降低0.93。

  • BE-AFPPO:综合各模块优势,预测误差最小且收敛稳定(图10)。

攻击模拟:模拟模型梯度篡改攻击,评估所提方法在防御恶意攻击方面的有效

场景案例分析:复杂路口(T型、十字路口)中,BE-AFPPO预测轨迹更贴近真实路径,长时预测偏差显著低于CoverNet、Multipath等(图6-8)。

性能分析:分析模型的延迟、参数数量和FLOPs(浮点运算次数),验证所提方法在物联网环境中的适用性。

二、TST-Trans: A Transformer Network for Urban Traffic Flow Prediction(《TST-Trans:一种用于城市交通流预测的变压器网络》)

解决问题:

  1. 难以提取时空特征
    • 现有的基于Transformer的方法通常只能单独捕获空间特征或时间特征,而TST-Trans通过时空嵌入方法同时捕获两者,提高了预测精度。
  2. 难以表示交通流量数据
    • 传统的位置编码方法无法准确反映交通流量的时空依赖性,而TST-Trans采用的可学习位置编码器能够更好地适应不同城市的交通条件。
  3. 模型参数多、训练速度慢、预测精度低
    • TST-Trans通过优化网络结构和参数设置,减少了模型参数数量,提高了训练速度,同时保持了较高的预测精度。

创新点:

  1. 提出新的Transformer网络模型
    • 设计了一种名为TST-Trans(Temporal-Spatial Traffic-flow Transformer)的新型Transformer网络,专门用于高精度城市交通流量预测。
  2. 学习位置编码器
    • 采用可学习的位置编码器替代传统的固定位置编码器,使其能够更好地适应不同城市的交通条件,提高模型的灵活性和准确性。
  3. 时空嵌入方法
    • 引入了一种创新的时空嵌入方法,该方法集成了时间关系和空间信息以及外部输入,有效捕获了交通流量的时空依赖性,提升了预测性能。

所用技术与方法:

  1. ST-Embedding(ST-E)组件
    • 空间块(Spatial Block, SB):利用3D卷积层、展平操作和层归一化(Layer Normalization, LN)来提取空间信息,增强模型对空间特征的捕捉能力。
    • 位置编码(Position Encoding, PE):采用可学习的位置编码器,以区分不同时间趋势的数据,使模型能够更好地适应不同时间段的交通流量变化。
    • 拼接(Concatenation):将不同时间趋势类别的数据拼接在一起,形成最终的ST-E序列,为后续的Transformer块提供丰富的时空特征。
  2. Transformer块(Transformer Block, TB)
    • 多头自注意力机制(Multi-Head Self-Attention, MSA):用于捕获序列中的时间信息,增强模型对时间特征的提取能力。
    • 批归一化(Batch Normalization, BN):对输入进行归一化处理,提高模型训练的稳定性和收敛性。
  3. 多层感知机(Multi-Layer Perceptron, MLP)块
    • 全连接层:用于提取外部特征表示,如假期、天气、温度和风速等,增强模型的泛化能力。
    • GELU激活函数:确保所有值都在[-1,1]范围内,提高模型的非线性表达能力。

实验设置:

数据集TaxiBJ:来自北京的出租车GPS数据,包含2013年至2015年的数据,用于评估模型在城市交通流量预测中的性能。BikeNYC:来自纽约市的自行车系统数据,包含2014年的数据,用于验证模型的泛化能力。

外部因素:考虑了假期、天气、温度和风速等外部因素,以更全面地评估模型在实际应用中的性能。

实验环境:使用PyTorch库实现模型,实验在一台配备NVIDIA GeForce RTX2080Ti GPU的工作站上进行,确保了实验的效率和准确性。

参数设置:分支长度设置为(3, 3, 3),Transformer块深度设置为4,多头数设置为8,空间块大小根据数据集特点进行调整,丢弃率设置为0.1,损失函数采用均方误差(MSE),优化器选用Adam,初始学习率为0.0004,批量大小为32,训练周期为200。

实验结果:

与其他方法的比较:在TaxiBJ和BikeNYC数据集上,TST-Trans的RMSE和MAE值均优于其他基线方法,如VAR、ARIMA、SARIMA、DeepST、ST-ResNet、STDN、STD-Net、MST3D、Transformer、GCN和MVGCN,显示了TST-Trans在交通流量预测中的优越性。

模型参数比较:TST-Trans的模型参数数量少于其他神经网络模型,特别是少于标准Transformer模型,表明TST-Trans在保持高性能的同时具有更高的效率。

超参数影响:Transformer块深度、多头数、空间块大小等超参数对模型性能有影响。适当的深度和多头数可以提高模型性能,但过深或过多的多头数可能导致过拟合。空间块大小需根据数据集特点进行调整,以确保模型能够正常训练。

组件影响:批归一化(BN)和层归一化(LN)对模型训练有影响,使用BN的模型在训练过程中表现更好。可学习的位置编码方法优于固定的1D和2D位置编码方法,能够更好地适应不同城市的交通条件。

消融实验:结合多个组件可以显著提高交通流量预测模型的性能。例如,在TaxiBJ数据集上,结合“SB+ST-E+TB+PE”的模型比仅使用“SB”的模型在RMSE和MAE上分别降低了17.1%和19.0%,表明时空嵌入方法和可学习位置编码器的有效性。

三、A multi-center federated learning mechanism based on consortium blockchain for data secure sharing

解决的问题

1. 数据隐私与共享矛盾

  • 问题:医疗机构因数据敏感不愿共享,传统联邦学习依赖中心服务器,存在隐私泄露风险。

  • 解决方法

    • 联盟区块链网络:通过去中心化架构替代传统中心服务器,数据模型参数存储在区块链上,确保数据不可篡改且可追溯。

    • IPFS存储:模型参数通过星际文件系统(IPFS)分布式存储,仅将内容标识符(CID)上链,减少链上负载,保护数据隐私。 

2. 单点故障风险

  • 问题:传统联邦学习的中心服务器故障导致系统崩溃。

  • 解决方法

    • 多中心联邦学习框架(MCFLM-CB)

      • 动态轮询机制:通过轮询选择组内中心节点,避免依赖单一服务器。

      • 分组协作:将参与者按地理位置或机构分组,每组独立完成本地模型训练和组内聚合,降低全局依赖。

3. 通信效率低

  • 问题:传统PBFT共识算法在大规模节点下通信复杂度高(O(N2)),吞吐量低。

  • 解决方法

    • 动态分组PBFT共识算法(DG-PBFT)

      • 动态分组:基于欧氏距离将节点分至多个广播域(公式1),并行化共识过程,通信复杂度降至 O(G⋅(N/G)2)O(G⋅(N/G)2)(GG 为组数)。

      • 中心节点优化:迭代更新组内中心节点,最小化组内节点距离总和(公式2),减少通信开销。

4. 恶意攻击威胁(数据投毒(DPA)、模型投毒(MPA)

  • 问题:恶意参与者通过注入错误数据或噪声模型破坏全局模型,影响模型安全性和准确性。

  • 解决方法

    • 基于信誉的加权联邦平均算法(R-WFA)

      • 多维度信誉评估:综合模型准确率、响应时间、参与频率等属性(公式3-9),动态计算节点信誉值。

      • 信誉加权聚合:组内模型聚合时,按信誉值分配权重(公式12),低信誉节点被过滤;组间聚合进一步加权(公式13),确保全局模型可靠性。

    • 动态分组防御:恶意节点需同时攻击多个分组才能破坏系统,提升攻击成本。

5. 数据异构性与模型质量不均

  • 问题:各医疗机构数据分布不均,导致本地模型质量差异大。

  • 解决方法

    • 统一数据预处理:任务发布方提供标准化数据预处理流程,减少数据分布差异。

    • 动态信誉机制:通过R-WFA算法评估参与者历史表现,低质量模型在聚合中被降权,避免影响全局模型。


创新点

  1. 多中心联邦学习框架(MCFLM-CB)

    • 用联盟区块链网络替代传统中心服务器,实现多中心协同,降低单点故障风险。

    • 通过轮询机制动态选择组中心节点,提升系统容错能力。

  2. 动态分组PBFT共识算法(DG-PBFT)

    • 节点按欧氏距离动态分组,并行化共识过程,将通信复杂度从 O(N2)O(N2) 降至 O(G⋅(N/G)2)O(G⋅(N/G)2)(GG 为组数)。

    • 组内选举中心节点最小化组内距离总和,减少恶意节点影响。

  3. 基于信誉的加权联邦平均算法(R-WFA)

    • 动态评估参与者信誉(基于模型准确率、响应时间、参与频率等),信誉值高的节点在聚合中占更大权重。

    • 过滤低信誉节点,防御数据/模型投毒攻击。


技术与方法

  1. 系统架构设计

    • 联盟区块链网络:记录联邦学习训练过程,协调多参与方联合建模。

    • IPFS存储:分布式存储模型参数,返回内容标识符(CID)至区块链,减少链上负载。

    • 动态分组策略:将参与者按地理位置或机构分组,每组通过轮询选择聚合节点。

  2. DG-PBFT共识流程

    • 分组阶段:节点按欧氏距离动态分组,每组选举中心节点(公式1-2)。

    • 共识阶段:分块广播、组内共识、组间共识、区块同步四步(图5),减少跨组通信。

  3. R-WFA算法实现

    • 信誉计算:基于信息熵动态分配属性权重(公式3-9),综合历史行为评估节点信誉。

    • 加权聚合:组内按信誉值加权平均模型参数(公式12),组间进一步聚合生成全局模型(公式13)。


实验设计与结果

  1. 实验设置

    • 数据集:MedMNIST2Dv2(12个子数据集,7:1:2划分训练/验证/测试集)。

    • 模型:ResNet50,学习率 η=0.001η=0.001,全局迭代次数 T=50T=50,本地迭代次数 T′=9T′=9。

    • 对比基线:传统联邦学习(Con-FL)、PBFT、C-PBFT。

  2. 关键结果

    • 准确率提升:MCFLM-CB在BloodMNIST数据集上准确率达93.2%,较Con-FL提升2%(表3)。

    • 抗攻击能力:在30%恶意节点比例下,R-WFA算法保持90%+准确率,显著优于FedAvg(图12)。

    • 吞吐量与延迟:DG-PBFT吞吐量较PBFT提升3倍,通信延迟降低50%(图13-14)。

    • 多数据集泛化性:在12个医疗数据集上,75%的ACC和AUC指标达到最优(表3)。

  3. 安全性验证

    • 数据投毒防御:标签翻转攻击下,准确率仅下降9%(30%投毒比例)。

    • 模型投毒防御:添加高斯噪声后,模型准确率保持91.5%,抗干扰性强。


网站公告

今日签到

点亮在社区的每一天
去签到