数据挖掘顶刊TKDE论文分享│ST-LLM+:面向交通预测的图增强时空大语言模型

发布于:2025-07-25 ⋅ 阅读:(19) ⋅ 点赞:(0)

本文介绍了一篇发表于数据挖掘顶刊IEEE Transactions on Knowledge and Data Engineering(TKDE)的论文《ST-LLM+: Graph Enhanced Spatio-Temporal Large Language Models for Traffic Prediction》。现有交通预测模型泛化能力有限,而大语言模型在参数扩展和预训练方面具备优势,因此,本文将图结构信息整合到大语言模型中以提升交通预测性能,从而提出了面向交通预测的图增强时空大语言模型ST-LLM+。该模型的核心组件包括时空嵌入与融合层、部分冻结图注意力(PFGA)模块、LoRA 增强训练策略。该模型在 NYCTaxi 和 CHBike 等真实交通数据集上验证了其性能。实验结果显示,ST-LLM+的性能优于文中的对比模型,且在少样本和零样本预测中表现稳健,从而验证了其有效性和泛化能力。此外,文中还对比了其与前期工作 ST-LLM 的改进,并分析了模型的复杂度和效率优势。

论文链接:https://ieeexplore.ieee.org/document/11005661

本推文由韩煦撰写,审核为邓镝。

 一、期刊介绍

IEEE Transactions on Knowledge and Data Engineering(简称TKDE)是由IEEE Computer Society出版的一份专注于知识与数据工程领域的学术期刊,每年共出版12期,被归为中科院一区期刊,目前的影响因子为10.4。

期刊官网:https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=69

二、研究背景

在智能交通系统中,交通预测面临着时空相关性建模不足、任务适配性差不足和计算效率瓶颈等多重挑战,具体表现在如下几方面:

1) 时空相关性建模不足:传统模型如 GNN 和注意力机制虽能捕捉局部时空模式,但难以应对动态变化的交通网络拓扑(如相邻站点的实时影响)和长距离依赖关系(如跨区域交通流的关联);

2) 任务适配性差:大语言模型通过参数扩展和大规模预训练在计算机视觉、自然语言处理等领域表现优异,其处理序列数据的能力使其在时间序列和时空分析中具有潜力,但现有基于 LLM 的交通预测方法多聚焦时间维度,忽视了交通网络中固有的空间依赖;

3) 计算效率瓶颈:全参数微调LLM(如GPT-2)在交通预测中参数量巨大(百万级),训练成本高且易过拟合。

4) 模型泛化能力不足:大部分现有方法在有限的时间序列数据上训练,对于few-shot和zero-shot场景下的预测表现平平,不能充分应对突发事件及外部干扰。

论文的主要贡献如下:

1. 图增强时空大语言模型架构。提出将交通网络的邻近性邻接矩阵作为注意力掩码融入 LLM,突破传统 LLM 仅依赖序列顺序的局限性,显式建模站点间空间依赖。

2. 部分冻结图注意力(PFGA)模块。改进前期 ST-LLM 的部分冻结策略,提出分层冻结 + 图注意力的混合架构:前 F 层冻结以保留语言模型的时序推理能力,最后 U 层解冻并注入图结构,在保持预训练知识的同时适配交通领域特性。

3. LoRA 轻量微调策略。对注意力层引入低秩矩阵分解(LoRA),仅训练少量参数(如3.76%),大幅降低计算开销。

三、研究方法

3.1 方法概述

1 ST-LLM + 框架

图1为ST-LLM + 框架。ST-LLM + 通过时空嵌入对交通数据进行建模。这些嵌入通过嵌入融合层被统一整合。LoRA 增强的部分冻结图注意力(PFGA)大语言模型由 F+U 层组成:前 F 层采用原始的多头注意力机制,而后 U 层则融入基于图的注意力,使用邻接矩阵作为注意力掩码。前 F 层中的多头注意力层和前馈层是冻结的,而后 U 层中的多头注意力层则是解冻的,并通过 LoRA 进行增强。最后,PFGA 大语言模型的输出通过回归层,生成交通预测结果。图2展示了ST-LLM +框架的训练流程。

2 ST-LLM + 模型的训练流程

3.2 部分冻结的图注意力模块(PFGA

该部分的核心创新在于引入图结构、图注意力机制、部分冻结策略。LoRA 增强的部分冻结图注意力(PFGA)大语言模型(LLMs)由 F+U 层组成:前 F 层采用原始多头注意力机制,后 U 层融入基于图的注意力并使用邻接矩阵作为注意力掩码。前F层冻结多头注意力和前馈层,以保留 LLMs 在预训练中习得的全局时序依赖捕捉能力,其计算遵循标准的多头注意力机制;后U层则解冻多头注意力,并将交通网络的邻近性邻接矩阵A作为注意力掩码整合到注意力机制中,使模型能聚焦于空间上邻近的节点,专门捕捉局部空间依赖。

3.3 LoRA增强训练策略

图3为LoRA 增强的部分冻结图注意力的处理流程。通过区分前F层(冻结,保留预训练知识)和后U层(解冻,结合 LoRA 微调与图注意力),实现 “全局依赖保留 + 局部空间依赖捕捉” 的双重目标。LoRA 的低秩分解策略在减少计算开销的同时,确保模型能灵活适配交通数据的时空特性,而邻接矩阵的引入则显式建模了站点间的空间关联。

3 LoRA 增强的部分冻结图注意力的处理流程

 四、实验结果

4.1 实验设置

数据集:实验使用了两类数据集,均与交通相关,且每个数据集分别包含“Pick-up”(拾取 / 上车)和 “Drop-off”(放下 / 下车)两种场景的记录。

基线对比

(1)GNN-based 模型

DCRNN:将交通数据建模为有向图,结合扩散卷积与门控循环单元捕捉时空依赖;

STGCN:结合图卷积网络与 1D 卷积处理交通时间序列预测;

GWN:采用带自适应邻接矩阵的图卷积网络;

AGCRN:自适应图卷积循环网络,融合节点学习与交通序列依赖推理;

STSGCN:改进的图卷积网络,通过同步建模和模块化组件捕捉局部时空依赖与异质性;

STG-NCDE:基于图神经控制微分方程的交通预测模型;

DGCRN:动态图卷积循环网络的交通预测框架。

(2)Attention-based 模型

ASTGCN:基于注意力的时空图卷积网络,用于交通预测;

GMAN:采用编码器 - 解码器架构的注意力预测模型;

ASTGNN:基于注意力的模型,学习交通数据的动态性和异质性。

(3)LLM-based 模型

OFA:修改 GPT-2,冻结残差块中的自注意力和前馈网络,对交通数据采用反向视图;

GATGPT:在 GPT-2 骨干网络前(或后)融入图注意力网络;

GPTGAT:将图注意力置于 LLM 骨干网络之后;

GCNGPT:结合图卷积网络与冻结的预训练 Transformer;

LLaMA-2:预训练和微调大语言模型,采用冻结的预训练 Transformer 适配任务;

ST-LLM:作者前期工作,引入时空大语言模型与部分冻结注意力机制。

4.2 与最先进方法的比较

在NYCTaxi 和 CHBike 两个真实交通数据集上,与 GNN-based、Attention-based、LLM-based 三大类基线模型对比预测性能。ST-LLM+在所有评价指标(MAE、RMSE、WAPE)上均取得最佳成绩,验证其有效性。

交通数据集上的模型性能对比

4.3 消融实验

消融实验1

该实验针对ST-LLM + 的关键组件,通过创建 “w/o ST”(无时空嵌入层)、“w/o Fusion”(无融合卷积层)、“w/o LLMs”(无 LLMs 组件)等变体进行评估。结果显示,移除 LLMs 组件会显著增加误差,表明 LLMs 对学习交通数据的复杂依赖至关重要;移除时空嵌入层也会导致明显性能下降,凸显其在建模时空依赖中的作用;移除融合层影响较小,而完整模型表现最优。具体实验结果见图4。

图4 ST-LLM + 关键组件的消融实验

消融实验2

该实验聚焦于PFGA LLMs,通过 “Full Tuning”(全微调,无冻结层)、“Full Graph-based Attention”(全图注意力,所有层用邻接矩阵)、“Partially Frozen Attention”(部分冻结注意力,无图注意力)等变体评估。实验结果如表2所示,结果表明PFGA 表现最优,全图注意力可能稀释全局依赖,全微调难以充分利用预训练知识,部分冻结注意力虽有竞争力但 PFGA 更优。

部分冻结图注意力大语言模型的消融实验

4.4 零样本与少样本实验

该实验仅用 NYCTaxi 数据训练,直接在 CHBike 数据上测试。零样本实验结果如表3所示。ST-LLM+在未见过的数据集上仍优于其他模型,展示出色的跨域泛化能力。

零样本迁移实验

零样本实验仅使用 10% 训练数据进行微调,实验结果如表4所示。ST-LLM+在数据稀缺场景下依然保持高精度,验证其稳健性。

4 少样本学习实验

五、总结

ST-LLM + 通过时空嵌入和部分冻结图注意力(PFGA)在校准用于交通预测的大型语言模型方面取得了进展。PFGA 使 ST-LLM + 能够有效捕捉复杂的时空依赖关系,从而增强预测效果和适应性。基于 LLM 注意力设计的 LoRA 增强训练策略可实现高效预测。实证研究表明,ST-LLM + 始终优于最先进的交通预测模型和其他基于 LLM 的方法,同时也证明了其在少样本和零样本场景中的鲁棒性。未来,ST-LLM + 可扩展至更多任务,如交通数据插补、生成和异常检测,以构建多功能的交通分析框架。


网站公告

今日签到

点亮在社区的每一天
去签到