CommGPT:基于图和检索增强的多模态通信基础模型

发布于:2025-05-12 ⋅ 阅读:(18) ⋅ 点赞:(0)

题目CommGPT: A Graph and Retrieval-Augmented Multimodal Communication    Foundation Model

作者江沸菠,朱万运,董莉,王可之,杨鲲,潘存华,Octavia A. Dobre

来源 arXiv preprint arXiv:2502.18763, 2025

论文地址https://arxiv.org/abs/2502.18763(查看全文请点击原文链接)

摘要大语言模型(LLM)具有人类级别的认知与决策能力,是实现6G通信的关键技术之一。然而,将LLM应用于通信领域面临三大挑战:1)通信领域数据不足;2)输入模态受限;3)知识检索困难。为应对上述问题,我们提出了一种专为通信设计的多模态基础模型——CommGPT。首先,我们构建了面向通信领域的高质量预训练与微调数据集,使LLM能够围绕通信概念与知识进行进一步的预训练与微调。随后,我们设计了一种多模态编码器,用于理解和处理来自不同输入模态的信息。接着,我们构建了图与检索增强生成( GRG)框架,将知识图谱(KG)与检索增强生成(RAG)高效融合,以实现多尺度学习。最后,通过实验验证,展示了CommGPT模型的可行性与有效性。

目录

1. 引言

1.1  相关研究

1.2  LLM 在通信领域的挑战

1.3  主要贡献

2. 通信基础模型的学习过程

2.1  内部学习:预训练与微调

2.2  外部学习:RAG 与 KG

3.CommGPT框架

3.1  通信数据集构建

3.2  预训练与微调

3.3  多模态编码器

3.4   图与检索增强生成

4. 实验评估

4.1  实验设置

4.2  消融实验

4.3  对比实验

5. 结论


1. 引言

第六代移动通信技术(6G)旨在构建万物智联的智能世界,为社会带来前所未有的信息传输体验。在6G架构中,智能化是其核心驱动力之一。6G网络将依托自适应资源管理、智能网络优化以及高效频谱利用,实现自学习与自优化,从而能够实时地动态适应复杂多变的通信环境。

大语言模型(如GPT和LLaMA)代表了当前生成式AI研究的前沿。这类模型通过先进的神经网络结构和海量语料训练,展现出接近人类水平的理解与认知能力。将LLM引入6G网络,将极大地提升其智能化水平。这一融合将使网络能够更快速地感知、模拟并响应瞬息万变的通信环境,更高效地进行泛化,并理解和适应未知的通信场景。因此,LLM有望成为应对未来无线通信系统复杂挑战的关键工具。

1.1  相关研究

目前,多个LLMs已在通信领域得到应用。例如,TSpec-LLM 结合开源数据集与检索增强生成(RAG),提升 LLM 在 3GPP 标准解析中的理解能力,提高文档分析与响应的准确性。Tele-LLM 是针对电信通信优化的 LLM,利用定制数据集提升其在该领域的专业性。此外,TelecomGPT 提出了一个面向电信通信的 LLM 训练框架,通过对通用 LLM 进行微调,使其在电信通信任务上达到卓越的性能。这些研究成果表明,LLM 在提升 6G 网络智能化方面具有重要潜力。

1.2  LLM 在通信领域的挑战

尽管 LLMs 在通信任务中展现出良好性能,但构建适用于通信领域的基础模型仍面临以下关键挑战:

1)通信数据不足当前主流 LLM 缺乏专门的通信领域知识,导致其在理解和准确响应领域特定概念和问题方面存在局限性。大多数 LLM 主要基于大规模通用数据集训练,而高质量的通信专用数据集相对稀缺。这一数据缺乏限制了 LLM 在通信领域提供精准、可靠的专业化响应的能力。

2)输入模态受限通信标准、协议和文档通常包含表格、图像及其他非文本内容。因此,多模态信息处理是通信基础模型亟待解决的问题。然而,现有通信领域的 LLM 主要基于文本数据训练,在多模态数据理解方面存在局限性。在需要整合多种模态信息以形成完整响应的场景下,这一缺陷将导致通信任务执行效果下降。

3) 知识检索困难通信领域知识高度专业化且复杂,需要在不同尺度上进行知识检索与分析。当前主要采用两种方法来增强 LLM 对外部通信知识的访问能力:(1)知识图谱(KG)有助于构建复杂知识网络,从全局角度理解通信任务;(2)RAG则侧重于对通信知识的局部理解与分析,通过检索文档片段实现推理。然而,当前尚无方法能够有效兼顾局部与全局的知识检索需求。

1.3  主要贡献

为应对上述挑战,我们提出了CommGPT——一款集成多模态编码器、RAG与KG的通信领域多模态基础模型。我们的主要贡献如下:

1)高质量通信数据集:我们构建了CommData,这是面向通信领域的高质量专用数据集,包含预训练数据集与微调数据集。预训练数据集涵盖最新的通信相关资源,如近期通信领域论文、专利、代码库以及3GPP和IEEE协议标准,内容涉及网络技术、信号处理与无线通信协议等多个方向,为LLM提供全面的通信知识基础。微调数据集则经人工整理,用于生成问答对以进行指令微调,从而提升LLM对通信领域指令的理解与执行能力。

2)多模态数据编码:通信文档中常包含表格与图像,而传统LLM难以有效处理此类非文本信息。我们构建了多模态编码器,结合如BLIP和QOCR等多模态嵌入模型,实现对图像、表格等多种模态数据的解析,使LLM能够更全面、准确地理解用户意图。借助多模态编码器,CommGPT在多模态场景下的问题回答能力显著提升,有效减少在跨模态任务中的幻觉现象。

3)图与检索增强生成(GRG):我们提出了一种多尺度分析框架,融合KG与RAG机制,构建了图知识与向量知识的高效耦合流程,以提升通信领域外部知识的检索与推理能力。该流程利用微调后的LLM生成基于图的知识库,并与RAG中的向量数据库结合,使LLM能够自适应融合知识,处理不同尺度下的复杂问题,从而显著增强通信知识查询的完整性与准确性。

2. 通信基础模型的学习过程

在通信知识学习中,LLM主要采用两种学习方式。第一种是通过预训练与微调,将通信知识直接嵌入到基础模型的参数中。然而,该方式耗时较长,且不适用于需频繁更新的知识。第二种方式是结合RAG与KG,利用外部的向量库与图数据库,将通信知识以上下文形式引入基础模型进行学习。此方法无需修改模型参数,更适合应对快速演化的知识学习需求。

2.1  内部学习:预训练与微调

1)无监督预训练:预训练的目标是使基础模型具备通信领域的专家级知识,提升其对通信中专业概念和结构化信息的理解能力。首先,加载包含通信知识的语料库,如通信协议、信道模型和通信标准。随后,采用无监督学习任务(如掩码语言建模和因果语言建模)对开源LLM(如LLaMA或Gemma)在通信语料上进行训练。通过这些任务,模型学习上下文关系或补全缺失信息,从而掌握通信知识的底层结构与模式,显著增强其对专业术语及文档结构的适应能力,为后续微调奠定坚实基础。

2)有监督微调:微调是在预训练基础上进行的优化步骤,旨在通过通信数据进一步提升模型在特定任务中的表现。该过程保留预训练阶段获得的通用能力,同时增强模型对具体通信任务的适应性。具体方法是将通信数据集重构为多任务的指令数据集,并使用监督学习对预训练模型进行微调。微调通常仅调整模型的一部分参数。为避免灾难性遗忘,需设计高质量、高覆盖率的指令数据集,以显著提升LLM在通信任务中的精度与性能。

2.2  外部学习:RAG 与 KG

1)基于向量数据的RAG:RAG是一种将信息检索与基础模型融合的方法,能够在复杂通信任务中提供精准的上下文知识,从而提升知识覆盖率与响应准确性。该方法通过在生成输出前,从向量数据库中检索相关通信知识,动态补充基础模型的已有知识,有效解决知识更新与细节准确性问题,显著提升模型对通信内容的理解力与专业性。此外,RAG无需频繁对基础模型进行大规模重训练即可接入新知识,具有较强的灵活性与可扩展性。

2)基于图数据的KG:KG通过图结构表达实体及其关系,能够系统性地捕捉和存储通信领域的知识,通过实体与关系的建模提升知识的结构化表示能力。通过预训练与微调,基础模型能够更有效地识别通信中的实体及显式关系,提升KG构建的准确性。同时,KG还支持对实体间隐式关系的推理,有助于实现高质量的关系与事件抽取,从而显著增强LLM在复杂通信知识场景下的理解与推理能力。通信基础模型在预训练、微调、RAG与KG方面的对比见表I所示。

表 I:预训练、微调、RAG 和 KG 的比较

图片

3.CommGPT框架

本文提出了CommGPT——一种图与检索增强的多模态通信基础模型。CommGPT框架构建了一条高效的知识学习与推理流程,结合了预训练、微调、RAG与KG等关键机制,全面提升基础模型在通信领域中的理解、分析与决策能力。CommGPT框架的整体设计流程如图1所示。

图片

图1:CommGPT系统的架构设计框架

3.1  通信数据集构建

我们构建了一个面向通信领域的专用数据集 CommData,由两个组成部分构成:持续预训练数据集(CommData-PT)与指令微调数据集(CommData-FT)。CommData-PT 整合了通信协议与标准(如 3GPP 与 IEEE 标准)以及公开可用的通信相关数据(如 Wiki、论文、专利和代码),用于帮助基础模型学习并内化通信知识。CommData-FT 则专注于提升基础模型在各类通信任务中的表现,包含围绕通信协议与标准设计的任务指令数据,进一步强化模型对通信任务的理解与执行能力,显著提升其响应准确性。

1)CommData-PT 数据集由以下几类数据构成:3GPP 标准数据:包含 15,016 份 3GPP 标准文档(涵盖Release 8 至 Release 19)。IEEE 标准数据:包括 40 份 通信协议文档,涵盖 802.3802.11802.15C951 等标准。通信专利数据:包含 697,717 项 1975-2024 年间的通信专利。通信论文数据:收录 90,310 篇 Arxiv 平台的通信相关论文。通信代码数据:从 GitHub 提取 14,128 份通信相关代码,提升 LLM 在通信代码理解与生成任务中的能力。Wiki 数据:从 Wikipedia 提取 19,543 条通信相关条目,来源于6,407,849 条目总库。

为从公开数据集中提取高质量的通信数据,我们采用了以下两种方法:

  • 基于 LLM 的数据筛选采用现有 LLM(如 GPTLLaMA)自动识别通信相关文档,并过滤低质量或无关内容。

  • 基于关键词的数据筛选自定义一组通信专用关键词,并根据关键词提取文档。过滤HTML 标签、超链接和模板内容,消除干扰信息。

在完成数据收集后,预处理是构建高质量预训练数据集的关键步骤。我们进行了噪声去除、冗余剔除、无关信息过滤以及潜在有害内容清理,确保 CommGPT 的训练质量最优。我们还提出了适用于通信领域的标准化数据预处理流程,如图2所示。

图片

图2:CommData-PT的数据预处理

2)CommData-FTCommData-FT 旨在使基础模型能够在接收到明确任务指令时,生成符合预期的输出,从而增强其任务适应性、上下文理解能力和生成结果的准确性。完整的通信指令由以下组成部分:Instruction(指令):清晰描述任务目标。Input:提供任务背景信息。Output:基于指令和输入生成高质量响应,满足任务需求。Metadata(元数据,可选):包含任务附加信息,如任务说明或难度级别。为了构建 CommData-FT 数据集,我们使用 LLaMA 3-8B-Instruct 模型,基于 CommData-PT 中的 3GPP 与 IEEE 标准内容生成指令型数据,提升模型对通信知识的理解与表达能力。具体步骤如下:

  • 生成问题与答案使用 LLaMA 3-8B-Instruct 模型,从 CommData-PT 数据集中提取不同类型的问题,并指导模型生成准确答案。

  • 构建指令数据问题、指令和对应答案 进行匹配,形成指令数据集。确保每个问题严格符合指令要求,并提供准确且相关的答案。

质量评估与数据筛选评估生成的指令质量,筛选出高质量指令。确保数据集具有多样性和广泛的任务覆盖范围。

具体示例如下:

  • Instruction:"This is a Question and Answer task related to 3GPP."

  • Input":"What is the purpose of the SIP-based protocol framework?"

  • Output": "The SIP-based protocol framework serves as a means of user 

    configuration of supplementary services in the IM CN subsystem."

  • Metadata: "Section 4.1, General description in 24238-c00."

在上述示例中,Instruction 表示这是一个与 3GPP 相关的问答任务;Input 是用户提出的问题;Output 是 LLaMA 3-8B-Instruct 模型生成的高质量答案;Metadata 提供了答案所依据的数据源信息。这种结构化指令数据有助于模型在通信场景下更好地理解任务意图并生成准确响应。

3.2  预训练与微调

基于 CommData,我们设计了一个两阶段训练方案。首先对基础模型进行持续预训练,以增强其对通信领域基础概念和独特结构的理解;随后进行指令微调,进一步提升其在特定通信任务中的表现。该方案通过通信知识适配与任务能力优化相结合,使基础模型在广泛通信知识和多样任务专精之间实现平衡。

1)持续预训练:我们在 CommData-PT 数据集上对基础模型进行持续预训练。这一方法使模型在保留通用知识的同时,进一步掌握通信领域的专业知识。选用开源的 LLM(如 LLaMA、Gemma 等)作为基础模型,并采用自回归结构开展无监督训练。通过自注意力机制,模型能够捕捉长距离依赖关系和复杂上下文信息。模型通过预测上下文中每个标记的概率,学习通信领域的专业知识,提升其对通信概念和标准的理解能力。预训练完成后,将对基础模型进行评估,以验证其在通信领域的学习质量。

2)指令微调:我们利用 CommData-FT 数据集对预训练后的基础模型进行指令微调,以优化其在通信任务中的表现。该阶段使模型能够适应具体任务,如问答、多项选择、代码生成等。我们对预训练模型进行有监督的高效微调,并采用低秩适配(LoRA)方法。通过反向传播对 LoRA 参数进行更新,同时使用任务相关的损失函数(如交叉熵损失)进行优化。微调过程中通常使用较小的学习率,以避免破坏预训练阶段所获得的通信知识。微调完成后,将保存该模型,用于后续部署。

3.3  多模态编码器

为了使通信文档中的表格和图像得以理解,我们将两个多模态编码器集成到基础模型的输入层中,其中 BLIP 编码器用于从图像中提取高级语义特征 ,而 QOCR 编码器用于提取信息图表中的低级文本信息 ,从而为通信文档中的多模态数据提供全面支持。

1)BLIP 编码器:BLIP 是一个用于图像语义理解的生成模型。它通过自注意力机制从图像中提取高级特征,并将其转换为高质量的文本描述,使图像在通信文档中的文本编码成为可能。BLIP 编码器生成图像描述的过程如下:首先,BLIP 使用基于 Vision Transformer 架构的视觉编码器从图像中提取高级语义特征。然后,通过图像-文本融合模块,将图像和文本特征对齐,使 BLIP 更好地理解与图像相关的文本含义。最后,BLIP 使用基于 Transformer 的自回归生成器在文本解码器中生成图像的描述性文本 。

2)QOCR 编码器:QOCR 是一个用于检测和识别信息图表中文本信息的深度学习模型。它通过执行缩放和颜色空间变换,将图像文件转换为灰度图像。接下来,使用卷积神经网络(CNN)从图像中提取特征,并识别其中的文本区域。然后,使用长短期记忆网络(LSTM)对文本区域中的序列进行建模,精确地将从图像中提取的字符序列映射为可读文本。最后,应用置信度阈值过滤识别结果,丢弃置信度低于设定阈值的结果,确保只保留高置信度的识别结果,从而提高输出的整体准确性和可靠性 。

3.4   图与检索增强生成

为了高效地学习和应用通信知识,我们提出了一个多尺度学习框架,该框架集成了KG和RAG。我们使用经过微调的基础模型生成通信语料的知识图谱,创建通信文档中实体及其关系的全局结构化表示。同时,我们利用RAG对通信文档进行分块,构建向量数据库,并启用对这些文档的局部知识检索。这两种方法的结合使得基础模型能够在各种通信任务场景中高效地获取和生成知识,展现出卓越的适应性和准确性。GRG过程的工作流程如下:

1)构建向量数据库:在对输入的通信文档进行预处理后,首先将文档分割成较小的单元。每个文档块对应一个独立的信息单元,例如段落或技术概念。然后,使用嵌入模型将文档块编码为高维向量嵌入,并将其存储在向量数据库中。这些向量化表示保留了文档块的深层语义特征,使其适用于大规模文档检索。数据库中构建了一个向量索引,通过将查询向量与存储的向量进行比较,快速检索到最相关的文档块。

2)构建图数据库:通过 CommGPT,识别通信文档中的实体、属性和关系。通过对实体的对齐,构建不同实体和属性之间的关系网络,形成一个结构化的KG。在该KG中,节点代表实体,边代表实体之间的关系。使用Neo4j图数据库来存储和管理KG,支持高效的图查询 。这使得基础模型能够分析和处理通信实体和关系的复杂网络,进一步增强其对通信专业知识的全局理解。

3)向量与图的联合检索:当用户输入包含图像信息时,图像编码器解释图像的语义内容并将其转换为查询所需的文本信息。接着,基础模型将用户的查询转换为查询向量,并从向量数据库中检索最相关的文档块。模型将查询向量与存储的向量进行比较,选择与查询向量最相似的文档块。向量检索的结果表示与查询相关的局部知识。随后,基础模型从用户的查询中提取关键实体,并基于图数据库中实体之间的关系进行推理,检索这些实体的属性以及它们与其他实体的关系。图检索的结果表示与查询相关的全局知识。

4)上下文增强生成:从向量数据库中检索到的相关文档块,以及从图数据库推断出的实体属性和关系,将合并形成丰富的上下文信息,并输入到经过微调的 CommGPT 中。在这一阶段,CommGPT能够理解通信领域的术语和技术背景,减少幻觉现象,并生成更准确的回答。例如,在回答涉及多个实体和技术关系的问题时,CommGPT能够清晰地展示实体之间的联系,并提供准确的技术解释。CommGPT应用于3GPP查询的示例如图3所示。

图片

图3:CommGPT应用于3GPP查询的示例。

4. 实验评估

4.1  实验设置

在训练阶段,CommGPT使用谷歌开源的Gemma 2-9b-instruct模型作为基础模型,随后在CommData数据集上进行预训练和微调。学习率调度器设置为余弦退火,预训练阶段的初始学习率设置为5 × 10−6,微调阶段设置为1 × 10−5。优化器选择Adam。LoRA的秩设置为8,缩放因子为16。采用混合精度训练,使用BF16。此外,BLIP被用作高阶图像编码器,QOCR作为低阶图像编码器,QAnything作为RAG系统,Milvus作为向量数据库。KG是通过GraphRAG与CommGPT结合生成的,Neo4j用于作为图数据库。为了评估CommGPT及其竞争对手,使用了包含三种难度级别(简单、中等、困难)问题的3GPP TR 数据集。准确率定义为LLM正确回答的问题数与3GPP TR中总问题数的比值。

4.2  消融实验

1)本实验采用以下对比模型:

  • BaseModelGemma 2-9B):开源基础模型,未在 CommData 数据集上进行预训练或微调。

  • CommGPT:在 CommData 上预训练和微调的通信基础模型。

  • CommGPT-R:集成 RAG 进行检索增强的 CommGPT

  • CommGPT-GRG:集成 RAG 和 KG,同时进行检索增强和知识图谱推理的 CommGPT

 2)实验结果分析:  LLM 的准确率如图 所示。BaseModelGemma 2-9B)的初始准确率仅为 37%。在 CommData 数据集上进行预训练和微调后,CommGPT 的准确率提升至 54%,表明在专用通信数据集上微调基础模型,可以使其学习更加贴合通信领域的特征模式,从而提升其通信问答任务的处理能力。进一步集成 RAG 后,CommGPT-R 的准确率进一步提升,说明向量数据库的局部知识检索增强了模型的知识覆盖能力。CommGPT-GRG(融合 RAG + KG)的准确率提升至 91%,表明GRG 机制能够实现多尺度外部知识检索,有效补充 CommGPT 在通信领域的固有知识缺陷,大幅提升其上下文理解能力。的比值。

图片

图4:在消融实验中LLMs的准确性。

4.3  对比实验

1)本实验采用以下对比模型:

  • LLaMA2-7B 系列:包括 LLaMA 2-7B 和 LLaMA 2-7B-Instruct,由 Meta 提出的第二代开源 LLM,包含 70 亿参数。

  • LLaMA3-8B 系列:包括 LLaMA 3-8B 和 LLaMA 3-8B-Instruct,由 Meta 提出的第三代开源 LLM,包含 80 亿参数。

  • GPT 系列:包括 GPT-3.5 和 GPT-4,由 OpenAI 提出的闭源 LLM

  • Gemini 1.0:由 Google 开发的闭源多模态 LLM

  • Tele-LLM:由 耶鲁大学 开发的面向电信通信的开源 LLM,包含 80 亿参数。

  • Tspec-LLM 系列:包括 GPT-3.5-TGemini 1.0-T 和 GPT-4-T,这些模型在 GPT-3.5Gemini 1.0 和 GPT-4 的基础上集成了 RAG 技术,用于增强电信通信任务的能力。

2)实验结果分析实验结果如图 5 所示。开源 LLMs(如 LLaMA2 和 LLaMA3 系列)的准确率最低。闭源 LLMs(如 GPT 系列和 Gemini 1.0)的准确率较高,其中 GPT-4 取得了最佳性能。电信专用 LLMs(如 Tele-LLM)在通信任务中的表现接近闭源模型,表明在专业电信数据上进行训练,可显著提升开源 LLMs 在通信领域的适应性。Tspec-LLM 系列(如 GPT-3.5-TGemini 1.0-TGPT-4-T)集成了 RAG,其准确率显著提高,表明RAG 通过外部电信知识的动态补充,增强了 LLM 处理电信相关问题的能力。CommGPT(基于 GRG 机制)取得了最高准确率,表明KG + RAG 的联合优化可以增强 LLM 对通信领域专用术语和复杂问题的理解能力,从而提供更精准、高效的响应。

图片

图5:在比较实验中LLMs的准确性。

5. 结论

本文提出了一了,种用于通信的多模态基础模型——CommGPT。首先,我们介绍了为CommGPT特别设计的专用数据集CommData,该数据集涵盖了协议、标准、论文、专利和代码等多种类型的数据。接着,我们利用CommData对基础模型进行预训练和微调。此外,我们设计了多模态编码器,以增强CommGPT处理通信文档中多模态数据的能力。最后,我们提出了一种结合KG和RAG的多尺度学习方法,帮助CommGPT生成更加精确和全面的通信响应。实验结果表明,CommGPT在通信问答任务中超越了其他竞争者,展现出了最高的准确率。


网站公告

今日签到

点亮在社区的每一天
去签到