香港理工视觉语言模型赋能智能制造最新综述！基于视觉语言模型的人机协作在智能制造中的应用-EW帮帮网

作者：Junming FAN $^{1}$ , Yue YIN $^{1}$ , Tian WANG $^{1}$ , Wenhang DONG $^{1}$ , Pai ZHENG $^{1}$ , Lihui WANG $^{2}$
单位： $^{1}$ 香港理工大学工业及系统工程系， $^{2}$ 瑞典皇家理工学院
论文标题： Vision-language model-based human-robot collaboration for smart manufacturing: A state-of-the-art survey
论文链接：https://link.springer.com/content/pdf/10.1007/s42524-025-4136-9.pdf
出版信息：Frontiers of Engineering Management 2025, 12(1): 177–200

主要贡献

论文系统总结了VLMs在智能制造中人机协作领域的最新进展和应用。通过对VLMs的基本架构、预训练方法和应用案例的详细分析，填补了现有研究中缺乏全面视角的空白。
详细探讨了VLMs在机器人任务规划、导航和操作中的应用。通过结合视觉和语言信息，VLMs显著增强了机器人的任务执行能力和人机交互的灵活性。
强调了VLMs在人机技能转移中的作用，展示了如何通过多模态数据整合来简化机器人技能的获取过程，来提高机器人适应未来灵活制造环境的能力。
讨论了当前VLMs应用的局限性，并提出了未来研究的方向，包括提高实时处理能力、增强动态环境适应性和提升操作精度等。

介绍

人机协作的潜力：
- 人机协作（human–robot collaboration，HRC）被视为制造业变革的重要途径，通过结合人类的灵活性和机器人的精确性来提高生产力、适应性和效率。
- 这种协同工作模式标志着智能制造的重大转变。
- 最近在人工智能领域的突破，特别是计算机视觉和自然语言处理，展示了推动这一转型的巨大潜力。
- 通过赋予机器人多模态感知和理解能力，机器人可以在更复杂和无缝的环境中与人类协作。
VLMs的应用：
- 由于标准的大模型（LLMs）仅能处理文本信息，限制了其在需要视觉上下文的场景中的应用。
- VLMs通过整合视觉和文本数据，增强了机器人解释和互动环境的能力。
- VLMs在图像描述、视觉问答和多模态推理等任务中表现出色。
研究现状与不足：
- 尽管VLMs在HRC场景中有初步应用，但现有研究较为分散，缺乏对VLMs潜力的全面探索。
- 本文旨在填补这一空白，提供VLMs在HRC中的最新进展和应用的综合综述。
研究目标：
- 本文的目标是通过系统回顾VLMs在HRC中的应用，展示其潜力并指出当前的限制。
- 强调未来研究方向，以实现VLMs在智能制造中的全部潜力。

文献综述过程

系统性搜索：
- 使用Web of Science、Scopus和IEEE Xplore等学术数据库进行初始搜索，关键词包括“human-robot”和“vision language”。
- 搜索时间跨度为2020年至2024年，共检索到63项来自Web of Science、113项来自Scopus和89项来自IEEE Xplore的相关文献。
文献筛选：
- 初步筛选阶段，仅包括英文的期刊和会议论文。
- 根据标题、关键词和摘要排除明显不符合范围的文献，最终筛选出59篇论文。
深入审查：
- 实施深入审查过程，进一步识别不合适的文献并进行分类。
- 由于初步数据库的文献有限，从Google Scholar和arXiv等较宽松的搜索引擎中补充相关文献。
文献选择：
- 最终选择了109篇文献作为综述的基础。
- 这些文献将在后续章节中详细描述，以展示VLMs在HRC中的最新应用和进展。

LLMs与VLMs回顾

大模型基础

架构

LLMs通常基于Transformer架构构建，这是一种用于自然语言处理的深度学习模型。
Transformer通过使用多头注意力机制来捕捉文本中的长距离依赖关系。
Transformer的核心是自注意力机制，其计算公式为：
$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V,$
Transformer还包括编码器和解码器结构，用于处理输入和生成输出。
编码器通过自注意力机制提取输入文本的相关信息，而解码器则使用编码器的输出来生成翻译后的文本。

模型类型

根据编码器-解码器结构的变体，LLMs可以分为三类：

仅编码器模型：这些模型仅包含编码器，适用于需要特征提取的任务，如文本分类。典型的例子包括BERT（Kenton and Toutanova, 2019）。
编码器-解码器模型：这类模型结合了编码器和解码器，适用于需要序列生成的任务，如翻译和文本总结。典型的例子包括BART（Lewis et al., 2020）和T5（Raffel et al., 2020）。
仅解码器模型：这些模型仅包含解码器，专注于生成任务，如问答和文本生成。典型的例子包括GPT系列（Radford et al., 2018, 2019, 2020）。

预训练

预训练是LLMs的初始阶段，通过在大量无监督的文本数据上进行训练来发展基本的语言能力。
这一阶段的目标是让模型学会语言的基本结构和模式。
预训练后，模型可以通过微调来适应特定任务。

微调和对齐

微调：在特定任务的数据集上进行训练，以调整预训练模型以适应新任务。微调通常使用监督学习技术。
对齐：
- 为了确保模型生成的内容符合人类价值观和意图，进行对齐训练。
- 对齐通常涉及使用人类反馈来调整模型输出，以避免生成不准确或有害的内容。
- 常用的技术包括强化学习与人类反馈（RLHF）。

Prompt技术

在模型经过充分训练和微调后，Prompt技术用于引导模型生成所需的响应。常见的Prompt方法包括：

零样本Prompt：模型在没有示例的情况下被给予任务，依赖于其预训练知识来生成响应。
上下文学习：也称为少样本学习，提供少量示例来指导模型的响应。
链式推理：一种Prompt技术，引导模型生成逐步推理或解释，以提高其在复杂推理任务上的表现。

视觉语言模型基础

目标

VLMs旨在通过结合视觉和语言信息来增强模型的理解和推理能力。
VLMs特别适用于需要跨模态理解的场景，如图像描述、视觉问答和人机协作。

架构

VLMs通常包括两个并行编码器：一个用于处理视觉数据（如图像），另一个用于处理文本数据。
这些编码器将输入转换为高维嵌入，然后在共享的特征空间中对齐或融合，使模型能够联合解释和推理视觉和语言输入。

视觉和语言编码

VLMs使用深度神经网络从图像-文本对中提取特征。典型的网络架构包括：

视觉编码器：
- 用于从图像中提取特征。常见的架构包括卷积神经网络（CNNs），如ResNet（He et al., 2016）和EfficientNet（Tan and Le, 2019）。
- 最近的研究还探索了Transformer架构，如ViT（Dosovitskiy et al., 2020），它在图像特征学习中表现出色。
文本编码器：
- 用于从文本中提取特征。Transformer架构及其变体是文本特征编码的标准选择。
- 例如，CLIP（Radford et al., 2021）使用标准Transformer架构进行文本编码。

视觉-语言相关性

VLMs的核心在于理解视觉和语言数据之间的相关性。为此，设计了多种预训练目标来增强视觉-语言特征的学习：

对比性目标：通过吸引成对样本并推开不成对样本来获取判别性表示。这种方法通常通过最小化对称的图像-文本infoNCE损失来实现（Chen et al., 2020）。
生成性目标：通过训练网络生成图像/文本数据来学习视觉-语言相关性特征。这包括图像生成、语言生成或跨模态生成（He et al., 2021; Yu et al., 2022; Singh et al., 2022）。
对齐目标：通过全局图像-文本匹配或区域-词匹配来对齐图像-文本特征（Dou et al., 2022; Yao et al., 2022）。

预训练架构

VLM预训练的架构主要涉及视觉和语言处理分支及其嵌入的互连和通信方式。常见的框架包括：

双塔架构：使用独立的编码器处理输入图像和文本。这种架构在VLMs中广泛使用，如CLIP（Radford et al., 2021）和ALIGN（Jia et al., 2021）。
两腿架构：包括额外的多模态融合层，促进图像和文本特征之间的交互。这种架构在Yu et al.（2022）和Singh et al.（2022）的工作中被采用。
单塔架构：将视觉和语言处理集成到一个编码器中，促进不同数据模态之间的更高效通信。这种架构在Tschannen et al.（2022）和Jang et al.（2023）的工作中被提出。

基于大模型的人机交互任务规划与执行

视觉语言任务规划

任务理解和分解

任务理解和分解是任务规划的首要步骤，涉及从自然语言描述中提取任务目标，并将复杂任务分解为一系列可管理的子任务。
这一过程的关键在于VLMs能够从文本和图像中提取丰富的语义信息，从而实现更准确的任务理解。
- 任务理解：VLMs通过分析自然语言指令，理解任务的具体要求和目标。
- 任务分解：将复杂任务分解为多个子任务，便于机器人逐步执行。
VLMs在这一过程中发挥着重要作用，例如，Zheng et al.（2024）使用BERT和ResNet来解析真实场景，并通过PromptLLM来分解整体任务。

多模态任务信息融合

多模态任务信息的融合和比对是VLM成功理解和分解人机交互任务的关键。
核心在于如何在统一的表示空间中捕获不同模态之间的关联，并利用互补信息提供更全面的语义理解。
- 信息融合：通过结合视觉和语言信息，VLMs能够更好地理解任务场景和人类指令。
- 语义理解：VLMs通过多模态信息融合，实现对任务场景的全面理解。
Fan and Zheng（2024）通过结合CLIP模型解析视觉信息和LLM理解语言指令，生成可行的机器人动作序列。

动作序列生成

在任务分解和多模态信息融合之后，生成相应的动作序列来完成指定任务是关键步骤。
VLMs可以直接从视觉和语言输入生成合理的动作序列。
- 动作序列生成：VLMs通过端到端的方式生成动作序列，确保任务的顺利执行。
- 实时适应性：生成的序列能够适应动态变化的环境，提高任务执行的灵活性。
Hu et al.（2023）和Zhang et al.（2024）展示了如何通过VLMs生成动作序列。

长期任务规划

长期任务规划涉及在较长时间跨度内进行任务规划，需要考虑任务的长期目标和中间步骤的协调。
这一过程需要处理更多的不确定性和复杂性。
- 长期目标：VLMs需要具备处理长期任务目标的能力。
- 中间步骤协调：确保任务的不同阶段能够有效衔接。
Wu et al.（2023）和Mei et al.（2024）展示了如何通过VLMs进行长期任务规划，处理更复杂和不确定的任务。

视觉语言导航

室内导航

室内导航是VLMs在机器人技术中最常见的应用之一，主要用于家庭服务机器人和工业协作机器人。
其主要目标是使机器人能够在室内环境中根据人类的自然语言指令完成导航任务。
任务类型：
- 包括简单的指令跟随任务和远程指代表达任务。
- 在简单指令跟随任务中，机器人接收详细的步骤指令，并根据这些指令导航到目标位置。
- 远程指代表达任务则需要机器人在不明确指令的情况下，通过与人类互动来确定目标位置。
关键技术：
- VLMs通常作为视觉编码器来捕获语义信息，而LLMs用于理解人类语言指令。
- CLIP模型因其强大的特征表示能力而被广泛应用。
应用实例：
- Khandelwal et al.（2022）提出的EmbCLIP模型在RoboTHOR OBJECTNAV挑战中取得了47%的成功率。
- Korekata et al.（2023）的SheFU模型在ALFRED-fc数据集中达到了83%的成功率。

户外导航

户外导航环境相对开放且复杂，涉及多种地形、天气条件和动态元素（如车辆和行人）。
VLMs在户外导航中的应用包括自动驾驶、机器人配送和智慧城市管理。
任务类型：
- 包括长距离导航和复杂环境中的路径规划。
- 这些任务需要机器人具备更高的自主性和适应性。
关键技术：
- VLMs结合SLAM（同时定位与地图构建）技术，以提供实时的环境更新。
- CLIP和GPT-4的组合被用于处理复杂的导航任务。
应用实例：
- Shah et al.（2022）的LM-Nav系统在自定义数据集中取得了80%的成功率。
- Schumann et al.（2024）的VELMA模型在Map2seq数据集中达到了23.1%的成功率。

网络环境导航

网络环境导航是一个新兴的应用领域，涉及机器人根据网络内容进行导航和问答任务。

任务类型：
- 包括基于网页内容的导航和问答。
- 这种任务需要机器人能够理解网络信息并据此做出决策。
关键技术：
- VLMs结合网络爬虫和自然语言处理技术，以实现基于网络内容的导航。
应用实例：
- Chen et al.（2024）提出的WebVLN模型在WebVLN-v1数据集中实现了34.7%的任务完成率。

视觉语言操作

基于规划的视觉语言操作

基于规划的视觉和语言操作方法通过设计复杂的自然语言Prompt来指导机器人生成精确的运动轨迹。
这种方法侧重于直接生成动作序列，以实现特定的操作任务。
方法概述：VLMs和LLMs结合使用，通过自然语言指令生成详细的运动路径。这种方法通常涉及设计复杂的Prompt来引导模型生成所需的动作序列。
应用实例：Goodwin et al.（2022）提出的CLIP-SemFeat方法在场景重排任务中取得了58.8%的成功率。Driess et al.（2023）的PaLM-E模型在OK-VQA数据集中实现了66.1%的成功率。
挑战：尽管这些方法在家庭环境中表现出色，但在工业应用中仍需提高精度和鲁棒性。

基于学习的视觉语言操作

基于学习的视觉语言操作方法侧重于通过机器人学习生成策略来完成操作任务，而不是直接生成轨迹。这种方法通过机器人与环境的交互来学习任务。

方法概述：VLMs和LLMs辅助生成策略，使机器人能够通过经验学习执行操作任务。这种方法通常涉及强化学习和模仿学习。
应用实例：Gervet et al.（2023）的Act3D方法在RLBENCH任务中取得了83%的成功率。Wi et al.（2023）的CALAMARI方法在擦拭桌面任务中达到了90%的成功率。
挑战：这种方法在任务成功率和适应性方面表现出色，但在复杂任务中仍需进一步优化。

工业任务的操作

尽管大多数研究集中在家庭任务上，VLMs在工业任务中的应用也显示出潜力。工业操作任务通常需要更高的精度和鲁棒性。

应用实例：Fan and Zheng（2024）提出的视觉-语言引导的机器人规划方法在工业装配任务中取得了93.3%的成功率。
挑战：工业任务的操作需要更高的精度和鲁棒性，这对VLMs的规划和执行能力提出了更高要求。

基于VLM的人类引导技能迁移与机器人学习

基于视觉语言模型的人类示范收集

与人类认知的对齐

人类通常通过观察示范动作并结合听到的口头解释来学习新技能。
因此，整合视频和语言信息可以帮助机器人更紧密地模仿人类的学习过程。
方法：通过自然用户交互（如指向、展示和口头描述），机器人使用RGB摄像头捕捉图像数据，并结合骨架检测和语音识别技术来逐步学习和更新对象模型。
应用：Azagra et al.（2020）通过这种方法使机器人能够在动态和多样化的交互环境中逐渐学习和理解不同的对象。

提高泛化能力

纯粹的视频观察可能使机器人在理解动作的意图和语义方面遇到困难。
语言信息可以提供关键的上下文细节，帮助机器人更好地理解示范的目的和逻辑。
方法：通过结合关键帧提取和强化学习，机器人可以提高命令生成的准确性。
应用：Yin和Zhang（2023）通过这种方法提高了机器人在任务执行中的准确性和泛化能力。

提取隐含规则

机器人可以从人类演示中学习隐含的规则和习惯，这些规则和习惯难以通过传统方法明确抽象出来。
方法：通过行为驱动的状态抽象，机器人可以捕获人类任务相关的偏好。
应用：Peng et al.（2024）通过这种方法使机器人能够学习有效的人类导航技能。

增强人机交互

相比被动视频观察，利用机器人遥控来收集演示数据是一种更准确和高效的方法。
这种方法结合了动作示范和语言解释，提供了更直观和有效的人机交互。
方法：通过多模态交互，机器人可以更好地理解和执行任务。
应用：Halim et al.（2022）通过这种方法引入了一种无代码的机器人编程系统，适用于初学者。

支持更复杂的操作技能学习

获取复杂的操作技能通常需要多模态信息。人类不仅掌握所需的动作，还理解与任务相关的各种状态、状态转换和约束。
方法：通过多模态框架，机器人可以从多种感官数据中收集丰富的演示数据。
应用：Shukla et al.（2023）通过这种方法支持机器人学习复杂的工具操作技能。

基于视觉语言模型的机器人学习

视觉语言融合与多模态学习

视觉-语言融合和多模态学习通过整合视觉和语言信息，增强了机器人在复杂任务中的理解和执行能力。

方法：通过结合视觉和语言输入，机器人能够更好地理解任务场景和人类指令。这种方法通常涉及使用深度神经网络来提取特征，并在共享的特征空间中对齐这些特征。
应用：Shao et al.（2021）通过结合自然语言指令和视觉输入，提高了机器人在复杂操作任务中的泛化能力和学习效率。Wang et al.（2022b）通过多模态数据融合，提高了机器人在手递任务中预测人类意图的准确性。

模仿学习（IL）与强化学习（RL）的结合

模仿学习和强化学习的结合通过利用人类演示和强化学习算法，显著提升了机器人的任务泛化能力和零样本学习能力。

方法：模仿学习使机器人能够快速从人类演示中学习复杂行为，而强化学习则通过试错来优化这些行为。通过结合这两种方法，机器人能够在多种场景中表现出色。
应用：Jang et al.（2022）通过结合多语言句子编码器和强化学习，实现了在未见任务中的零样本任务泛化。Trick et al.（2022）通过结合多模态建议的贝叶斯融合，提高了机器人在任务中的收敛速度和鲁棒性。

任务和环境适应性的增强

通过视觉-语言模型，机器人可以在学习和执行任务时更好地适应不同的环境和任务需求。

方法：通过学习空间关系和概率模型，机器人能够更准确地执行任务。这种方法通常涉及使用深度学习模型来提取和理解空间信息。
应用：Nair et al.（2022）通过预训练的视觉表示模型，提高了机器人在未见环境中的任务成功率。Yu et al.（2023）通过学习对象的空间关系，提高了机器人在复杂环境中的任务执行能力。

面临挑战与未来研究方向

数据和计算高效的训练及部署

VLMs在实际制造场景中的预训练和部署面临显著的挑战，主要是由于其高计算需求和广泛的数据需求。

计算需求：VLMs的训练和推理需要大量的计算资源，限制了其在实时应用中的可行性。
数据需求：高质量、标注的数据集在多样化制造环境中难以获取，增加了训练成本和时间。
实时处理：VLMs在实时处理中常面临延迟问题，影响其在动态环境中的应用。
鲁棒性和可靠性：VLMs需要在实际生产中具备鲁棒性和可靠性，以应对变化和模糊性。

未来研究方向包括开发高效的训练策略、模型优化技术和鲁棒数据收集方法，以提高VLMs在实际应用中的可行性和有效性。

动态环境中的视觉语言任务规划

VLMs在任务规划中的一个重要挑战是其对静态场景的关注，限制了其在动态环境中的应用。

实时任务规划：在动态环境中进行实时任务规划仍然是一个未解决的问题。
SLAM技术：未来的研究可以探索结合同时定位与地图构建（SLAM）技术，以提供实时环境更新，增强VLMs的动态适应能力。
计算效率：提高VLMs的计算效率，以处理实时数据和开发更复杂的动态任务规划算法，是未来的关键研究方向。

实时3D场景重建和分割

尽管VLMs和LLMs在视觉-语言导航（VLN）方面取得了显著进展，但其工业应用仍然受到限制。

实时更新：当前的导航规划依赖于预建立的静态地图，无法满足动态环境的需求。
低延迟重建：实现快速、低延迟的实时3D重建和分割是未来的研究方向。
轻量级网络：结合大模型与轻量级网络，通过动态跟踪和人工操作员的辅助，实现高效的3D场景更新和适应性。

高精度的运动规划

VLM和LLM在机器人操作中的应用主要集中在家庭任务上，工业应用较少。

精度不足：现有的VLM/LLM在工业应用中的运动规划精度不足以满足复杂任务的需求。
传感器技术：通过集成先进的传感器技术和反馈控制系统，可以提升运动规划的精度。
平衡灵活性和精度：未来的研究应致力于在灵活性、泛化和精度之间找到平衡。

额外的模态和复杂指令理解

在VLM指导下的人机技能转移中，整合额外的模态可以增强机器人的上下文理解和技能获取能力。

多模态信息：结合触觉反馈和其他感官信息，可以提升机器人在复杂任务中的表现。
复杂指令：现有的VLM在处理复杂或上下文依赖的指令方面存在局限，未来的研究应提升其理解能力。

动态任务适应和无监督评估

为了实现技能在仿真和现实应用之间的有效转移，学习算法需要具备对现实世界变化的鲁棒性。

动态适应：机器人需要具备在动态环境中自主适应的能力，结合域随机化和增强现实进行训练。
无监督评估：实施无监督评估机制，建立自我评估框架，减少对人类监督的依赖。
持续学习：通过持续学习机制，机器人可以基于新经验和环境反馈自主改进性能。

总结

论文系统地回顾了VLMs在智能制造中人机协作中的最新进展和应用，展示了其在任务规划、导航、操作和技能转移中的潜力。
尽管VLMs在多个应用场景中表现出显著的优势，但仍面临实时处理、计算需求和动态环境处理等挑战。
未来的研究方向包括提高VLMs的可扩展性、开发更自然和直观的人机交互机制，以及减少VLMs的数据和计算需求，以便在工业环境中大规模部署。
通过解决这些挑战，VLMs有望在智能制造中发挥更大的作用，推动制造业的智能化和自动化。

香港理工视觉语言模型赋能智能制造最新综述！基于视觉语言模型的人机协作在智能制造中的应用