【工程开发】Qwen2.5-VL-32B-Instruct 微调(一)-CSDN博客
【文献阅读】Qwen2.5-VL Technical Report
摘要
我们介绍Qwen2.5-VL,这是通义千问视觉语言系列的最新旗舰模型,它在基础能力和创新功能方面都取得了显著进展。Qwen2.5-VL通过增强视觉识别、精确物体定位、强大的文档解析和长视频理解能力,在理解世界和与世界交互方面实现了重大飞跃。Qwen2.5-VL的一个突出特点是它能够使用边界框或点精确地定位物体。它可以从发票、表单和表格中可靠地提取结构化数据,并对图表、示意图和布局进行详细分析。为了处理复杂输入,Qwen2.5VL引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和较长时长(长达数小时)的视频,并实现秒级的事件定位。这使得该模型能够自然地感知空间尺度和时间动态,而无需依赖传统的归一化技术。通过从头开始训练一个原生动态分辨率视觉Transformer(ViT)并结合窗口注意力机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL不仅在静态图像和文档理解方面表现出色,还能作为一个交互式视觉智能体,在操作计算机和移动设备等现实场景中进行推理、使用工具和执行任务。该模型无需特定任务的微调就能在不同领域实现强大的泛化能力。Qwen2.5-VL有三种规模版本,可满足从边缘人工智能到高性能计算的各种应用场景。旗舰模型Qwen2.5-VL-72B与GPT-4o和Claude 3.5 Sonnet等最先进的模型相媲美,在文档和图表理解方面尤为出色。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B模型优于同类竞品,即使在资源受限的环境中也具有强大的能力。此外,Qwen2.5-VL保持了强大的语言性能,保留了Qwen2.5大语言模型的核心语言能力。
1 引言
大型视觉语言模型(LVLMs)(OpenAI, 2024; Anthropic, 2024a; Team et al., 2023; Wang et al., 2024f)代表了人工智能领域的一个关键突破,标志着一种变革性的多模态理解和交互方法。通过将视觉感知与自然语言处理无缝结合,这些先进模型从根本上重塑了机器在不同领域解释和分析复杂信息的方式。
尽管多模态大语言模型取得了显著进展,但目前这些模型的能力可以比作夹心饼干的中间层——在各种任务上表现尚可,但仍未达到卓越水平。细粒度的视觉任务构成了这个类比的基础层。在Qwen2.5-VL的这一版本中,我们致力于探索细粒度的感知能力,旨在为LVLMs建立坚实的基础,并为现实世界的应用创造一个智能增强器。这个框架的顶层是多模态推理,通过利用最新的Qwen2.5大语言模型并采用多模态问答数据构建来增强这一能力。
一系列研究推动了多模态大模型的发展,其特点体现在架构设计、视觉输入处理和数据整理等方面。LVLMs进展的主要驱动力之一是架构的不断创新。(Alayrac et al., 2022; Li et al., 2022a; 2023b; Liu et al., 2023b;a; Wang et al., 2024i; Zhang et al., 2024b; Wang et al., 2023)中的研究逐步塑造了当前的范式,该范式通常由视觉编码器、跨模态投影仪和大语言模型组成。细粒度感知模型成为了另一个关键领域。
像(Xiao et al., 2023; Liu et al., 2023c; Ren et al., 2024; Zhang et al., 2024a;d; Peng et al., 2023; Deitke et al., 2024)这样的模型推动了详细视觉理解的边界。Omni(Li et al., 2024g; 2025b; Ye et al., 2024)和MoE(Riquelme et al., 2021; Lee et al., 2024; Li et al., 2024h;c; Wu et al., 2024b)的架构也为LVLMs的未来发展提供了灵感。
视觉编码器的改进(Chen et al., 2023; Liu et al., 2024b; Liang et al., 2025)和分辨率缩放(Li et al., 2023c; Ye et al., 2023; Li et al., 2023a)在提高实际视觉理解质量方面发挥了关键作用。整理具有更多样化场景和更高质量的数据是训练先进LVLMs的重要一步。(Guo et al., 2024; Chen et al., 2024d; Liu et al., 2024a; Chen et al., 2024a; Tong et al., 2024; Li et al., 2024a)中提出的努力对这一目标做出了极有价值的贡献。
然而,尽管视觉语言模型取得了显著进展,但它们目前面临着发展瓶颈,包括计算复杂性、有限的上下文理解、较差的细粒度视觉感知以及在不同序列长度下性能不一致等问题。
在本报告中,我们介绍了最新成果Qwen2.5-VL,它延续了通义千问系列的开源理念,在各种基准测试中达到甚至超越了顶级闭源模型。从技术上讲,我们的贡献有四个方面:(1)我们在视觉编码器中实现了窗口注意力机制,以优化推理效率;(2)我们引入了动态帧率采样,将动态分辨率扩展到时间维度,从而实现对不同采样率视频的全面理解;(3)我们在时间域升级了MRoPE,使其与绝对时间对齐,从而促进更复杂的时间序列学习;(4)我们在整理用于预训练和监督微调的高质量数据方面付出了巨大努力,将预训练语料库从1.2万亿词元进一步扩展到4.1万亿词元。
Qwen2.5-VL的显著特点如下:
- 强大的文档解析能力:Qwen2.5-VL将文本识别升级为全文档解析,擅长处理多场景、多语言以及包含各种内置元素(手写内容、表格、图表、化学公式和乐谱)的文档。
- 跨格式的精确物体定位:Qwen2.5-VL在检测、指向和计数物体方面的准确性得到提升,支持绝对坐标和JSON格式,便于进行更高级的空间推理。
- 超长视频理解和细粒度视频定位:我们的模型将原生动态分辨率扩展到时间维度,增强了对长达数小时视频的理解能力,同时能够在秒级时间内提取事件片段。
- 增强的计算机和移动设备智能体功能:利用先进的定位、推理和决策能力,Qwen2.5-VL在智能手机和计算机上具备卓越的智能体功能。
图1 Qwen2.5-VL框架展示了视觉编码器和语言模型解码器的集成,用于处理包括图像和视频在内的多模态输入。视觉编码器旨在以原生分辨率处理输入,并支持动态帧率采样。不同大小的图像和具有不同帧率的视频帧被动态映射到不同长度的词元序列。值得注意的是,MRoPE在时间维度上将时间ID与绝对时间对齐,使模型能够更好地理解时间动态,例如事件的节奏和精确的时刻定位。处理后的视觉数据随后被输入到Qwen2.5语言模型解码器中。我们重新设计了视觉Transformer(ViT)架构,融入了诸如带有SwiGLU激活函数的前馈神经网络、用于归一化的RMSNorm以及基于窗口的注意力机制等先进组件,以提高性能和效率。
这张图展示了 Qwen2.5 - VL 模型的架构,主要包括视觉编码器(Vision Encoder)和 Qwen2.5 语言模型解码器(Qwen2.5 LM Decoder)两大部分:
整体架构
- 视觉编码器(Vision Encoder):接收图像和视频的原生分辨率输入(Native Resolution Input) 。其结构包含多个组件,如使用 SwiGLU 激活函数的前馈神经网络(FFN with SwiGLU )、用于归一化的 RMSNorm 。有一部分层采用全注意力机制(Full Attention ),其他层采用窗口注意力机制(Window Attention),还包含一个 3D 卷积(Conv3D (2x14x14) )用于处理视频数据 。窗口划分(Window partition )展示了对输入图像或视频帧的处理方式。
- Qwen2.5 语言模型解码器(Qwen2.5 LM Decoder):接收视觉编码器处理后的信息,进行后续处理。
输入数据示例及 token 数量
- Picture 1:一张具有特定宽高(Width: 1092,Height: 8204 )的图片,经过处理后对应 11427 个 token 。
- Picture 2:宽 224、高 28 的图片,对应 8 个 token 。
- Picture 3:宽 1260、高 700 的图片,对应 1125 个 token 。
- Video 1:一个视频示例,宽 644、高 392 ,根据不同情况对应 644 / 1288 / 2576 个 token 。
时间相关处理
- 动态帧率采样(Dynamic FPS sampling):视频处理时采用动态帧率采样,图中展示了不同帧率(0.5FPS、1FPS、2FPS )下的采样情况 。
- 多模态旋转位置嵌入时间 ID(MRoPE Time ID):与绝对时间对齐(Align with Absolute Time ),展示了如何将 MRoPE 时间 ID 与绝对时间对应起来,例如在 8 秒的时间范围内,不同时间点对应的 MRoPE 时间 ID 。
2 方法
在本节中,我们首先概述Qwen2.5-VL系列模型的架构更新,并提供数据和训练细节的概述。
2.1 模型架构
Qwen2.5-VL的整体模型架构由三个组件组成:
- 大语言模型:Qwen2.5-VL系列采用大语言模型作为其基础组件。该模型使用Qwen2.5大语言模型的预训练权重进行初始化。为了更好地满足多模态理解的需求,我们将1D旋转位置嵌入(RoPE)修改为与绝对时间对齐的多模态旋转位置嵌入。
- 视觉编码器:Qwen2.5-VL的视觉编码器采用了重新设计的视觉Transformer(ViT)架构。在结构上,我们融入了2D旋转位置嵌入(RoPE)和窗口注意力机制,以支持原生输入分辨率,同时加速整个视觉编码器的计算。在训练和推理过程中,输入图像的高度和宽度在输入到ViT之前被调整为28的倍数。视觉编码器通过以14为步长将图像分割成小块来处理图像,生成一组图像特征。我们将在2.1.1节中对视觉编码器进行更详细的介绍。
- 基于多层感知器的视觉语言融合器:为了解决图像特征长序列带来的效率挑战,我们采用了一种简单而有效的方法,在将特征序列输入到大语言模型(LLM)之前对其进行压缩。具体来说,我们不是直接使用视觉Transformer(ViT)提取的原始小块特征,而是首先将空间上相邻的四个小块特征分组。然后将这些分组后的特征连接起来,并通过一个两层的多层感知器(MLP)将它们投影到与大语言模型中使用的文本嵌入相匹配的维度。这种方法不仅降低了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。
表1详细列出了Qwen2.5-VL的架构和配置。
2.1.1 快速高效的视觉编码器
视觉编码器在多模态大语言模型(MLLMs)中起着关键作用。为了解决由于原生分辨率输入在训练和推理过程中导致的计算负载不平衡问题,我们重新设计了视觉Transformer(ViT)架构。一个关键问题源于处理不同大小图像时的二次计算复杂度。为了缓解这一问题,我们在大多数层中引入了窗口注意力机制,确保计算成本与小块数量成线性关系,而非二次关系。在我们的架构中,只有四层采用全自注意力机制,其余层使用最大窗口大小为112×112(对应8×8个小块)的窗口注意力机制。小于112×112的区域在处理时无需填充,保留其原始分辨率。这种设计使模型能够在输入分辨率下原生运行,避免了不必要的缩放或失真。
对于位置编码,我们采用2D旋转位置嵌入(RoPE)来有效地捕捉2D空间中的空间关系。此外,为了更好地处理视频输入,我们将方法扩展到3D小块划分。具体来说,我们使用14×14的图像小块作为基本单元,这与传统用于静态图像的ViT一致。对于视频数据,将两个连续的帧组合在一起,显著减少了输入到语言模型的词元数量。这种设计不仅保持了与现有架构的兼容性,还提高了处理连续视频数据时的效率。
为了简化整体网络结构,我们使ViT架构更紧密地符合大语言模型(LLMs)的设计原则。具体而言,我们采用RMSNorm(Zhang &Sennrich, 2019)进行归一化,并使用SwiGLU(Dauphin et al., 2017)作为激活函数。这些选择提高了计算效率,同时增强了模型中视觉和语言组件之间的兼容性。
在训练方面,我们从头开始训练重新设计的ViT。训练过程包括几个阶段,包括CLIP预训练、视觉语言对齐和端到端微调。为了确保在不同输入分辨率下的稳健性,我们在训练过程中采用了原生分辨率动态采样。图像根据其原始宽高比进行随机采样,使模型能够有效地泛化到各种分辨率的输入。这种方法不仅提高了模型的适应性,还确保了在不同大小的视觉数据上进行稳定高效的训练。
2.1.2 原生动态分辨率和帧率
Qwen2.5-VL在空间和时间维度上都取得了进展,以有效地处理各种多模态输入。
在空间领域,Qwen2.5-VL将不同大小的图像动态转换为相应长度的词元序列。与传统的归一化坐标方法不同,我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使得模型能够固有地学习尺度信息,提高了其处理不同分辨率图像的能力。
对于视频输入,Qwen2.5-VL采用了动态帧率(FPS)训练和绝对时间编码。通过适应可变帧率,模型可以更好地捕捉视频内容的时间动态。与其他采用文本时间戳或使用额外头部来实现时间定位的方法不同,我们引入了一种新颖而高效的策略,将MRoPE ID直接与时间戳对齐。这种方法使模型能够通过时间维度ID之间的间隔来理解时间节奏,而无需任何额外的计算开销。
2.1.3 与绝对时间对齐的多模态旋转位置嵌入
位置嵌入对于在视觉和语言模态中对顺序数据进行建模至关重要。在Qwen2-VL中引入的多模态旋转位置嵌入(MRoPE)的基础上,我们扩展了其能力,以更好地处理视频中的时间信息。
Qwen2-VL中的MRoPE将位置嵌入分解为三个不同的组件:时间、高度和宽度,以有效地对多模态输入进行建模。对于文本输入,所有三个组件使用相同的位置ID,使得MRoPE在功能上等同于传统的1D RoPE(Su et al., 2024)。对于图像,时间ID在所有视觉词元上保持不变,而根据每个词元在图像中的空间位置为高度和宽度组件分配唯一的ID。在处理视频时,视频被视为帧的序列,时间ID随每个帧递增,而高度和宽度组件遵循与静态图像相同的分配模式。
然而,在Qwen2-VL中,MRoPE中的时间位置ID与输入帧的数量相关联,这没有考虑到内容变化的速度或视频中事件的绝对时间。为了解决这一限制,Qwen2.5-VL引入了一个关键改进:将MRoPE的时间组件与绝对时间对齐。如图1所示,通过利用时间ID之间的间隔,模型能够在不同帧率采样的视频中学习一致的时间对齐。
MRoPE 的时间组件含义
在 Qwen2.5 - VL 模型中,多模态旋转位置嵌入(MRoPE)把位置嵌入分解成时间、高度、宽度三个组件 。其中时间组件是用来在处理视频这类具有时间序列特性的数据时,对不同帧在时间维度上进行标识的部分。在处理视频时,视频帧按顺序排列,时间 ID 会随着帧的顺序递增,以此来体现视频的时间先后关系。在处理视频时,帧率是一个关键因素。不同视频可能有不同帧率,比如有的视频是每秒 1 帧(1FPS),有的是每秒 2 帧(2FPS) 。假设一段 8 秒时长的视频,如果是 1FPS,就只有 8 帧;如果是 2FPS,就有 16 帧。如果 MRoPE 的时间组件仅和帧数量关联,不与绝对时间对齐,模型就无法准确感知实际时间。比如在判断视频中某个动作持续时间,或者两个事件先后间隔时,模型可能会出错。与绝对时间对齐后,无论视频帧率如何,模型都能基于真实时间尺度去理解视频内容,比如能精准判断出某个动作在真实时间里持续了几秒,不同事件在实际时间轴上的准确位置等 ,这对单段视频的理解同样至关重要。
与绝对时间对齐的原因
- 弥补原有时间标识缺陷:在 Qwen2 - VL 中,MRoPE 的时间位置 ID 仅和输入帧数量关联。这就导致它没有考虑视频里内容变化的速度以及事件发生的绝对时间。比如,不同帧率的视频,同样的时间跨度内帧数量不同,但按原来方式模型难以准确感知实际时间差异,而与绝对时间对齐能解决这个问题。
- 增强时间感知能力:通过与绝对时间对齐,模型可以利用时间 ID 之间的间隔,在不同帧率采样的视频中学习到一致的时间对齐。这样模型就能更好地理解视频中事件的节奏快慢、精确的发生时刻等时间动态信息,比如能更准确判断动作持续时间、事件先后顺序等,提升在视频理解相关任务上的性能 。
2.2 预训练
在本节中,我们首先描述预训练数据集的构建,然后概述整体训练流程和配置。
2.2.1 预训练数据
与Qwen2-VL相比,我们显著扩展了预训练数据的规模,从1.2万亿词元增加到约4万亿词元。我们的预训练数据集通过多种方法构建,包括清理原始网络数据、合成数据等。该数据集涵盖了广泛的多模态数据,如图像字幕、交错的图像文本数据、光学字符识别(OCR)数据、视觉知识(如名人、地标、动植物识别)、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于智能体的交互数据。在整个训练过程中,我们在不同阶段仔细调整这些数据类型的组成和比例,以优化学习效果。
- 交错图像文本数据:交错图像文本数据对于多模态学习至关重要,具有三个主要优点:(1)能够在同时存在视觉和文本线索的情况下进行上下文学习(Alayrac et al., 2022);(2)在缺少图像时保持强大的纯文本处理能力(Lin et al., 2024);(3)包含广泛的通用信息。然而,许多现有的交错数据缺乏有意义的图像文本关联,并且通常存在噪声,这限制了其在复杂推理和创意生成中的作用。
为了解决这些挑战,我们开发了一个数据评分和清理流程,确保仅使用高质量、相关的交错数据。我们的流程包括两个步骤:标准数据清理(Li et al., 2024e),然后使用内部评估模型进行四个阶段的评分。评分标准包括:
(1)纯文本质量;(2)图像文本相关性;(3)图像文本互补性;(4)信息密度平衡。这种细致的方法提高了模型进行复杂推理和生成连贯多模态内容的能力。
以下是对这些图像文本评分标准的描述:
- 图像文本相关性:得分越高,表示图像和文本之间的联系越紧密,图像能够有意义地补充、解释或扩展文本,而不仅仅是装饰文本。
- 信息互补性:得分越高,反映图像和文本之间的互补信息越多。两者应各自提供独特的细节,共同构成完整的叙述。
- 信息密度平衡:得分越高意味着图像和文本之间的信息分布更均衡,避免文本或图像信息过多,确保两者之间的适当平衡。
- 带绝对位置坐标的定位数据:我们采用原生分辨率训练,旨在实现对世界更准确的感知。相比之下,相对坐标无法有效地表示图像中物体的原始大小和位置。为了解决这一限制,Qwen2.5-VL在训练过程中使用基于输入图像实际尺寸的坐标值来表示边界框和点。这种方法确保模型能够更好地捕捉物体的真实世界尺度和空间关系,从而在物体检测和定位等任务中提高性能。
为了提高定位能力的泛化性,我们开发了一个全面的数据集,涵盖了带有引用表达式的边界框和点,利用了公开可用的数据集和专有数据。我们的方法包括将数据合成为各种格式,如XML、JSON和自定义格式,采用复制粘贴增强(Ghiasi et al., 2021)等技术,以及使用现成的模型(如Grounding DINO(Liu et al., 2023c)和SAM(Kirillov et al., 2023))进行合成。这种方法有助于更稳健地评估和提升定位能力。
为了增强模型在开放词汇检测方面的性能,我们将训练数据集扩展到包括超过10,000个物体类别。此外,为了提高为了增强模型在开放词汇检测方面的性能,我们将训练数据集扩展到包括超过10,000个物体类别。此外,为了提高模型在极端物体检测场景下的有效性,我们在查询中合成了不存在的物体类别,并为每个物体构建了包含多个实例的图像数据。
为确保卓越的基于点的物体定位能力,我们构建了一个全面的指向数据集,该数据集包含公开可用数据和合成数据。具体而言,数据源包括来自PixMo(Deitke等人,2024)的公开指向和计数数据、公开可获取的物体定位数据(来自物体检测和实例分割任务),以及通过自动管道生成的针对特定图像细节的精确指向数据。
文档全解析数据:为训练Qwen2.5-VL,我们合成了大量文档数据。传统的文档内容解析方法通常依赖单独的模型来处理布局分析、文本提取、图表解释和插图处理。相比之下,Qwen2.5VL旨在赋予通用模型全面解析、理解和转换文档格式的能力。具体来说,我们在文档中纳入了多种元素,如表格、图表、方程式、自然或合成图像、乐谱和化学公式。这些元素统一格式化为HTML,将布局框信息和插图描述整合到HTML标签结构中。我们还根据典型阅读顺序丰富了文档布局,并在基于HTML的基准事实中包含了每个模块(如段落和图表)对应的坐标。这种创新方法使得任何文档的完整信息,包括其布局、文本、图表和插图,都能以标准化和统一的方式表示。结果,Qwen2.5-VL实现了多模态文档元素的无缝集成,从而促进更高效、准确的文档理解和转换。
以下是QwenVL HTML格式:
```html
<html><body>
<!-- paragraph -->
<p data-bbox="x1 y1 x2 y2"> content </p>
<!-- table -->
<style>table{id} style</style><table data-bbox="x1 y1 x2 y2" class="table{id}"> table content </table>
<!-- chart -->
<div class="chart" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /><table> chart content </table></div>
<!-- formula -->
<div class="formula" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /> <div> formula content </div></div>
<!-- image caption -->
<div class="image caption" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /><p> image caption </p></div>
<!-- image ocr -->
<div class="image ocr" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /><p> image ocr </p></div>
<!-- music sheet -->
<div class="music sheet" format="abc notation" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /> <div> music sheet content </div></div>
<!-- chemical formula content -->
<div class="chemical formula" format="smile" data-bbox="x1 y1 x2 y2"> <img data-bbox="x1 y1 x2 y2" /> <div> chemical formula content </div></div>
</html></body>
```
这种格式确保所有文档元素都以结构化且可访问的方式表示,便于Qwen2.5-VL进行高效处理和理解。
OCR数据:收集并整理来自不同来源的数据以提高OCR性能,包括合成数据、开源数据和内部收集的数据。通过视觉文本生成引擎生成合成数据,以产生逼真的高质量文本图像。为支持更广泛的语言并增强多语言能力,我们纳入了大规模多语言OCR数据集。该数据集涵盖多种语言,如法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语。通过精心整理数据集,利用高质量合成图像和真实世界自然场景图像,确保数据的多样性和质量。这种结合确保模型在各种语言环境中都具有稳健性能,并提高其对不同文本外观和环境条件的适应性。
对于图表类型的数据,我们使用包括matplotlib、seaborn和plotly在内的可视化库合成了100万个样本,涵盖柱状图、关系图和热图等图表类别。对于表格数据,我们通过离线端到端表格识别模型处理了600万个真实世界样本,随后过滤掉低置信度表格、重叠表格和单元格密度不足的表格。
视频数据:为确保在理解不同帧率(FPS)的视频数据时具有更强的稳健性,我们在训练过程中动态采样帧率,以在训练数据集中实现更均匀的帧率表示。此外,对于时长超过半小时的视频,我们通过有针对性的合成管道合成多帧字幕,专门构建了一组长视频字幕。对于视频定位数据,我们制定了基于秒的格式和时-分-秒-帧(hmsf)格式的时间戳,确保模型能够准确理解和输出各种格式的时间。
智能体数据:我们增强感知和决策能力以构建Qwen2.5-VL的智能体能力。在感知方面,我们收集移动、网页和桌面平台上的屏幕截图。使用合成数据引擎生成屏幕截图字幕和UI元素定位注释。字幕任务帮助Qwen2.5-VL理解图形界面,而定位任务帮助它对齐元素的外观和功能。在决策方面,我们首先将移动、网页和桌面平台上的操作统一为具有共享动作空间的函数调用格式。从开源数据收集并由智能体框架(Wang等人,2025;2024b;c)在虚拟环境中合成的一组带注释的多步轨迹被重新格式化为函数格式。我们进一步通过人工和模型注释器为每个步骤生成推理过程(Xu等人,2024)。
具体来说,给定一个事实操作,我们在屏幕截图上突出显示它。然后,我们向注释器提供全局查询以及该操作前后的屏幕截图,并要求他们编写推理内容来解释该操作背后的意图。使用基于模型的过滤器筛选出低质量的推理内容。这种推理内容防止Qwen2.5-VL过度拟合事实操作,并使其在现实场景中更稳健。
2.2.2 训练方法
我们使用DataComp(Gadre等人,2023)和一些内部数据集从头开始训练视觉Transformer(ViT),作为视觉编码器的初始化,同时利用预训练的Qwen2.5大语言模型(LLM)(Yang等人,2024a)作为LLM组件的初始化。如表2所示,预训练过程分为三个不同阶段,每个阶段采用不同的数据配置和训练策略,以逐步增强模型的能力。
在第一阶段,仅训练视觉Transformer(ViT),以改善其与语言模型的对齐,为多模态理解奠定坚实基础。此阶段的主要数据源包括图像字幕、视觉知识和OCR数据。精心选择这些数据集,以培养ViT提取有意义视觉表示的能力,使其能够有效地与文本信息集成。
在第二阶段,所有模型参数被解冻,模型在各种多模态图像数据上进行训练,以增强其处理复杂视觉信息的能力。此阶段引入了更复杂和推理密集型的数据集,如交错数据、多任务学习数据集、视觉问答(VQA)、多模态数学、基于智能体的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉和语言模态之间建立更深层次联系的能力,使其能够处理日益复杂的任务。
在第三阶段,为了进一步增强模型在更长序列上的推理能力,纳入了视频和基于智能体的数据,同时增加了序列长度。这使模型能够更精确地处理更高级和复杂的多模态任务。通过扩展序列长度,模型获得了处理扩展上下文的能力,这对于需要长距离依赖和复杂推理的任务特别有益。
为了解决不同图像大小和文本长度带来的挑战(这可能导致训练过程中计算负载不平衡),我们采用了一种优化训练效率的策略。主要计算成本来自LLM和视觉编码器。鉴于视觉编码器参数相对较少,并且我们引入了窗口注意力机制进一步降低其计算需求,我们专注于平衡不同GPU上LLM的计算负载。
具体来说,我们根据输入到LLM的相应序列长度动态打包数据样本,确保计算负载一致。在第一和第二阶段,数据统一打包为长度8,192的序列,而在第三阶段,序列长度增加到32,768,以适应模型处理更长序列的增强能力。
2.3 训练后处理
Qwen2.5-VL的训练后对齐框架采用两阶段优化范式,包括监督微调(SFT)和直接偏好优化(DPO)(Rafailov等人,2023)。这种分层对齐策略将参数高效的域适应与人类偏好提炼相结合,通过不同的优化目标解决表示基础和行为优化问题。
2.3.1 指令数据
监督微调(SFT)阶段使用精心策划的数据集,旨在增强模型在不同模态下遵循指令的能力。该数据集包含约200万个条目,均匀分布在纯文本数据(50%)和多模态数据(50%)之间,多模态数据包括图像文本和视频文本组合。多模态数据的纳入使模型能够有效处理复杂输入。值得注意的是,尽管纯文本和多模态条目在数量上相等,但由于嵌入的视觉和时间信息,多模态条目在训练过程中消耗更多的词元和计算资源。该数据集主要由中文和英文数据组成,并包含补充的多语言条目以支持更广泛的语言多样性。
数据集的结构反映了不同程度的对话复杂性,包括单轮和多轮交互。这些交互进一步通过从单图像输入到多图像序列的场景进行上下文设置,从而模拟现实的对话动态。查询来源主要来自开源存储库,以及精选购买的数据集和在线查询数据的补充贡献。这种组合确保了广泛的覆盖范围,并增强了数据集的代表性。
为了涵盖广泛的应用场景,数据集包括用于通用视觉问答(VQA)、图像字幕、数学问题解决、编码任务和安全相关查询的专用子集。此外,还构建了用于文档和光学字符识别(Doc和OCR)、定位、视频分析和智能体交互的专用数据集,以提高特定领域的熟练度。有关数据的详细信息,请参阅论文的相关部分。这种结构化和多样化的组成确保SFT阶段有效地将预训练表示与下游多模态任务的细微需求对齐,促进强大且具有上下文感知的模型性能。
2.3.2 数据过滤流程
训练数据的质量是影响视觉语言模型性能的关键因素。开源和合成数据集通常具有显著的可变性,往往包含噪声、冗余或低质量的样本。因此,严格的数据清理和过滤过程对于解决这些问题至关重要。低质量数据可能导致预训练表示与下游任务要求之间的对齐不佳,从而降低模型有效处理复杂多模态任务的能力。因此,确保高质量数据对于实现强大且可靠的模型性能至关重要。
为了解决这些挑战,我们实施了一个两阶段数据过滤流程,旨在系统地提高监督微调(SFT)数据集的质量。该流程包括以下阶段:
阶段1:特定领域分类:在初始阶段,我们使用Qwen2-VL-Instag(一种从Qwen2-VL-72B派生的专用分类模型)对问答(QA)对进行分层分类。该模型将QA对组织为八个主要领域,如编码和规划,这些领域进一步细分为30个细粒度的子类别。例如,主要领域编码被细分为子类别,包括代码调试、代码生成、代码翻译和代码理解。这种分层结构便于采用领域感知和子领域感知的过滤策略,使流程能够根据每个类别的特定特征优化数据清理过程。因此,这提高了监督微调(SFT)数据集的质量和相关性。
阶段2:领域定制过滤:第二阶段涉及领域定制过滤,它结合了基于规则和基于模型的方法,以全面提高数据质量。鉴于文档处理、光学字符识别(OCR)和视觉定位等领域的多样性,每个领域可能需要独特的过滤策略。以下是这些领域通用过滤策略的概述。
基于规则的过滤采用预定义的启发式方法来消除低质量或有问题的条目。具体来说,对于与文档处理、OCR和视觉定位任务相关的数据集,识别并删除重复模式,以防止扭曲模型的学习过程并确保最佳性能。此外,排除包含不完整、截断或格式不正确响应的条目(这些在合成数据集和多模态上下文中很常见)。为了保持相关性并遵守道德标准,还丢弃不相关或可能导致有害输出的查询和答案。这种结构化方法确保数据集符合道德准则并满足特定任务的要求。
基于模型的过滤通过利用在Qwen2.5VL系列上训练的奖励模型进一步优化数据集。这些模型从多个维度评估多模态QA对。评估查询的复杂性和相关性,仅保留那些具有适当挑战性和上下文相关性的示例。评估答案的正确性、完整性、清晰度、与查询的相关性以及有用性。在视觉定位任务中,特别关注验证视觉信息的准确解释和利用。这种多维度评分确保只有高质量的数据进入SFT阶段。
2.3.3 用于增强推理的拒绝采样
为了补充我们结构化的数据过滤流程,我们采用拒绝采样作为一种策略来优化数据集并增强视觉语言模型(VLM)的推理能力。这种方法对于需要复杂推理的任务(如数学问题解决、代码生成和特定领域的视觉问答(VQA))尤为关键。先前的研究表明,纳入思维链(Chain-of-Thought, CoT)(Wei等人,2022)推理可显著提高模型的推理性能(DeepSeek-AI等人,2024)。我们的训练后实验证实了这一点,强调了结构化推理过程对于实现高质量结果的重要性。
拒绝采样过程从丰富了事实注释的数据集开始。这些数据集经过精心策划,包括需要多步推理的任务,如数学问题解决、代码生成和特定领域的VQA。使用Qwen2.5-VL模型的中间版本,我们将生成的响应与事实进行评估。仅保留模型输出与预期答案匹配的样本,确保数据集中仅包含高质量、准确的示例。
为了进一步提高数据质量,我们应用额外的约束条件来过滤掉不理想的输出。具体来说,我们排除表现出代码切换、过长或重复模式的响应。这些标准确保思维链推理过程的清晰性和连贯性,这对于下游应用至关重要。
将思维链推理应用于视觉语言模型的一个关键挑战是它们对文本和视觉模态的依赖。中间推理步骤可能无法充分整合视觉信息,要么忽略相关的视觉线索,要么错误解释它们。为了解决这个问题,我们开发了基于规则和模型驱动的过滤策略,以验证中间推理步骤的准确性。这些机制确保思维链过程中的每个步骤都能有效地整合视觉和文本模态。尽管做出了这些努力,但实现最佳的模态对齐仍然是一个持续的挑战,需要进一步的进展。
通过拒绝采样生成的数据显著提高了模型的推理能力。通过迭代优化数据集并去除低质量或错误的样本,我们使模型能够从强调准确和连贯推理的高保真示例中学习。这种方法不仅增强了模型处理复杂任务的能力,还为视觉语言建模的未来改进奠定了基础。
2.3.4 训练方法
Qwen2.5-VL的训练后过程包括两个阶段:监督微调(SFT)和直接偏好优化(DPO),两个阶段中视觉Transformer(ViT)的参数均被冻结。在SFT阶段,模型在各种多模态数据上进行微调,包括图像文本对、视频和纯文本,这些数据来自通用VQA、拒绝采样以及诸如文档和OCR、定位、视频和智能体相关任务等专用数据集。DPO阶段仅关注图像文本和纯文本数据,利用偏好数据使模型与人类偏好对齐,每个样本仅处理一次以确保高效优化。这种简化的过程增强了模型的跨模态推理和特定任务性能,同时保持与用户意图的一致性。
3 实验
在本节中,我们首先介绍整体模型,并将其与当前最先进的(SoTA)模型进行比较。然后,我们评估模型在各种子能力方面的性能。
3.1 与最先进模型的比较
表3展示了Qwen2.5-VL与最先进模型的性能对比。
实验部分在各种数据集上评估了Qwen2.5-VL的性能,并将其与最先进的模型(如Claude-3.5-Sonnet-0620(Anthropic, 2024a)、GPT-4o-0513(OpenAI, 2024)、InternVL2.5(Chen等人,2024d)以及不同规模的Qwen2-VL(Wang等人,2024e))进行了比较。在大学水平的问题上,Qwen2.5-VL-72B在MMMU(Yue等人,2023)上的得分为70.2。对于MMMU-Pro(Yue等人,2024),Qwen2.5-VL-72B的得分为51.1,超过了之前的开源最先进模型,并且性能与GPT-4o相当。
在数学相关任务中,Qwen2.5-VL-72B展示出强大的能力。在MathVista(Lu等人,2024)上,它的得分为74.8,超过了之前开源最先进模型的72.3分。对于MATH-Vision(Wang等人,2024d),Qwen2.5-VL-72B的得分为38.1,而在MathVerse(Zhang等人,2024c)上的得分为57.6,与其他领先模型相比,均显示出具有竞争力的结果。
在通用视觉问答方面,Qwen2.5-VL-72B在多个基准测试中表现出色。在MMbench-EN(Liu等人,202在通用视觉问答方面,Qwen2.5-VL-72B在多个基准测试中表现出色。在MMbench-EN(Liu等人,2023d)上,它取得了88.6分的成绩,略高于之前的最佳得分88.3分。该模型在MuirBench(Wang等人,2024a)中也表现良好,得分达到70.7分,在BLINK(Fu等人,2024c)中得分为64.4分。在多语言能力评估的MTVQA(Tang等人,2024)中,Qwen2.5-VL-72B获得了31.7分,展示了其强大的多语言文本识别能力。在诸如MMVet(Yu等人,2024)和MM-MT-Bench(Agrawal等人,2024)的主观评估中,Qwen2.5-VL-72B分别获得了76.2分和7.6分,证明了其出色的自然对话体验和用户满意度。
3.2 纯文本任务性能
为了严格评估经过指令微调的模型在纯文本任务上的表现,如表4所示,我们选择了几个具有代表性的基准测试,以评估模型在各种领域的能力,包括通用任务(Wang等人,2024j;Gema等人,2024;White等人,2024)、数学和科学任务(Rein等人,2023;Hendrycks等人,2021;Cobbe等人,2021)、编码任务(Chen等人,2021;Cassano等人,2023)以及对齐任务(Zhou等人,2023)。我们将Qwen2.5-VL与几个类似规模的大语言模型(LLMs)进行了比较。结果表明,Qwen2.5-VL不仅在多模态任务中达到了最先进(SoTA)的性能,在纯文本任务中也展现出领先的表现,展示了其在不同评估标准下的通用性和稳健性。
3.3 定量结果
3.3.1 通用视觉问答
为了全面评估模型在通用视觉问答(VQA)和对话方面的能力,我们在广泛的数据集上进行了大量实验。如表3所示,Qwen2.5-VL在各种VQA任务、主观评估、多语言场景以及多图像问题中均展现出最先进的性能。具体而言,它在MMBench系列(Liu等人,2023d)、MMStar(Chen等人,2024c)、MME(Fu等人,2023)、MuirBench(Wang等人,2024a)、BLINK(Fu等人,2024c)、CRPE(Wang等人,2024h)、HallBench(Guan等人,2023)、MTVQA(Tang等人,2024)、MME-RealWorld(Zhang等人,2024f)、MMVet(Yu等人,2024)和MM-MT-Bench(Agrawal等人,2024)等基准数据集上表现优异。
在视觉细节理解和推理领域,Qwen2.5-VL-72B在MMBench-EN-V1.1数据集上达到了88.4%的准确率,超过了之前的最先进模型,如InternVL2.5(78B)和Claude-3.5 Sonnet-0620。同样,在MMStar数据集上,Qwen2.5-VL获得了70.8分,在该基准测试中优于其他领先模型。这些结果强调了该模型在不同语言环境下的稳健性和适应性。
此外,在高分辨率的现实场景中,特别是在MME-RealWorld基准测试中,Qwen2.5-VL以63.2分的成绩展现出最先进的性能,展示了其对现实环境的广泛适应性。另外,在通过MuirBench数据集评估的多图像理解任务中,Qwen2.5-VL取得了领先的70.7分,进一步凸显了其卓越的泛化能力。总体而言,这些结果说明了Qwen2.5-VL在处理各种场景下的通用视觉问答(VQA)任务时,具有很强的通用性和有效性。
值得注意的是,即使是较小规模的Qwen2.5-VL版本,即Qwen2.5-VL-7B和Qwen2.5-VL-3B,也表现出极具竞争力的性能。例如,在MMStar数据集上,Qwen2.5-VL-7B达到了63.9%的得分,而Qwen2.5-VL-3B的得分为55.9%。这表明Qwen2.5-VL的架构不仅强大,而且具有可扩展性,即使参数较少也能保持强大的性能。
3.3.2 文档理解和OCR
我们在各种OCR、图表和文档理解基准测试中评估了我们的模型。表5展示了Qwen2.5-VL模型与顶级模型在以下与OCR相关的基准测试中的性能比较:AI2D(Kembhavi等人,2016)、TextVQA(Singh等人,2019)、DocVQA(Mathew等人,2021b)、InfoVQA(Mathew等人,2021a)、ChartQA(Masry等人,2022)、CharXiv(Wang等人,2024k)、SEED-Bench-2-Plus(Li等人,2024b)、OCRBench(Liu等人,2023e)、OCRBench_v2(Fu等人,2024b)、CC-OCR(Yang等人,2024b)、OmniDocBench(Ouyang等人,2024)、VCR(Zhang等人,2024e)。
对于多场景、多语言以及包含各种内置元素(手写内容、表格、图表、化学公式和数学表达式)的文档的OCR相关解析基准测试,如CC-OCR和OmniDocBench,由于精心整理的训练数据和大语言模型的出色能力,Qwen2.5-VL-72B模型树立了新的最先进水平。
对于场景文本、图表、示意图和文档的OCR相关理解基准测试,Qwen2.5-VL模型凭借良好的理解能力取得了令人瞩目的成绩。值得注意的是,在综合的OCR相关理解基准测试中,如专注于信息图表的OCRBench、InfoVQA,以及涵盖包括图表、地图和网页等文本丰富场景的SEED-Bench-2-Plus,Qwen2.5-VL-72B取得了显著成果,大幅超越了像InternVL2.5-78B这样的强劲竞争对手。
此外,对于包含广泛OCR相关解析和理解任务的OCR相关综合基准测试OCRBench_v2,Qwen2.5-VL模型也取得了顶级性能,在英文和中文赛道上分别比最佳模型Gemini 1.5-Pro高出9.6%和20.6%。
3.3.3 空间理解
理解空间关系对于开发能够像人类一样解释和与世界交互的人工智能模型至关重要。在大型视觉语言模型中,视觉定位允许根据自然语言查询或描述在图像中精确地定位和识别特定的物体、区域或元素。这种能力超越了传统的物体检测,通过在视觉内容和语言上下文之间建立语义关系,促进了更细致和具有上下文感知的视觉推理。我们在指代表达理解基准测试(Kazemzadeh等人,2014;Mao等人,2016)、野外物体检测(Li等人,2022b)、自行整理的点定位基准测试和CountBench(Paiss等人,2023)中评估了Qwen2.5-VL的定位能力。
我们将Qwen2.5-VL的视觉定位能力与其他领先的LVLMs进行了比较,包括Gemini、Grounding-DINO(Liu等人,2023c)、Molmo(Deitke等人,2024)和InternVL2.5。
Qwen2.5-VL在从边界框定位、点定位到计数的不同基准测试中均取得了领先性能。通过为Qwen2.5-VL配备边界框和点定位能力,它能够理解、定位并对图像特定部分的细节进行推理。在开放词汇物体检测方面,Qwen2.5-VL在ODinW-13上取得了43.1 mAP的良好成绩,超越了大多数LVLMs,并迅速缩小了通用模型与专业模型之间的差距。此外,Qwen2.5-VL解锁了基于点的定位能力,使其能够精确地定位特定物体的细节,这在过去很难用边界框表示。Qwen2.5-VL的计数能力也有了很大的进步,使用“检测然后计数”风格的提示,Qwen2.5-VL-72B在CountBench上达到了93.6的领先准确率。
3.3.4 视频理解和定位
我们在各种视频理解和定位任务中评估了我们的模型,使用的基准测试涵盖了从几秒到数小时长度不等的视频。表8展示了Qwen2.5-VL模型与顶级专有模型在以下视频基准测试中的性能比较:Video-MME(Fu等人,2024a)、Video-MMMU(Hu等人,2025)、MMVU(Zhao等人,2025)、MVBench(Li等人,2024d)、MMBench-Video(Fang等人,2024)、LongVideoBench(Wu等人,2024a)、EgoSchema(Mangalam等人,2023)、PerceptionTest(Patraucean等人,2024)、MLVU(Zhou等人,2024)、LVBench(Wang等人,2024g)、TempCompass(Liu等人,2024c)和Charades-STA(Gao等人,2017)。值得注意的是,在通过问答任务评估长视频理解能力的LVBench和MLVU上,Qwen2.5-VL-72B取得了显著成果,大幅超越了像GPT-4o这样的强劲竞争对手。
通过使用提出的同步MRoPE,Qwen2.5-VL增强了其在对时间敏感的视频理解方面的能力,具有改进的时间戳引用、时间定位、密集字幕生成等功能。在Charades-STA数据集上,该数据集评估准确地使用精确时间戳定位事件或活动的能力,Qwen2.5-VL-72B取得了令人印象深刻的50.9的平均交并比(mIoU)分数,从而超越了GPT-4o的性能。对于所有评估的基准测试,我们将每个视频分析的最大帧数限制为768帧,视频词元总数不超过24,576。
3.3.5 智能体
多模态模型中的智能体能力对于使这些模型能够有效地与现实世界的设备进行交互至关重要。我们从多个方面评估了Qwen2.5-VL的智能体能力。UI元素定位通过ScreenSpot(Cheng等人,2024)和ScreenSpot Pro(Li等人,2025a)进行评估。离线评估在Android Control(Li等人,2024f)上进行,而在线评估则在包括AndroidWorld(Rawles等人,2024)、MobileMiniWob++(Rawles等人,2024)和OSWorld(Xie等人,2025)等平台上进行。我们将Qwen2.5-VL-72B的性能与其他著名模型进行了比较,如GPT-4o(OpenAI,2024)、Gemini 2.0(Deepmind,2024)、Claude(Anthropic,2024b)、Aguvis-72B(Xu等人,2024)和Qwen2-VL-72B(Wang等人,2024e)。结果如表9所示。
Qwen2.5-VL-72B在图形用户界面(GUI)定位基准测试中的表现有了显著提升。它在ScreenSpot上达到了87.1%的准确率,与Gemini 2.0(84.0%)和Claude(83.0%)竞争激烈,同时在ScreenSpot Pro上以43.6%的准确率树立了新的标准,远远超过了Aguvis-72B(23.6%)及其基础版本Qwen2-VL-72B(1.6%)。利用这些卓越的定位能力,Qwen2.5-VL-72B在所有离线评估基准测试中都大幅超越了基线模型。在在线评估中,一些基线模型由于定位能力有限而难以完成任务。因此,我们将标记集(Set-of-Mark,SoM)应用于这些模型的输入。结果表明,Qwen2.5-VL-72B在AndroidWorld和MobileMiniWob++上能够超越基线模型,并且在没有辅助标记的在线评估中,在OSWorld上达到了可比的性能。这一观察结果表明,Qwen2.5-VL-72B能够在真实和动态的环境中作为智能体发挥作用。
4 结论
我们提出了Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了显著进展。Qwen2.5-VL通过增强的视觉识别、物体定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生动态分辨率处理和绝对时间编码使其能够稳健地处理各种输入,而窗口注意力机制在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL适用于广泛的应用场景,从边缘人工智能到高性能计算。旗舰模型Qwen2.5-VL-72B与GPT-4o和Claude 3.5 Sonnet等领先模型相当或超越它们,特别是在文档和图表理解方面,同时在纯文本任务中也保持了强大的性能。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B变体优于类似规模的竞争对手,提供了效率和通用性。Qwen2.5-VL为视觉语言模型树立了新的基准,展示了卓越的跨领域泛化和任务执行能力。其创新为更智能、更具交互性的系统铺平了道路,弥合了感知与现实世界应用之间的差距。