目录
一、Uniworld-V1
1、概述
动机:当前统一模型虽然可以实现图文理解和文本生成任务,但是难以实现图像感知(检测/分割)与图像操控(编辑/迁移)等复合需求。另外传统方法依赖VAE提取视觉特征,但同样缺少高频信息,限制了语义级任务的表现。
另外通过实验发现GPT-4o-Image可能采用语义编码器,而非VAE,从而导致在编辑实验中局部修改后文本位置发生偏移,表明缺少底层信息。另外GPT-4o和Qwen2.5-VL,在去噪实验中,低噪图像上可以正确去噪,但是高噪图像上识别出现错误。
2、架构
UniWorld一改以往的理解统一模型均采用一个MLLM架构,通过特征提取,并完全输入到这个大MLLM中,UniWorld不去训练理解部分的网络,并且用理解的输出去引导图像的生成。
Visual Encoder
采用SigLIP编码器(SigLIP2-so400m/14,固定输出512x512)替换以往的VAE编码器。
VLM
使用预训练的Qwen2.5-VL-7B,并且不再训练这一部分,只用作视觉理解。
DiT
使用FLUX作为DiT的主干,把VLM的视觉tokens输出经过一个MLP得到High-level semantics特征,Visual Encoder的输出经过MLP得到Low-level control的特征,将高维语义特征,低维像素特征并且拼接在一起,作为FLUX的文本输入,因为FLUX是一个文生图的模型,通过FLUX可以生成特定任务的图像(比如分割)。
3、训练过程
三阶段策略
Stage1:对齐VLM输出与DiT文本分支特征空间,不引入SigLIP分支。冻结VLM框架和DiT,只训练VLM到DiT的MLP部分。
Stage2:引入预训练SigLIP特征,加载Stage1的权重,并解冻DiT图像分支参数,继续冻结VLM部分。只训练两个MLP,和DiT部分。另外引入自适应编辑区域加权策略,解决小编辑区域学习问题,就是区域内存在缺失的问题。
自适应编辑区域加权策略,主要是针对编辑区域占比小的情况,采用均匀损失,导致细节丢失,损失加权函数选用对数函数,。对于掩码生成部分采用像素差分、膨胀、连通域过滤、最大池化下采样四步来生成掩码。
数据集(2.7M):
(1)图像感知任务:COCO2017+Graph200K 处理各种图像风格(Canny HED 深度图)
(2)图像操控任务:ImgEdit高质量样本+SEED-X 处理自适应掩码生成
(3)文本生成图像:BLIP3o+Open-Sora Plan 美学分大于6.0过滤,并用Qwen2-VL标注
4、实验
不同模型之间生成、理解、编辑。
后续的对比实验不在思考,大多数情况最多持平于BAGEL,但是主要原因是数据集的特定性的优势。
提到了一些实验中的观察
DINOV2、RADIO v2.5替换SigLIP,但是不容易收敛
直接使用VLM视觉特征的视觉tokens作为引导,生成图和参考图之间一致性较差。他这里是输出了所有tokens作为引导。
二、X-Omni
1、概述
传统多模态模型的三大瓶颈问题:生成图像模糊、失真,无法精确实现细节渲染,自回归逐步预测导致的累积误差。
另外统一模型转向利用扩散模型解码,但是扩散模型与自回归模型异构,跨模态知识迁移受阻,所以考虑使用强化学习兼容优化。
2、方法
架构
整体架构不再采用理解和生成解耦架构,而是只加一个视觉特征编码器。X-Omni由SigLIP-VQ tokenizer,自回归模型,扩散解码器三部分组成。
自回归模型选择Qwen2-7B,并通过残差块实现视觉分词器与自回归模型的连接。另外在输入部分插入4个随机初始化的Transformer块,用于仅处理图像tokens,并且添加<SOM> height width <Image> 标记,用于支持任意分辨率输入,位置编码使用1D RoPE。
视觉特征编码器采用SigLIP-VQ,也就是一个冻结的SigLIP2-g ViT编码器连接一个向量量化器。
扩散解码器将自回归的Image tokens输出采用线性层映射到FLUX.1dev特征空间。
强化学习应用
同样应用于处理自回归和扩散解码之间的对齐工作,对于多模态奖励机制可以参见MindOmni的做法,可以理解为只是替换了多模态奖励的r值,其他不变,但是MindOmni只做了二值奖励(用于检查CoT逻辑规范),一致性奖励(检查图文对齐)。X-Omni中处理了四个奖励:美学质量奖励,综合质量奖励,图文对齐奖励,文字渲染奖励。
美学质量奖励:利用HPSV2模型计算奖励。224x224分辨率下预测人类偏好,用于评估多元审美标准。
综合质量奖励:1024x1024分辨率优化,评估锐利度,噪声水平,动态范围
图文对齐奖励:与Uniworld一致,余弦相似度计算
文字渲染奖励:艺术字体识别GOT-OCR2.0,印刷体识别PaddleOCR。
另外实现任务自适应机制,当提示中含有文字关键词,强化,高细节的风景则强化
训练细节
类似Uniworld-V1的三阶段学习。
Stage1:预训练,训练视觉分词器和嵌入的新图像token,冻结其他层。数据包括图像生成数据(COYO-700M,DataComp-1B,LAION-2B,并用Qwen2.5-VL-72B进行标注,美学分过滤,并进行图像缩放,短边最大384px,长边最大1152px,共600B tokens),图像理解数据(LLaVA-OneVision,BLIP3-KALE、Infinity-MM,同样的分辨率处理,共100B tokens)
Stage2:监督微调,解冻所有参数,高质量图文对(BLIP3o-60K中的30K子集),合成文本生成(GPT-4合成的30K),预训练数据中选择美学质量HPSv2>=7.0的1.44B tokens,另外混合图像理解任务LLaVA-NeXT,Cauldron VQA数据,SFT阶段数据共1.5B tokens
Stage3:强化学习,共180W提示,分为三类,真实用户需求(比如去广告,共80K,来自Midjourney),长文本(50K,按文本长度分桶采样),自然场景强化(50K,景观和人像提示,平衡美学与复杂度)
在图像生成DPG eval中打败了GPT-4o,超越一众生成模型。测试复杂指令下图像生成的推理能力
GenEval,测试生成质量上,还是没有打败GPT-4o
理解任务中,由于奖励机制引入了OCR奖励,所以在OCRBench分数上略高。