作者团队:北京大学等
领头人:刘宏教授等。
时间:2024.9.21
IEEE 2023.1.1
Abstract
现有MLP模型的局限性:现代多层感知机(MLP)模型在无需自注意力机制的情况下,已经在学习视觉表示方面展示了竞争力。然而,现有的MLP模型存在两个主要问题:一是不擅长捕捉局部细节;二是缺乏对人体骨骼结构的先验知识,这限制了它们在骨骼表示学习中的建模能力。
研究目标:为了解决上述问题,提出了一种简单而有效的图强化的MLP类架构——GraphMLP,用于3D人体姿态估计。
主要贡献
提出新的架构:GraphMLP是第一个用于3D人体姿态估计的MLP类架构,结合了现代MLP和GCN的优势,包括全局性、局部性和连通性。
创新的模块设计:提出了SG-MLP和CG-MLP块,将人体的图结构编码到MLP中,使模型能够捕捉局部和全局交互。
高效的视频表示方法:提出了一种简单高效的视频表示方法,能够灵活地将GraphMLP扩展到视频领域,并以极低的计算成本处理任意长度的序列。
实验结果:广泛的实验验证了GraphMLP的有效性和泛化能力,并在两个数据集上取得了新的最佳性能。
Introduction
现代MLP模型的局限性:
最近,现代MLP模型(特别是MLP-Mixer)在视觉领域取得了成功,通过全局感受野提供新的架构设计。
然而,将MLP模型从视觉领域适应到骨骼数据时,面临两个关键挑战:
图结构数据的建模问题:MLP模型在建模图结构化数据方面效果较差,因为它们的节点连接较为简单。骨骼输入是稀疏且图结构化的数据,与由密集像素表示的RGB图像不同。如果不引入人体骨骼配置的先验知识,模型容易学习到虚假的依赖关系,导致生成的姿势不符合物理规律。
局部交互的捕捉问题:尽管MLP模型可以通过空间MLP捕捉远距离关节之间的全局交互,但它们可能不擅长捕捉局部交互,因为缺乏对相邻关节关系建模的精心设计。然而,局部信息对于3D人体姿态估计也是至关重要的,因为它可以帮助模型理解细微的动作细节。
基于图卷积网络(GCN)的方法的局限性:
GCN能够有效聚合邻近节点以提取局部特征,但通常受限于有限的感受野,难以获得更强的表示能力。
这些方法通常依赖于利用一阶邻居学习人体关节之间的关系,难以捕捉到全局信息(例如手和脚之间的关系)。
通过堆叠多层GCN可以扩大模型的感受野,但会导致过平滑问题,使深层中的有价值信息丢失。
GraphMLP模型提出的原因和动机
结合MLP和GCN的优势:GraphMLP模型旨在吸收现代MLP和GCN的优点,有效学习骨骼表示,同时解决现有方法的局限性。
全局和局部交互的平衡:GraphMLP通过将人体的图结构融入到MLP模型中,既能够捕捉全局信息,又能够关注局部细节,从而更好地理解人体姿态的整体结构和细微动作。
创新性和贡献:GraphMLP是第一个用于单帧和视频序列3D人体姿态估计的MLP类架构,它在Human3.6M和MPI-INF-3DHP数据集上取得了最先进的性能,证明了其有效性。
Related Work
1. 3D人体姿态估计的研究现状
(1)直接从RGB图像回归3D关节的方法
这类方法直接从RGB图像中回归3D人体关节的位置。
这种方法的优点是端到端的解决方案,但通常需要大量的计算资源,并且在复杂场景下性能可能受限。
(2)2D到3D姿态提升方法
这是目前主流的方法,分为两步:
使用现成的2D姿态检测器从图像中提取2D关节坐标。
设计一个2D到3D的提升网络,将2D关节坐标提升到3D空间。
这种方法的优点是效率高、效果好,并且已经成为主流方法。
具体方法包括:
FCN :使用全连接网络(FCN)从2D关键点直接回归3D姿态。
TCN :将FCN扩展到视频领域,利用时间卷积网络(TCN)从2D姿态序列中提取时间信息。
带注意力机制的TCN :在TCN中引入注意力机制,增强帧间长距离时间关系的建模能力。
SRNet :提出了一种拆分-重组网络,将人体关节拆分为多个局部组,然后与低维全局上下文重新组合。
PoSynDA :通过多假设姿态合成进行领域适应,用于3D人体姿态估计。
(3)基于图卷积网络(GCN)的方法
由于人体骨骼拓扑结构可以形成图结构,近年来的研究集中在使用GCN来解决2D到3D姿态提升问题。
具体方法包括:
LCN :引入局部连接网络以提高GCN的表示能力。
SemGCN :允许模型学习人体关节之间的语义关系。
MGCN :在SemGCN的基础上引入权重调制和亲和力调制。
2. Transformer在视觉领域的应用
Transformer架构在计算机视觉任务中取得了显著成果,例如图像分类、目标检测 和姿态估计。
具体方法包括:
ViT :将图像划分为16×16的块,使用纯Transformer编码器提取视觉特征。
PoseFormer :利用纯Transformer架构建模视频中的空间和时间关系。
Strided Transformer :将步幅卷积引入Transformer,聚合局部上下文信息,用于基于视频的3D人体姿态估计。
HDFormer :提出高阶有向Transformer,利用基于Transformer的有向骨架图的高阶信息。
RTPCA:引入时间金字塔压缩和放大设计,增强3D人体姿态估计中的时间建模。
Mesh Graphormer :将GCN和注意力层以串联方式结合,捕捉局部和全局依赖关系,用于人体网格重建。
3. 现代MLP模型在视觉领域的应用
现代MLP模型通过用空间线性层替换Transformer中的复杂自注意力,减少归纳偏置和计算成本 。
具体方法包括:
MLP-Mixer :提出了一种仅包含纯MLP层的MLP类模型架构。
ResMLP :提出了一种带有仿射变换的纯MLP架构。
CycleMLP:提出了一种循环全连接层,聚合空间上下文信息,处理可变输入图像尺度。
4.GraphMLP与现有方法的区别和创新点
结合MLP和GCN:
与现有方法不同,GraphMLP将现代MLP和GCN相结合,构建了一个全局-局部-图统一的架构,同时捕捉局部和全局信息。
通过引入人体骨骼拓扑结构的归纳偏置,GraphMLP能够提供更符合物理规律和更准确的估计。
视频领域的高效表示:
与现有基于视频的方法(将每一帧视为一个token进行时间建模)不同,GraphMLP通过在特征通道中混合时间信息,并将每个关节视为一个token,实现了简单高效的视频表示。
这种表示方法在处理任意长度序列时具有极低的计算成本,使得网络更经济且易于训练。
首次探索MLP类架构在3D人体姿态估计中的应用:
GraphMLP是第一个将MLP类架构应用于3D人体姿态估计的研究,尤其是在非欧几里得骨骼数据中。
它不仅在单帧图像上表现出色,还扩展到了视频序列,并设计了一种高效的视频表示方法,这在以往的研究中较少涉及。
Method
GraphMLP模型的设计与实现
模型概述:
GraphMLP是一种新的图强化的MLP类架构,专门用于3D人体姿态估计。
它通过将现代MLP和GCN相结合,构建了一个全局-局部-图统一的架构,以更好地学习骨骼表示。
核心组件:
GraphMLP主要包含多个新颖的GraphMLP层,每层由两个图-MLP块组成:
空间图MLP(SG-MLP):通过在空间MLP中注入GCN来构建,负责捕捉全局空间信息。
通道图MLP(CG-MLP):通过在通道MLP中注入GCN来构建,负责处理每个关节的特征。
通过这种设计,GraphMLP能够利用图的连通性编码人体配置的先验知识,并捕捉关节之间的局部和全局空间交互。
视频领域的扩展:
现有的基于视频的方法通常通过将每一帧视为一个token或将时间轴视为一个独立维度来建模时间信息,但这些方法存在冗余计算的问题,且对长视频(如243帧)的处理成本过高。
GraphMLP提出了一种简单高效的视频姿态序列表示方法,通过在特征通道中混合时间信息,并将每个关节视为一个token,从而以极低的计算成本捕捉复杂的时空动态。
这种表示方法统一且灵活,能够处理任意长度的序列(包括单帧和变长视频)。
Experiments
实验验证
数据集:
GraphMLP在两个具有挑战性的数据集上进行了评估:Human3.6M和MPI-INF-3DHP。性能表现:
在Human3.6M数据集上,GraphMLP的性能超过了MGCN [61],在平均每个关节位置误差(MPJPE)上降低了1.4 mm。
在MPI-INF-3DHP数据集上,与MLP模型 [45] 和GCN模型 [3] 相比,GraphMLP分别在MPJPE上降低了6.6 mm和6.9 mm。
与视频姿态Transformer(如PoseFormer [59])相比,即使计算成本减少了5倍,GraphMLP仍然取得了更好的性能。
Conclusion
难题一:现有模型在建模骨骼数据时无法有效捕捉局部与全局信息
问题描述:传统方法如基于全连接网络(FCN)的模型容易过拟合且性能较差;基于图卷积网络(GCN)的方法虽然能提取局部特征,但受限于有限的感受野,难以捕捉全局信息,且堆叠多层GCN会导致过平滑问题;而现代多层感知机(MLP)模型虽然具有全局感受野,但不擅长处理图结构化的骨骼数据,容易学习到虚假的依赖关系,且对局部交互的捕捉能力不足。
解决方法:提出了GraphMLP模型,它是一种图强化的MLP类架构。通过构建全局-局部-图统一的架构,将现代MLP和GCN相结合,设计了空间图MLP(SG-MLP)和通道图MLP(CG-MLP)块,分别注入到空间MLP和通道MLP中。这样既利用了图的连通性编码人体配置的先验知识,又能够同时捕捉关节之间的局部和全局空间交互,从而更好地学习骨骼表示,解决了现有模型在局部与全局信息建模上的不足。
难题二:基于视频的3D人体姿态估计方法计算成本高且难以处理长视频序列
问题描述:现有的视频方法通常将每一帧视为一个token或把时间轴作为独立维度来建模时间信息,但这些方法存在冗余计算的问题,且对长视频(如243帧)的处理成本过高,限制了其在实际场景中的应用。
解决方法:提出了一种简单高效的视频姿态序列表示方法,将时间信息混合到特征通道中,并把每个关节视为一个token。这种表示方式能够以极低的计算成本捕捉复杂的时空动态,且统一灵活,能够处理任意长度的序列(包括单帧和变长视频),从而有效地解决了现有视频方法在处理长视频时计算成本高和效率低下的问题。
本文整个架构的设计目的是将2D关节位置信息通过图结构化的MLP层提升到3D空间,从而实现3D人体姿态估计。通过结合空间和通道图MLP,GraphMLP能够有效地捕捉关节之间的局部和全局空间交互,提高姿态估计的准确性。此外,该架构还支持从单帧图像扩展到视频序列的处理,通过简单高效的方式捕捉复杂的时空动态。