基于Swintransformer与对称性损失函数的3D人体姿态估计

发布于:2025-03-05 ⋅ 阅读:(14) ⋅ 点赞:(0)

目录

摘要

1.介绍

2.相关工作

2.1基于transformer的3D人体姿态估计

2.23D人体姿态估计的空间约束

3.研究方法

3.1 ST-swinblock部分

3.1.1空间部分S-swinblock

3.2时间部分swinblock

3.3对称损失函数

4.实验

4.1数据集

4.2评价指标

4.3对比实验

5.结论

参考文献


摘要

        随着科技的发展,高精度3D人体姿态估计作为一项计算机基础视觉任务越来越受到关注。3D姿态估计利用2D信息通过映射得到3D姿态信息,然而,2D姿态信息在重构3D存在多解性问题。如何消除这一多解性以获得高精度的3D姿态成为一个重要挑战。以往的研究大多依赖2D信息在时间与空间上的连续性,这种方法不仅对硬件要求较高,还导致了训练时过长。本文基于swin transformer方法设计了一种用于3D人体姿态估计的ST-swin transformer模块,首先使用滑动窗口对输入的2D信息分割,然后对每个分割窗口添加注意力机制,这有利于捕获关节在时间和空间上的关系局部。最后,利用人体机构的对称性设计了一种新型的人体对称性损失函数,为模型训练提供了更好的反馈机制,减少了训练时间并降低了硬件需求。我们在两个常见的数据集:Human3.6M,MPI-INF-3DHP上对本文方法进行了定量和定性实验。实验结果证明了本文方法的有效性。

1.介绍

        近年来,3D人体姿态估计作为一项重要的计算机视觉任务得到了快速发展,在人机交互、动作捕捉、实时监控[1,2]等方面有着重要作用。伴随着科技的发展,对于高精度姿态估计的需求越来越大,想要获取高质量1的3D姿态数据,通常需要在输入的姿态序列中加入注意力机制,通过对每一帧的姿态信息进行处理,使得神经网络能够更有效地挖掘数据之间的潜在关系。然而这种方法往往导致数据信息的冗余,并增加了对计算机硬件的需求。当前,3D姿态估计主要有两种模式:一种是从原始2D图像提取关节的2D坐标,再根据这些坐标估计相应的3D坐标数据[3,4],另一种方法是通过卷积神经网络等技术,直接从2D图像中获取对应的3D关节点坐标[5]。与直接从2D信息中估计3D姿态相比,前者通常能提供更为准确的姿态估计结果。

        近年来,深度学习在计算机视觉领域获得广泛使用,基于卷积网络、transformer和MLP[6,7,8]等技术的3D姿态估计方法在众多姿态估计方法中脱颖而出。然而,在2D到3D姿态估计过程中,不同维度的特征在映射过程中中存在多解性问题,这意味着同一2D姿态信息可能对应多个3D姿态结果。因此,想要获得高精度3D姿态,必须解决这一多解性问题。使用transformer可以有效地对输入的视频序列加入注意力机制,从而生成约束,减少3D结果的多解性。与传统卷积层方法相比,在相同的输入条件下,使用transformer的方法通常能够获得更好的效果。针对多帧输入的视频序列,transformer通过对每帧不同的关节点添加注意力机制,建模关节点的坐标信息与帧序列的时空关系。目前,大多数方法采用空间和时间注意力机制,以探索姿态在空间维度(关节之间)和时间维度(帧之间)的相关性。然而,以往基于transformer的网络模型通常将人体的所有关节点视为一个整体,并依据序列长度逐步增加关节点与帧之间的注意力机制。尽管这种方法能够建模时空关系,但忽视序列中关节的内在联系,并且随着序列长度的增加显著增加了模型的计算复杂度和对高性能硬件的需求。

        针对以上问题,本文基于Swintransformer的滑动窗口思想,设计了一种时空Swintransformer(ST-Swintransformer)模块用于3D人体姿态估计。首先使用滑动窗口对数据进行分割,将输入数据划分为不同的局部窗口,每个局部窗口对应一个人体肢体,然后对局部窗口的数据应用多头注意力机制,获取人体局部特征,最后将所有局部窗口重新聚合,获取人体的全局特征。由于自注意力的计算是在每个局部窗口进行,这样可以显著降低计算量,而且这种方法有助于捕捉关节在不同帧之间的动态关系,使模型在时间与空间维度上更高效地挖掘人体运动信息,从而在速度和精度上实现了良好的平衡。此外,注意到人体在拓扑结构上的对称性,本文设计了一种新的损失函数组合,特别关注人体两侧肢体在空间中的对称性。通过这种设计,损失函数能够有效地促进模型在高对称部位上的约束,进一步提升了3D人体姿态估计的整体的预测精度。综上所述,本文的贡献可总结为以下三个方面:

1.本文设计了一个ST-Swintransformer模块,通过滑动窗口将人体分割为与肢体相对应的局部子窗口,并在局部窗口上应用多头注意力机制,充分挖掘人体的局部运动特征,有效降低了计算复杂度并提高3D预测精度。

2.基于人体结构在空间中的对称性损失函数构建了一个人体3D姿态估计网络模型,设计一种新的损失函数,通过对空间特征信息的约束来提高实验结果的精确度。

3.基于ST-Swintransformer模块与对称性损失函数构建了一个人体3D姿态估计网络,该模型在Human3.6M和MPI-INF-3DHP等数据集上取得了较高的3D姿态估计精度,达到了当前先进水平。

2.相关工作

        近年来,在3D人体姿态估计通常采用从2D到3两段式的估计策略。该策略首先利用 2D姿态估计网络获取输入图像中的2D关节点坐标,然后将其映射到3D空间。为了提高估计精度,研究者们倾向于利用transformer模型来提取人体运动姿态的时空特征。此外,由于人体结构的特殊性,在3D姿态估计过程中,添加合适的空间约束也可有效降低错误姿态的出现,从而提高估计精度。

2.1基于transformer的3D人体姿态估计

        复杂多变的人体姿势和映射过程中的多解性问题构成了挑战3D人体姿态估计的主要挑战。随着大型数据集和多个基于transformer模型的相继提出,姿态估计的精度得到了显著提升。Poseformer[12]创新性地提出了一种纯粹基于transformer的网络结构,全面整合每帧数据的关节信息以及数据在时间上的连续性,把中心帧的精确姿态信息作为输出结果,在保证良好性能的同时减少了模型的相关参数量。基于对数据间信息的进一步探索,MHFormer[13]在原有框架上进一步提出了将相关3D姿态先验信息整合到transformer中,针对2D数据的映射过程中的多解性问题,该模型提出了一种解决方案:引入多种假设耦合,模拟关节点映射后的不确定性,从而实现更先进的性能。MixSynthFormer[14]提出了一种基于关键帧的姿态预测方法,在表层特征上生成时空注意力矩阵,动态融合通道和标记的特征,在减少模型整体的预测帧数时保证了较高的精准度。STCFormer[15]将输入的2D姿态序列根据关节特征分为两个区域,并利用多头自注意力机制并行封装在空间和时间维度中相连的姿态信息。PoseformerV2[16]在poseformer的基础上提出了一种对2D数据的分类处理,将输入的2D数据分为频域处理和时空卷积计算,对于数据分别进行频率计算和关键帧计算两种方式对姿态进行估计处理。尽管上述方法在捕捉特征时普遍利用了注意力机制,但在时间维度上仅对相邻帧进行时空卷积,忽视了人体在整个序列中的相关性,而在空间维度上使用全局注意力机制大幅增加了计算复杂度和对硬件的需求。因此,本文提出ST1-swin transformer模块,在局部窗口添加多头注意力机制,以减少计算复杂度,并充分挖掘关节点在不同帧之间的动态关系,以提高预测精度。

2.23D人体姿态估计的空间约束

        以往的模型通常以平均关节重构误差为优化目标。近年来,研究人员一直思考如何对人体的空间结构进行恰当的监督和约束以提高估计精度。设计一种具有广泛适用性的空间约束已成为应对这一挑战的热门方向。

        LUO借鉴了LSTM[17]网络提出人体关节并非以自然链式排列,巧妙地结合了全局二维骨骼特征和局部图像特征,并创新地采用树状拓扑结构来表现人体的空间关系。在这一结构中,不同的关节按自上而下的方式逐层聚合。从而更准确地捕捉了关节间的层次性与关联性。GFPOSE[18]从运动学角度出发,提出了一种基于分数扩散模型的先验知识,将人体不同关节信息定义为不同梯度场,利用梯度的方向将人体引导为更加合理的姿态。STCFormer[19]提出了一种将时间与空间结合的网络模块,能够将输入姿态序列中的空间信息(图像关节中的位置)与时间信息结合到一起,解决时序姿态中的空间-时间依赖性问题。KTPFormer[21] 运用两种不同的方式捕捉姿态的空间特征:一种是利用运动学先验知识对关节信息进行建模;另一种在时间维度上对关节的运动轨迹进行建模。以上方法虽然在特征提取中考虑了的模型普遍利用人体姿态本身的拓扑结构,运动耦合等多种空间特征,但这些结构并未直接体现在优化目标上。Geometry Loss Combination[20]提出利用人体空间结构构建损失函数,融合骨骼方向和长度作为损失函数,从多方面对估计结果进行约束。受此启发,本文设计了一种基于人体自身对称性的损失函数组合,该损失函数能够有效约束因肢体长度不同而带来的误差,从而提高实验结果的准确性。

3.研究方法

        本文参考Swintransformer结构提出了一种基于时空维度注意力机制ST-swinblock模块,这个模块通过滑动窗口方法对输入数据进行分割,分别提取空间特征与时间特征,提高在空间与时间上对关节信息的提取能力。

        实验中,我们分别在空间和时间两个维度上进行特征建模,有效地提升了模型对复杂动态数据的理解能力。本文的网络以PoseFormer作为baseline,通过ST-swinblock处理,补充了原有网络结构上的空间模块和时间的局部信息,最后通过对称性损失函数进行优化,从而提高了实验指标和性能。

图1.swin-transformer模型整体流程图 

3.1 ST-swinblock部分

3.1.1空间部分S-swinblock

        在实际使用中,姿态估计网络需要基于数据集进行训练。现有数据集(如human3.6M)虽然将姿态信息划分为17个关节点,序列并未按照人体的拓扑结构进行排列,这加大了空间特征中的提取难度。图卷积神经网络虽然可以解决该问题,但存在计算资源消耗大且缺乏对非相邻点关注的局限性。为此,我们基于人体的拓扑结构重构输入序列。首先将全部关节点划分四肢(各含3节点)、躯干(3节点)和头颈部(2节点),并按根节点至末端节点的顺序重新排列,确保各部分内相邻节点具有空间连接性。将不同根节点的重排序输入作为独立数据组,便于后续处理。给定输入2D序列记为xRF×J×2F为输入帧数,J为关节点个数,通过维度映射映获得高维序列ERF×J×C。其中,E表示对2D序列对应的更高维度空间嵌入,任一单帧信息可表示为EIS∈R1×J×C

        在空间注意力机制设计上,本模型参考poseformer,swintransformer等方法,具体操作如图2所示。我们使用S-swinblock模块中的滑动窗口部分对数据进行分割,我们使用3×C做为滑动窗口大小,沿着J的维度对序列中的单帧信息EIS进行划分,不满足窗口大小部分为其自动填充维度。经过滑动窗口划分后,每个窗口中有3个关节点的3D信息。对于不足窗口大小为位置会为其补足到窗口大小,窗口中的数据包含一条完整的肢体或躯干节点序列(四肢、躯干和头颈)。每个窗口中数据可表示为:Zi(i∈(1,n))n为窗口个数。我们为每个窗口中的数据添加多头自注意力机制用以捕捉点在空间上的关系,因为窗口内的数据属于同一级肢体,故注意力可以对整条肢体上空间特征进行建模。该过程定义为:

 W1w{Z}'_1=W-MSA[(Z_j)]+Z_j

 其中,表示MSA计算为添加注意力权重后窗口内的空间特征,swinblock将每个窗口输出的空间特征进行融合得到完整的空间特征输出。concat()表示级联操作。

图2.空间中的swinblock模块 

3.2时间部分swinblock

        在三维人体姿态估计中,采用全部时间帧进行训练可能忽略细微的动作变化。为此,我们参考了Swin transformer的设计思想对模块进行改进,具体流程如图3所示。研究者往往将Swintransformer使用在二维图像上,使用滑动窗口对图像尺寸(H×W)进行像素级建模。然而,3D姿态估计时间序列输入维度(F×J×C)与swintransformer的原始输入维度存在差异,导致模型很难应用在该领域中。为此,我们将输入的多维空间特征降维至一维序列,并将这个一维序列与时间序列结合为新的输入序列 EiTRF×(J×C),这样序列中的每个时间节点均包含对应的空间特征。我们通过沿着时间维度采用窗口大小为3×(J×C)的滑动窗口上,将序列划分成若干窗口片段,每个窗口片段都包含这段序列内的时间特征信息ST,在每个窗口内执行多头自注意力计算(W_MSA),其中WfT(f∈(0,M))为窗口内部的时间特征。通过各个窗口中的时间特征,最终获得全局时间特征Tout。该过程定义为:

 

 

图3.时间模块部分

我们将空间特征信息进行降维使其能与时间变为swinblock可输入的维度,在时间维度上使用滑动窗口进行。

3.3对称损失函数

在3D姿态估计中,肢体相较于躯干的活动范围相对较大。人体具有明显的空间对称性,尤其是左右肢体之间的对称关系。为了进一步提升模型的精度和稳定性,本实验设计了基于空间对称性的损失函数。该损失函数根据3D姿态的空间对称性做为依据,根据左右对称关系将四肢分为不同部分,如图为上肢对称结构图。

图4.人体姿态骨架部分示例

在空间中人体的小臂部分肢体信息左右对称,分别计算左右3D空间中红色部分的小臂长度,根据对称性可得到左右长度相等。

        实验将不同侧的姿态信息分为四类:1类上肢小臂,2类上肢大臂,3类下肢小腿,4类下肢大腿。实验通过对不同肢体长度的计算来构建。以左右上肢为例,本文首先分别计算左小臂和右小臂的长度,该过程定义为:

代表关节点间预测值的欧式距离长度,J代表不同肢体部分对应的3D关节点,本文通过上述公式得到左右肢体的长度。通过左右预测长度相减得到小臂损失函数,以此类推其他肢体部分,得到其他肢体长度损失函数,该过程定义为:

每个肢体部分的对称损失函数计算后,对这些损失函数进行加权求和,得到最终的对称损失函数,加权系数w1w2w3w4分别对应不同肢体部分的损失权重,通过这种加权处理,本文能够根据不同肢体部分的特征重要性调节对称性约束的相关权重。最终的对称损失函数表达式为:

对称损失函数通常与其他常见的姿态估计损失函数结合使用,如平均关节位置误差(MPJPE)损失。MPJPE损失用于衡量预测结果与真实3D姿态之间的距离。最终的总损失函数可以表示为:

其中是对称损失的权重系数,通常需要通过交叉验证进行调节,以获得最佳的训练效果。

4.实验

4.1数据集

        本文在Human3.6M、MPI-INF-3DHP[24]两个公共数据集上对本文的模型进行了评估,是应用于3维人体姿态估计的公用的大型数据集之一,是目前基于3维人体姿态估计研究中最重要的数据集,该数据集有360万个3D人体姿态信息和相应图像组成,每张图像同时附赠相应四个高精摄像机和高速运动捕捉系统对每个关节3D位置进行精准捕捉,其中4名受试者的数据用于测试。数据被整理成15个训练动作,包括各种不对称行走姿势(如手插口袋走路、背肩包走路)、坐姿、躺姿、各种等待姿势以及其他类型的姿势。演员被赋予详细的任务和示例,以帮助他们在重复之间计划一组稳定的姿势,以创建训练,验证和测试集。然后,在执行这些任务期间参与者有相当大的动作自由,可以超越对任务的严格解释。训练使用S1,S5,S6,S7,S8,并对S9和S11作为测试集进行评估。

        MPI-INF-3DHP数据集主要用于3D人体姿态估计,它提供了3D人体关节点的位置和2D投影图像。它的目标是通过2D图像推测人体的3D姿态,特别是在复杂场景、多个视角和动态环境下。数据集提供了3D人体姿态的真实标注,基于高质量的运动捕捉系统(MoCap)来生成。3D关节的位置以世界坐标系中的三维坐标表示,覆盖了17个关键的骨架关节点。

        MPI-INF-3DHP数据集主要用于3D人体姿态估计,它提供了3D人体关节点的位置和2D投影图像。它的目标是通过2D图像推测人体的3D姿态,特别是在复杂场景、多个视角和动态环境下。数据集提供了3D人体姿态的真实标注,基于高质量的运动捕捉系统(MoCap)来生成有真实值Ground Truth,GT)。

4.2评价指标

         本文使用MPJPE作为综合评价标准。平均关节点的位置误差(mean per joint position error,MPJPE)用于衡量3D姿态估计的实验结果与真实值(之间的平均欧氏距离,公式为:

其中,表示第个关节的预测值,表示第个关节点的真实值之间误差的平均值。同时,实验针对多个数据集的独特评价指标进行相应测试,并与当前的主流模型进行比较。

4.3对比实验

        在Human3.6m数据集中,实验通过对输入帧数的不同分组与其他模型进行比较,我们的网络模型使用200个迭代周期进行训练,每次训练使用0.0001的学习率执行调整,初始学习率设置为5e-4,模型与其他使用transformer网络模型的3D姿态估计相比,在训练速度与精度上有着相应的提升,在MPJPE指标上,本文模型对比其他模型的结果如表1所示:

表1:比较不同模型在Human3.6M数据集中的毫米级(MM)MPJPE评价指标中的结果

Protocol

publishcation

T

Dir1.

Disc.

Eat

Greet

Phone

Photo

Pose

Pur.

Sit

SitD.

Smoke

Wait

WalkD.

Walk

WalkT.

Avg

UGCN[20]

ECCV20

96

40.3

42.5

42.6

41.1

46.7

56.7

41.4

42.3

56.2

60.4

46.3

42.2

46.2

31.7

31.0

44.5

MixSTE[14]

CVPR22

81

39.8

43.0

38.6

40.1

43.4

50.6

40.6

41.4

52.2

58.7

43.8

40.8

43.9

29.4

30.3

43.7

StridedFormer[21]

CVPR22

351

40.3

43.3

40.2

42.3 4

45.6 5

52.3

41.8

40.5

55.9

60.6

44.2

43.0

44.2

30.0

30.2

44.5

GraFormer [22]

CVPR’22

81

45.2

50.8

48.0

50.0

54.9

65.0

48.2

47.1

60.2

70.0

51.6

48.7

54.1

39.7

43.1

51.8

POT[23]

AAAI23

-

47.9

50.0

47.1

51.3

51.2

59.5

48.7

46.9

56.0

61.9

51.1

48.9

54.3

40.0

32.9

50.5

GLA-GCN[24]

ICCV23

243

41.3

44.3

40.8

41.8

45.9

54.1

42.1

41.5

57.8

62.9

45.0

42.8

45.9

29.4

29.9

44.4

poseformer

81

41.5

44.8

39.8

42.5

46.5

51.6

42.1

42.0

53.3

60.7

45.5

43.3

46.1

31.8

32.2

44.3

JFF

[J]24

44.8

50.7

45.2

49.3

51.9

57.2

48.2

46.7

57.3

62.6

49.9

47.4

52.6

38.0

40.8

49.5

SMPLer[27]

[J]24

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

47.0

OURS

243

40.3

43.3

40.2

42.3

44.6

52.3

41.1

40.5

55.2

58.4

44.2

43.2

44.2

30.4

32.9

43.4

        在表1中,实验提出了不同的输入序列作为比较,本文的模型在部分动作具有优势。

        在MPI-INF-3DHP数据集中,我们的模型在MPJPE指标上与其他实验结果相比,使用了相同的输入帧数,取得了更好的效果。我们的模型使用81帧作为输入序列进行实验。使用100个迭代周期,在同等输入条件(T=81)下时,实验使用真实2D值作为输入来训练网络模型,在MPJPE指标上,对比现有网络模型有所提升3%,接近sota的水准。

表2.在MPI-INF-3DHP数据集上与其他模型在MPJPE的比较结果

Method

Publication

PCK

AUC

MPJPE

UGCN

ECCV20

86.9

62.1

68.1

PoseFormer

ICCV21

88.6

56.4

77.1

MHformer

CVPR22

93.8

63.3

58.0

Difffpose[225]

CVPR23

98.0

75.9

29.1

D3DP[16]

ICCV23

98.0

79.1

28.1

PoseFormerV2[16]

CVPR23

97.9

78.8

27.8

CA-PF[26]

[J]24

-

-

39.8

Ours

98.0

78.8

27.0

消融实验:

        为了验证提出模块的有效性,本文使用真实2D值作为输入,对Human.6M(T=243)进行消融实验,在与我们的模型在Humnan3.6M数据集中,本文选择F=234时进行消融实验,结果表明单独使用swinblock时,结果提升1.3%,单独使用对称性损失函数时,结果提升0.6%。二者同时使用时,实验结果提升了3%。在另一数据集MPI-INF-3DHP上,我们的模型相较于原模型在在MPJPE和PCK指标上分别提升了1%和0.1,说明我们的模型在空间与局部时间建模的有效性。同时,在使用相同的输入数据时,如图5所示我们的模型在前25个epoch训练时,我们的模型的结果已经优于baseline的结果。

表3.使用F=243作为输入,本文的消融实验结果

Method

MPJPE

baseline

44.3

+Swintransformer

44.1(-0.2)

+sys-loss

44.0(-0.3)

+F-swin+sys-loss

43.4(-0.9)

图5.实验结果对比图,在25个epoch上我们的模型与baseline相比

        我们采用HRnet网络和YOLOV3对视频进行采集,将得到的2D关节点坐标输入到我们训练好的模型中,模型的预测后得到在关节点在空间中的坐标,下图为我们的模型生成的3D效果。可以看出,即使出现部分2D关节点发生估计错误时,模型依然可以预测准确的3D姿态,说明在缺少精确2D关节点坐标的情况下,模型的输出依然能实现高精度3D姿态估计,这体现了我们模型具有良好的鲁棒性。

图6.模型生成的3D姿态,包括错误2D姿态与对应的3D姿态

5.结论

为了能够更好地从2D信息中获得高精度的三维姿态。本文提出了一个充分利用人体局部信息的ST-swinblock模块,和一个基于拓扑结构对称的损失函数。通过对重构后的数据使用滑动窗口进行分割,将数据划分为更合理的序列,使局部信息在空间和时间中能够更好地融合。它可以有效地增强自注意力机制在时间与空间维度中的局部建模能力。本文在Human3.6M和MPI-INF-3DHP两个数据集上相较于基准模型的精度都有所提高,本文表明,我们采用了和之前方法不同的注意力机制方法,在实验上该方法增加了模型的参数以及相应训练时长,但对精度方面的提升是有效的。未来,将进一步探讨整合不同大小滑动窗口模块对注意力机会的作用,并将提出的细化方法推广到更多预测模型中。

参考文献

  1. Wu Liu, Qian Bao, Yu Sun, and Tao Mei. Recent advances of monocular 2d and 3d human pose estimation: a deep learning perspective. ACM Computing Surveys, 55(4):1–41, 2022.
  2. Yann Desmarais, Denis Mottet, Pierre Slangen, and Philippe Montesinos. A review of 3d human pose estimation algorithms for markerless motion capture. Computer Vision and Image Understanding, 212:103275, 2021.
  3. Georgios Pavlakos, Xiaowei Zhou, and Kostas Daniilidis.Ordinal depth supervision for 3D human pose estimation. In CVPR, 2018.
  4. Gyeongsik Moon and Kyoung Mu Lee. I2l-meshnet: Imageto-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image. In ECCV, 2020.
  5. Tianlang Chen, Chen Fang, Xiaohui Shen, Yiheng Zhu, ZhiliChen, and Jiebo Luo. Anatomy-aware 3d human pose estimation with bone-based pose decomposition. IEEE Transactions on Circuits and Systems for Video Technology, 2021.
  6. 3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention*Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Conference on Neural Information Processing Systems 2024
  7. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
  8. Ze Liu,Yutong Lin,Yue Cao,Han Hu, Yixuan Wei.ICCV2021
  1. Cristian Sminchisescu Catalin Ionescu, Fuxin Li. Latentstructured models for human pose estimation. In ICCV,2011
  2. Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Zhao Wang,Kai Han, Shanshe Wang, Siwei Ma, and Wen Gao.Diffusion-based 3d human pose estimation with multihypothesis aggregation. arXiv preprint arXiv:2303.11579,2023.
  3. Hanbyul Joo, Tomas Simon, Xulong Li, et al. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
  4. C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu. Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. IEEE TPAMI, 2014.
  5. Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang,Chen Chen, and Zhengming Ding. 3d human pose estimation with spatial and temporal transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 11656–11665, October 2021.
  6. Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, and Luc Van Gool. Mhformer: Multi-hypothesis transformer for 3d human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pages 13147–13156, June 2022.
  7. MixSynthFormer: A Transformer Encoder-like Structure with Mixed Synthetic Self-attention for Efficient Human Pose Estimation. In ICCV,2023
  1. Cristian Sminchisescu Catalin Ionescu, Fuxin Li. Latentstructured models for human pose estimation. In ICCV,2011
  2. Yue Luo,Jimmy Ren, Zhouxia Wang, Wenxiu Sun.LSTM Pose Machines 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition
  3. Hanbyul Joo, Tomas Simon, Xulong Li, et al. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
  4. C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu. Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. IEEE TPAMI, 2014.
  5. Dushyant Mehta, Helge Rhodin, Dan Casas, PascalFua, Oleksandr Sotnychenko, Weipeng Xu, and ChristianTheobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 2017 international conference on 3D vision (3DV), pages 506–516. IEEE, 2017.
  6.  Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang,Chen Chen, and Zhengming Ding. 3d human pose estimation with spatial and temporal transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 11656–11665, October 2021.
  7. Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, and Luc Van Gool. Mhformer: Multi-hypothesis transformer for 3d human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pages 13147–13156, June 2022.
  8. MixSynthFormer: A Transformer Encoder-like Structure with Mixed Synthetic Self-attention for Efficient Human Pose Estimation(ICCV), June 2023.
  9. Yu, B. X. B., Zhang, Z., Liu, Y. X., Zhong, S. H., Liu, Y., & Chen, C. W. (2023). GLA-GCN: Global-local Adaptive Graph Convolutional Network for 3D Human Pose Estimation from Monocular Video. Proceedings of the IEEE International Conference on Computer Vision, 10378255.
  10. Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, and Ting Yao. 3d human pose estimation with spatiotemporal criss-cross attention. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4790–4799, 2023. 1, 2, 5, 6, 7, 8
  11. Ming Zhao, Zhengdong Zeng, Temporal Context Network for 3D Human Pose Estimation with Graph Attention.  June 27, 2024.
  12. Xiangyu Xu, Lijuan Liu, Shuicheng Yan SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation April,2024