自己的原文哦~ https://blog.51cto.com/whaosoft/14165531
#AnimateAnyMesh
文本驱动通用网格动画新范式,实现高效高质量4D内容生成
4D 内容生成,即包含时间维度信息的 3D 内容创建,在 VR/AR、游戏等领域具有广阔的应用前景。然而,由于时空建模的复杂性和高质量 4D 训练数据的稀缺性,创建高质量的动画 3D 模型仍然充满挑战。现有方法往往计算成本高昂,或受限于特定场景和物体类别。
本文将深入解读一篇题为《AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation》的最新研究。该论文提出了 AnimateAnyMesh,这是 首个前向(Feed-Forward)通用网格动画框架,能够为任意 3D 网格实现高效的运动生成。AnimateAnyMesh 这个名字可以理解为“动画任意网格”,强调了其能够对任何 3D 网格进行动画处理的通用性。
论文基本信息
- 论文标题:AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation
- 作者:Zijie Wu, Chaohui Yu, Fan Wang, Xiang Bai
- 机构:华中科技大学,阿里巴巴达摩院,湖畔实验室
- 论文地址:https://arxiv.org/abs/2506.09982
- 项目主页:
https://animateanymesh.github.io/AnimateAnyMesh/
- 代码仓库:
https://github.com/JarrentWu1031/AnimateAnyMesh
- 录用信息:ICCV 2025
研究背景与意义
3D 内容创作的革命性进展已经改变了 VR/AR 和游戏等领域。然而,将这些进展扩展到 4D 内容生成仍然面临挑战,主要原因在于时空建模的复杂性和高质量 4D 资产的稀缺性。
现有 4D 生成方法主要分为两类:
- 基于场景优化的方法:这类方法通常使用预训练的生成模型,但计算成本高昂,且需要耗时的逐场景优化。
- 多视图动态视频生成方法:这类方法通过对 4D 数据进行微调来合成多视图动态视频,但推理效率不高,且需要后处理。
为了克服这些限制,AnimateAnyMesh 提出了一种新颖的前向框架,将动态网格作为 4D 内容的理想表示,并专注于文本驱动的网格动画任务。
主要研究内容与方法
AnimateAnyMesh 框架的核心是 DyMeshVAE 和 Shape-Guided Text-to-Trajectory Model。
AnimateAnyMesh 能够为任意 3D 网格生成高质量的动画。给定一个静态网格和文本提示,该方法能够在几秒钟内生成高质量的动画。
DyMeshVAE:动态网格的压缩与重建
DyMeshVAE 是一个专门为动态网格序列设计的变分自编码器(VAE)。它首先将动态网格分解为初始帧顶点和相对轨迹,然后通过解耦的潜在空间进行编码。DyMeshVAE 引入了轨迹分解和拓扑感知注意力机制,有效处理了不同复杂度的网格,并保持了局部拓扑结构。
- 轨迹分解:将顶点序列分解为初始位置和相对轨迹,有助于解耦形状和运动,并使运动分布更接近零均值正态分布。
- 拓扑感知注意力机制:利用网格的拓扑结构(通过面信息构建邻接矩阵),在自注意力层中作为注意力掩码,确保在重建过程中保持拓扑结构并防止轨迹缠结。
- KL 正则化:在潜在空间中应用 KL 正则化,以调节特征多样性。
Shape-Guided Text-to-Trajectory Model:文本到轨迹生成
该模型基于 DyMeshVAE,学习在初始网格特征和文本提示条件下的相对轨迹的后验分布。它利用 Rectified Flow 训练策略,能够生成平滑、逼真的动画。
DyMesh Dataset:大规模 4D 数据集
为了支持高质量的文本条件生成,研究人员构建了一个大规模的 DyMesh Dataset,包含超过 400 万个动态网格序列,并附带文本注释。该数据集经过严格的收集、过滤、处理和注释流程,为 4D 生成提供了坚实的基础。
实验设计与结果分析
AnimateAnyMesh 在生成高质量、语义准确且时间连贯的网格动画方面表现出色。
该图展示了 AnimateAnyMesh 的动画示例。模型能够根据文本提示为任意输入网格生成高质量且语义合理的网格动画。
定性比较
该图展示了与最先进方法的定性比较。AnimateAnyMesh 在直接顶点轨迹预测方面取得了卓越结果,展示了两个关键优势:通过前向架构实现高效网格动画,以及在生成与提示对齐的逼真运动的同时增强局部几何细节的保留。
定量比较
该表展示了与最先进方法的定量比较。AnimateAnyMesh 在所有 VBench 指标上均表现优异,表明其在形状保留和时间运动连贯性方面均有效。此外,AnimateAnyMesh 显著降低了推理计算开销,使其在实际应用中具有巨大潜力。
消融研究
该图展示了网格邻接信息的消融研究。结果表明,网格连接信息的引入对于区分不同语义区域的顶点至关重要。
该表展示了 DyMeshVAE 技术组件的消融研究。框架中的每个架构组件在确保高质量网格动画方面都发挥着关键作用。
多样性展示
该图展示了 AnimateAnyMesh 生成的多样性。在给定相同的文本提示和初始网格条件下,AnimateAnyMesh 能够通过随机种子变化生成多样化、高质量的网格动画。
论文贡献价值
这项工作提出了 AnimateAnyMesh,一个用于文本驱动通用网格动画的前向 4D 基础模型。
- 首个前向通用网格动画框架:AnimateAnyMesh 是第一个能够为任意 3D 网格实现高效运动生成的前向框架,在几秒钟内即可生成高质量动画。
- DyMeshVAE 架构:引入了新颖的 DyMeshVAE 架构,通过轨迹分解和拓扑感知注意力机制,有效处理动态网格序列,并自然地扩展到不同复杂度的网格。
- 大规模 DyMesh Dataset:构建并整理了包含超过 400 万个动态网格序列的大规模数据集,为 4D 生成提供了坚实的基础。
- 卓越的性能和效率:在文本驱动网格动画方面取得了 最先进的性能,结合了高保真度、通用性和计算效率。
这两天推理代码和模型权重已经开源,大家可以跑一下看看。
#GUAVA
单图创建可驱动的上半身3D化身!实时、高效,还能捕捉细腻的面部表情和手势
只用一张照片,就能秒变“虚拟分身”?最新研究 GUAVA 做到了!它不仅能实时驱动上半身 3D 化身,还能捕捉细腻的面部表情和手势,效果和效率都拉满。
01 介绍
创建逼真且富有表现力的上半身人体化身,例如包含细致的面部表情和丰富的手势,在电影、游戏和虚拟会议等领域具有重要价值 。同时,易于创建和支持实时渲染也是关键要求 。然而,仅凭单张图像实现这些目标仍然是一个的重大挑战。
3D Gaussian splatting (3DGS) 的兴起催生了许多3D化身重建方法,它们利用 3DGS 实现实时、高质量的化身重建 。然而,这些方法仍然存在一些局限性 :
- 逐ID练:每个个体都需要单独训练 。
- 训练复杂性:该过程耗时,需要标定的多视图或单目视频 。
- 表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情 。
扩散模型在视频生成方面取得了显著成果 。一些工作通过添加额外条件,如关键点或 SMPLX渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。尽管这些方法实现了良好的视觉效果,但它们仍然面临一些局限性 :
- ID一致性:难以保持一致的 ID,尤其是在姿势发生大变化时 。
- 效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用 。
- 视点控制:2D 方法无法轻松调整相机姿势,从而限制了视点控制 。
我们提出了 GUAVA,第一个从单张图像创建可驱动上半身 3D高斯化身的框架。与需要多视图视频或单人训练的3D方法不同,GUAVA 可以在秒级时间内完成推理重建,并支持实时动画和渲染 。与基于扩散模型的2D方法相比,GUAVA使用 3D高斯来确保更好的ID一致性和实时渲染 。并引入一种富有表现力的人体模型EHM,解决了现有模型在捕捉细致面部表情方面的局限性 。还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量 。通过充分的实验也展示了其在渲染质量和效率方面优于现有2D和3D方法 。目前,相关代码已开源,欢迎关注与使用。
- 论文标题:GUAVA: Generalizable Upper Body 3D Gaussian Avatar
- 论文地址: https://arxiv.org/pdf/2505.03351
- 项目主页:https://eastbeanzhang.github.io/GUAVA/
- 开源代码:https://github.com/Pixel-Talk/GUAVA
- 视频Demo: https://www.bilibili.com/video/BV1k45AzaEpW/
,时长01:45
02 方法
EHM 模型与精确跟踪: 为了解决SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model),EHM 结合了 SMPLX 和 FLAME 模型,能够实现更准确的面部表情表示。同时我们设计了对应的通过两阶段追踪方法,实现从单张图像到姿态的准确估计。首先利用预训练模型进行粗略估计,然后使用 2D 关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数。
快速重建与双分支模型: GUAVA基于追踪后的图像通过单次前向推理方式完成化身的重建。它包含两个分支:一个分支根据 EHM 顶点和投影特征预测粗略的“模板高斯”,另一个分支则通过“逆纹理映射”技术,将屏幕特征映射到 UV 空间,生成捕捉精细细节的“UV 高斯”。这两种高斯组合成完整的 Ubody 高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。
实时动画与渲染:重建完成后,Ubody 高斯可以根据新的姿势参数进行变形和动画 。最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量 。
03 实验
实验设置
我们从 YouTube、OSX和 HowToSign收集视频数据集,主要关注人体上半身视频。其中训练集包含超过 62 万帧,测试集包含 58 个 ID 。为确保评估的全面性,实验采用了多种指标:自重演(self-reenactment)场景下,通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量 ;跨重演(cross-reenactment)场景下,使用 ArcFace 计算身份保留分数(IPS)以衡量 ID 一致性 。评估中与 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法进行比较。
定量结果
Self-reenactment:与 2D 方法相比,GUAVA 在所有指标(PSNR, L1, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约 50 FPS,而其他方法仅为每秒几帧 。与 3D 方法相比,GUAVA 的重建时间仅为 0.1 秒左右,而其他方法需要数分钟到数小时 。
Cross-reenactment:GUAVA 在身份保留分数(IPS)上显著优于其他所有 2D 方法,证明了其在不同姿势下保持 ID 一致性的能力 。
定性结果
尽管 2D 方法能生成高质量图像,但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足 。例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 则无法保持 ID 一致性 。3D 方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影 。GUAVA 则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情 。
消融实验
为了验证方法中各个部分的有效性,在论文中进行了充分的消融实验。
04 论文总结
该论文介绍了 GUAVA,一个用于从单张图像重建可动画、具有细腻表现力上半身 3D化身的快速框架,研究通过引入 EHM 模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力,论文通过UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯。实验结果表明,GUAVA 在渲染质量和效率方面均优于现有方法,它实现了约 0.1 秒的重建时间,并支持实时动画和渲染。