腾讯多模态定制化视频生成框架:HunyuanCustom

发布于:2025-05-10 ⋅ 阅读:(11) ⋅ 点赞:(0)

HunyuanCustom 速读

一、引言

HunyuanCustom 是由腾讯团队提出的一款多模态定制化视频生成框架。该框架旨在解决现有视频生成方法在身份一致性(identity consistency)和输入模态有限性方面的不足。通过支持图像、音频、视频和文本等多种条件输入,HunyuanCustom 能够生成具有特定主题且符合用户定义条件的视频。

二、整体架构

HunyuanCustom 基于 HunyuanVideo 构建,通过引入多模态理解模块和条件注入机制,实现了对不同输入模态的有效处理。其架构主要包括以下几个核心部分:

  • 文本 - 图像融合模块 :基于 LLaVA 开发,增强模型对多模态信息的理解能力。

  • 图像 ID 增强模块 :利用时间级联(temporal concatenation)强化帧间身份特征,确保视频中主体身份的一致性。

  • AudioNet 模块 :通过空间交叉注意力机制实现音频特征的层次化对齐,使视频生成能够受音频驱动。

  • 视频驱动注入模块 :采用基于 Patchify 的特征对齐网络,将压缩后的条件视频特征整合到生成过程中,支持以视频为条件进行视频生成。

三、关键特性

  1. 多模态视频定制 :支持单主体和多主体场景,可处理单一或多个图像输入,生成定制化视频。此外,还能结合音频输入驱动主体动作,或依据视频输入替换指定物体。

  2. 身份一致性保持 :通过图像 ID 增强模块和时间级联策略,在视频帧序列中维持主体身份特征的稳定,避免生成视频中出现主体身份混淆或变化的问题。

  3. 灵活的条件输入 :兼容文本、图像、音频和视频等多种输入模态组合,为视频生成提供了丰富的控制条件,满足不同应用场景的需求。

四、应用场景

HunyuanCustom 的多模态能力使其能够广泛应用于多个领域,包括但不限于:

  • 虚拟人广告 :输入多个相关图像,生成虚拟人物代言广告视频。

  • 虚拟试穿 :依据图像输入创建虚拟试穿场景视频,助力在线购物体验提升。

  • 唱歌头像生成 :结合图像和音频输入,创造出随着音乐歌唱的虚拟头像视频。

  • 视频编辑 :利用图像和视频输入,实现视频中特定主体的替换,简化视频后期制作流程。

五、性能比较

论文中将 HunyuanCustom 与其他多款视频定制方法进行了对比,包括 VACE、Skyreels、Pika、Vidu、Keling 和 Hailuo。对比指标涵盖人脸 / 主体相似度(Face-Sim)、CLIP-B-T 分数、DINO-Sim 分数、时间一致性(Temp-Consis)以及多样性(DD)。结果显示,HunyuanCustom 在各项指标上均取得了优异成绩,例如在人脸相似度方面达到 0.627,时间一致性达到 0.958,显著优于其他方法,证明了其在身份一致性、真实感和文本 - 视频对齐等方面的优势。

六、运行要求

HunyuanCustom 模型对硬件有一定要求,以生成特定设置的视频为例:

  • 对于分辨率为 720px×1280px、129 帧的视频,GPU 峰值内存需求为 80GB;对于 512px×896px、129 帧的视频,需求为 60GB。

  • 推荐使用具有 80GB 内存的 NVIDIA GPU 以获得较好的生成质量,最低需 24GB 显存的 GPU,但速度会较慢。

  • 测试操作系统为 Linux,同时提供了基于 Conda 的环境配置和 Docker 镜像部署方案,以方便用户在不同环境下安装和运行模型。

七、安装与部署

  1. 克隆仓库 :通过 Git 命令克隆 HunyuanCustom 的 GitHub 仓库到本地。

  2. 创建 Conda 环境 :推荐使用 Python 3.10.9 版本,执行 Conda 命令创建隔离的运行环境。

  3. 安装 PyTorch 及依赖 :根据不同 CUDA 版本(11.8 或 12.4),安装对应的 PyTorch、torchvision 和 torchaudio 等库。

  4. 安装其他依赖 :利用 pip 安装 requirements.txt 文件中列出的其他依赖包,如 tensorrt 相关库和 flash attention v2(用于加速)。

  5. 下载预训练模型 :按照指引下载模型权重文件,并放置在指定目录以便推理时加载。

八、推理方法

  • 多 GPU 并行推理 :在配备 8 个 GPU 的机器上,通过 torchrun 命令启动并行推理任务,指定输入图像、正负提示词、检查点路径、视频尺寸、帧数等参数,生成高质量定制视频。

  • 单 GPU 推理 :对于单 GPU 环境,调整命令参数,利用 CPU 卸载等策略,在有限的资源下运行模型,生成相应分辨率的视频。

  • 低显存运行 :当显存不足时,启用 CPU 卸载选项,牺牲部分速度以实现模型的运行,确保在低配置设备上也能进行视频生成任务。

  • Gradio 服务器运行 :通过执行脚本启动 Gradio 服务器,提供用户友好的界面,方便用户提交输入并获取生成的视频结果,便于模型的演示和共享。

九、核心技术汇总

在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到