FastDVDnet:不需要显示学习运动的实时视频降噪

发布于:2025-03-16 ⋅ 阅读:(19) ⋅ 点赞:(0)

视频降噪应用的需求

  1. 虽然现在的图像传感器成像质量已经大幅提升,但在极暗光,小靶面sensor等极端条件下,依然会生成大量噪声;
  2. 随着短视频平台和自媒体的兴起,手机和运动相机拍摄的视频数据骤增,催生了大量的视频处理需求;
  3. 安防场景也需要强大的视频处理技术。

视频降噪的难点

  1. 时间信息一致性不容易处理,比如闪烁,跳动等问题;
  2. 运动信息难计算,容易出现运动缺失,运动拖尾等问题;
  3. 实时性要求,模型算力不能太大。

FastDVDnet

动机(想解决什么问题)

FastDVDnet主要解决的问题是:
1. 降噪结果的时序一致性
2. 消除闪动
3. 模型的运行速度

架构的设计思路

作者分析以前的工作之所以处理不好时序一致性和闪动问题,主要是因为没有有效利用视频的时序信息。想要处理好这两个问题,主要有两种办法:
1. 模型需要做运动估计;
沿着运动轨迹,视频具有很强的时间冗余和信息相关性。基于这一事实,相比图像,更有利于视频降噪。然而,这种在时间维度上添加的信息在提供丰富信息的同时也增加了额外的复杂性,对模型来说可能难以解决。在这种情况下,运动估计或运动补偿已被用于许多视频去噪算法,以帮助提高去噪性能和时间一致性。
2. 扩展模型的计算域从空间到时序(单帧输入–>相邻多帧输入)
从空间扩展到时序,在denoise当前帧的某个像素点时,模型不仅能看到当前帧周围像素的信息,还可以从邻近帧中获取信息,这些信息可以在很大程度上帮助模型恢复被噪声掩盖的像素值。

FastDVDnet在设计上融合了这两种方法,但并没有做显式的运动估计,是让模型在相邻帧之间隐式的学习物体运动估计,显式和隐式的估计运动各有优劣:
1.在噪声很强或遮挡、重叠、光影变换的情况下,显式地运动估计也不能很好地work;
2. 显式地运动估计不能准确地区分动区和次动区的概念。
3. 隐式的估计运动有点大力出奇迹的意思,什么都让网络自己学习,需要比较细致的调整训练方式。

FastDVDnet只是为了提升性能,没有单独设计motion estimation network让模型去显式地学习运动。**

整体架构介绍

整体架构如图所示。
在这里插入图片描述

输入和输出形式

整个架构一次输入相邻的5帧noisy frame(当前帧,及其前后各两帧),输出1帧clean frame。注意:这种方式在处理第一帧和最后一帧的时候需要做padding,否则会丢失开头两帧和最后两帧

值得一提的是,网络的输入不仅包含noisy frame本身,还包括noise map,主要有两点好处:
1. 显式地告诉模型当前输入的噪声强度,相比于让模型自己估计,显式的肯定效果更好;
2. 这种方式可以使用同一个模型cover住多种噪声强度地输入。

noise map的尺寸和输入保持一致,并且每个pixel都等于同一个值,即当前高斯噪声的方差。对了,FastDVDnet只在加性高斯噪声上做了实验,没有poisson噪声。但理论上,这种方法是可以迁移到poisson噪声上的。

Two Step Denoising

整个架构设计成两步走的战略,并且是级联形式(主要是为了更好的利用时序上的信息,提升flicker removal和时序一致性的效果)。

第一阶段结合邻近帧的时域信息和当前帧的空域信息进行降噪,第二阶段相当于refine操作,对第一阶段的降噪和融合结果做进一步的整合,使动区和静区都能达到更好的denoise效果。

具体地,第一阶段包含3个Multi-Scale的U-Net,共享权重(设计只能说合理,其实本来一个网络就可以搞定的,因为做的事情是一样的,3个太浪费内存和带宽了,而且训练1个模型的难度肯定低于训练3个模型的难度)。模型每次输入相邻的3帧,共推理3次,得到3张初步denoise的图像。

第二阶段输入是第一阶段输出的3张denoise图像,网络同样是Multi-Scale U-Net,结构和阶段一是一样的。相当于对第一阶段的denoise做一次refine。网络结构如下:
在这里插入图片描述

网络结构设计

可以看到,网络的设计主要有以下特点:

1. 下采样通过stride=2的卷积实现,在下采样的过程中可以尽可能多地保留像素信息;
2. 上采样通过pixelshuffle实现,缓解网格效应artifacts;
3. encodeer和decoder的级联采用相加的形式,提升推理性能;
4. 输出和输入还保留了一层大的残差连接,有助于训练收敛。

端到端训练

FastDVDnet整个结构采用端到端的训练方式,作者通过对比试验的方式展示了端到端训练比两阶段分开训练的效果要好。但从直观上理解,端到端更能将denoising的两阶段耦合起来,一气呵成,而且训练方式也更简单。

实验结果

论文中展示的denoise结果显示,FastDVDnet确实在处理Flicker和上比较出色,但真实的降噪效果有待测试。在这里插入图片描述
在这里插入图片描述