一、文献综述
(一)国内外研究现状
视频帧内插技术是计算机视觉和视频处理的基础技术之一。这是一种特殊的基于图像渲染的情况,中间帧是从时间相邻的帧中插值出来的。视频插帧可以分为非运动补偿的插帧技术和基于运动补偿的插帧技术。非运动补偿的插帧技术,例如复制原有帧的最近邻插值,或者使用原有帧加权相加的线性插值,优势是计算成本非常小,可以在许多高性能场景中被使用。然而,由于大多数视频原本的采样率并不高,这类插帧方法效果较差,可能会出现明显的模糊或重影效果。许多基于卷积神经网络的视频插帧方法中并没有显式的运动估计步奏,但卷积神经网络在光流估计中的运用就证明了,卷积神经网络本身就可以拟合运动估计的过程[1]。
现有的帧插值方法大多采用立体匹配或光流算法来估计两个连续输入帧之间的密集运动,然后根据估计的密集对应关系来插值一个或多个中间帧。与这些方法不同的是,Mahajan等人开发了一种移动梯度方法[2],估计输入图像中的路径,将适当的梯度复制到待插值帧中的每个像素,然后通过泊松重建合成插值帧。上述方法的性能取决于稠密对应估计的质量,在图像合成后期需要特别注意处理遮挡等问题。
作为显式运动估计方法 的替代方法,基于阶段的方法最近在视频处理中显示出了前景。这些方法在输入帧之间的相位差中编码运动,并为运动放大和视图扩展等应用程序操纵相位信息。Meyer[3]等人使用有界位移校正策略,通过在有向多尺度金字塔层上传播相位信息,进一步扩展了这些方法以适应大型运动。这种基于阶段的插值方法可以产生令人印象深刻的视频插值结果,并能优雅地处理具有挑战性的场景;但是,在帧间变化较大的视频中,要更好地保留高频细节,还需要进一步改进。
基于运动补偿的插帧技术中,最典型的就是基于光流的插帧方法,光流的视频插帧方法通常分成两个步奏,第一步是运动估计,第二步是根据运动场合成中间帧[4]。?0、?1、?2时刻原本有三帧如下,需要在??时刻插入一帧新的图像。可以通过光流估计?0时刻的红色标记的位置指向?1时刻的红色标记的位置。假设短时间内物体的运动时匀速的,那么可以通过空间位置的线性插值,获取红色标记。
基于深度学习的稠密光流方法相比传统的光流方法的一个巨大优势是在准确性和实时性两方面都表现出色。部分传统的光流方法可以达到非常高的精度,但代价是实时性完全不能满足视频插帧的实际需求。 FlowNet[5]最早证明了卷积神经网络可以被用于光流估计。尽管 FlowNet 和传统的稠密光流方法的在准确性上存在一定差距,但是在实时性方面已经有了相当出色的表现。FlowNet 的文献中实际上提出了两个模型,即 FlowNet-S 和FlowNet-C。FlowNet-S 结构比较简单,完全由卷积层构成,接近于通用模型 U-Net。FlowNet-C 首先从源图像和目标图像中提取特征,再利用一个相关性模块计算不同位移情况下,两张图像特征的相关性,并将相关性矩阵输入卷积中。这个相关性模块与立体匹配问题中的匹配代价卷结构高度相似。尽管 FlowNet-C 的性能相比 FlowNet-S 的性能优势并不大,但是这一结构被后来的高性能光流网络中广泛使用。
FlowNet2.0的出现使基于深度学习的光流网络的准确性获得了大幅度的提升,达到了可以与许多性能优异的传统光流方法相比较的程度。 FlowNet2.0 引入了在传承光流方法中常见的一种结构后向变形[6](backward-warping)。后向变形是依据光流场对图像进行扭曲变形的的操作,使用后向变形使卷积网络可以在初始光流的基础上细化。FlowNet2.0 通过后向变形,堆叠了多个类 FlowNet 的子网络,使每个子网络在其他子网络输出的初始光流的基础上进行细化。
FlowNet2.0 之后,出现了一批从粗到细多尺度的光流网络,典型的代表有 SPY-Net[7]、LiteFlowNet[8]、PWC-Net[9]。SPY-Net 首先提出了使用图像金字塔从粗到细迭代光流,而 LiteFlowNet 和 PWC-Net 提出使用利用特征金字塔估计光流。由于在低分辨率的尺度上,卷积神经网络有着更大的感受野,能够捕捉大幅度的运动,继而在高分辨率的尺度上,对粗糙的光流进行细化。多尺度的光流网络不仅能够更好地捕捉大幅度的运动,由于在低分辨率的尺度上计算的成本较小,还有效减少了运算量。在 SPY-Net、LiteFlowNet、PWC-Net被提出之后,后续被提出的高性能光流网络普遍采用了多尺度、从粗到细迭代这一原则。是 PWC-Net 的网络结构,首先利用卷积层对原图像和目标图像分别提取特征金字塔,利用初始光流对目标图像特征进行后向变形并计算相关性矩阵,卷积层利用源图像特征和相关性矩阵来细化初始光流。这种后向变形-匹配代价卷结构在近年来被广泛使用。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。