视频车辆消除所属的大领域为图像修复领域,根据我所查阅的论文来看,图像修复的方法大致分为三大类:①基于图像冗余信息(针对每帧图像)、②基于学习的方法(针对每帧图像)、③基于视频的方法(针对整个视频)。
对于第①大类方法——“基于图像冗余信息”方法是较为传统的方法,又分化为四种主流方法:第一种是“基于结构”的图像修复方法,此类方法是主要是根据与图像缺失区相邻的各个像素块的颜色或亮度等视觉特征来计算缺失区域的像素值,此方法最为传统、实现起来最为简单,但计算出来的缺失区域有相当大的可能并没有实际意义,尤其是对于范围比较大的缺失区域更是如此,并且对于较大范围的缺失区域,其处理后的模糊现象会比较明显;另一种方法是“基于纹理”的图像修复方法,纹理是一种不依赖于颜色或亮度变化的反映图中同质现象的视觉特征,刻画了图像像素邻域灰度空间分布的规律,它是所有物体表面都具有的内在特征,一般灰度梯度差异大的代表纹理部分,通过计算纹理的特征,对缺失区域的纹理进行弥补,此方法处理后的图像的实际意义比第一种方法丰富;还有一种主流方法是“同时基于结构和纹理”方法,这种方法又分为了两大类:①将图片分为2部分,一部分提取结构,一部分提取纹理(仅适用于小的目标区域)②从原图得到2张图,一张图为结构图,一张图为纹理图;最后一种主流方法是“基于非填充区域的复制”方法,此方法通过选取已知区域中一块和待填充patch大小相同的区域,复制到待填充patch,选取的时候考虑结构和纹理距离的远近(欧式距离等),从已知区域选取一组(gt;1)和待填充patch大小相同的区域,根据多组的特性填充到patch中去,该patch和选取的组中没有完全一致的,此方法一般不会出现模糊现象。此大类中的方法实现起来都比较简单,针对的数据集都是图像数据,会导致视频数据中出现不连续的现象。
对于第②大类方法——“基于每帧图像学习”的方法,是一种单帧图像的图像补绘(inpainting),是从传统方法到深度学习方法的一种过渡方法,需要用大量的训练数据通过机器学习或者深度学习的方法,可以得到每类图像的内在特性,保证了连续图像的连通性。这种方法的目标是将经典的基于补丁和基于深度学习的方法结合起来,即利用深度网络来恢复缺失区域的全局结构,并利用补丁匹配的概念来恢复细节。在一个统一的端到端模型中结合这两种截然不同的模式是很重要的。具体来说,经典的基于补丁的方法的学习过程不是端到端,需要基于优化的内容和纹理约束进行昂贵的补丁合成。此类方法的优点是结果会较为精准的描述待补绘区域,但可能造成待补绘区域有一定的模糊现象,并且需要进行较多的训练数据才能使得训练的模型较为精准,训练成本高。此类方法结束后,一般会通过图像的锐化来减轻模糊现象。通过把一段视频拆分为帧图像的集合。在此集合中,搜索与有待填补部分的图像相类似的帧,用其部分对待填补部分进行补充,此方法的难点在于:①计算量;②容易寻找到局部匹配但语义无效的图像片段;③从其他图像找的局部内容会有颜色差以及色彩光度差。对于这三个难点,本大类方法中一般会采取如下方法:找到语义场景相似的图像,然后只使用最佳匹配场景来找patch。(可以将每个匹配的场景组合到不完整的图像中——根据最佳patch匹配。计算待填补图像缺失部分以外的gist描述符)。此大类中的方法实现起来不复杂,针对的数据集和第①大类方法一样,都是图像数据,但基于单帧图像,应用到连续运动的场景中会导致时间上的不一致。
对于第③大类方法——“基于视频的图像补绘”方法来说,它和前两种方法最大的区别就是待处理的数据集由图像变成了视频(图像流)。是利用空间和时间的想干内容来填充给定视频序列的缺失区域。由于摄像机的运动和物体的复杂运动,绘制真实世界的高清视频序列仍然具有挑战性。 现有的视频修复算法大多遵循传统的图像修复流水线,将问题制定为基于补丁的优化任务,通过对已知区域的空间或时空补丁进行采样,填补缺失区域,从而解决最小化的问题。但这些方法有两个共同缺点。首先,这些方法通常假设缺失区域中的平滑和均匀运动场,因此它们不能处理具有复杂运动视频的缺失问题;其次,基于优化的方法的计算复杂度很高,处理起来需要耗费很多时间,因此这些方法对于实际应用的效益还有待商榷。虽然通过使用卷积神经网络(CNN)在图像修复(第②大类方法)方面取得了显著进展,但利用深度学习进行视频修复的探索要少得多。 将基于深度学习的图像修补方法扩展到视频领域有几个挑战。 在每个帧上直接应用图像修补算法会导致时间伪影和抖动。 另一方面,由于RGB帧的数量很大,将整个视频序列一次性馈送到3D CNN也很难保证时间的一致性。 同时,需要一个非常大的模型容量来直接绘制整个视频序列,因为它的内存消耗很大,所以这在计算上基本上是不可行的。此大类中的方法实现起来较为复杂,针对的数据集为视频数据。相比于填充RGB像素,有些人提出了一种替代的流引导方法的视频修复。由于完成一个缺失的流比直接填充一个缺失区域的像素要容易得多,而使用该流在时间上传播像素自然地保持了时间一致性。与RGB像素相比,光流远不那么复杂,更容易完成,因为背景和场景中的大多数物体通常具有可跟踪的运动。 这一观察启发我们设计我们的方法,以减轻视频补绘的困难,首先合成一个相干流场跨帧。 然后,缺失区域中的大多数像素可以从可见区域传播和变形得到。最后使用像素幻觉填充在整个视频中没有看到的少量区域。
总的来说,对于交通视频车辆抹除任务来说,可以采取上述方法中的任何一种,但由于数据充足,为了达到精度方面的要求,主要尝试第②、③大类中的方法,在已有的算法上改进,增添新的创新点。
一、所研究或解决的问题
本课题主要实现交通视频数据中的车辆抹除,交通监控视频中存在某些敏感的特殊车辆,如军方车等,因此需要在视频流中将车辆抹除,而抹除后的视频在语义上的正确性和真实性都应该达到一定的标准。
二、拟采用的手段
课题研发主要由需求分析、系统设计、系统实现、系统测试、系统部署与实施五个阶段组成。
系统设计与实现的关键技术如下:卷积神经网络、具体车辆目标的检测、检测物体的替换。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。