文献综述(或调研报告):
目前行人检测已经成为计算机视觉的一个重点方向,在这个领域每年都会有大量的比赛也会产生许多有价值的论文。对通过视频检测获取慢行交通数据的研究主要包含前期视频图像处理、运动目标检测、运动目标跟踪以及慢行交通运行参数提取等几个方面。
对于前期的视频图像处理的研究主要集中在对视频图像中噪声的处理和对拍摄过程中产生抖动的处理。对于图像噪声的处理,李娟[1]将图像噪声分为了椒盐噪声和高斯噪声,提出消除噪声的方法主要可分为在空间域和频域两种类型。空间域方法中谐波均值滤波器更便于去除高斯噪声,逆谐波均值滤波器更适合去除椒盐噪声。若采用频域方法消除噪声,因为噪声主要集中在傅里叶变换的高频部分,可以采用低通滤波器去除图像中的高频成分。沈涛[5]采用改进的中值滤波器去除图像噪声,通过对像素灰度值的判断,判断像素是否可能属于噪声区域,对可能属于噪声的像素,取其邻域内去除噪声区域后的像素进行排序,选取其中值取代原先的灰度值。对于视频抖动的处理,魏琳[8]改进了灰度投影法对全局动态背景进行运动估计并对视频图像进行向后运动补偿操作,其基本思路是根据行与列的运动情况,通过累积将图像数据映射到横轴与竖轴上,计算行列数据的相关性,找出互相关最小时的偏移量,即为全局运动的偏移量。针对灰度投影法存在的缺陷,提出采用视频中运动目标较少的区域作为投影区域,在更新参考帧时采用隔三帧更换一次参考帧的方法,并对运动补偿时产生的无定义区域,采用裁剪的方法进行处理。
在视频监控系统中,运动目标检测就是在视频序列中将行人和自行车、电动车等运动目标从背景中分割出来,常用的运动物体检测方法可以归纳为以下五种:背景差分法、帧差法、模板匹配法、光流法和基于统计学习的行人检测方法。除了最后一种统计学习的方法,其他方法在将运动目标提取后,还需要将其进行分类。李娟[1]对混合高斯背景模型的构建方法进行改进,避免行人在与车辆发生冲突停留时,由于停止时间较长,由前景融入到背景,造成背景的缺失。具体方法分为两种,一种是加入融合时间调整机制,即在最有可能进入背景模型的高斯模型分量的权重前乘消融系数,从而减小的最有可能进入背景模型的高斯模型分量权重来减缓该分量进入属于背景分布的时间,消融系数与像素被连续分类成前景的次数成正比,即刚产生的前景延缓的时间长,而对长时间为前景的目标减缓效果减弱。第二种是整合权值均值,即权值更新时,采用学习每个高斯模型在时间序列上权值的均值来替代高斯模型的权值。王兴宝[6]针对复杂场景下背景建模耗时较长等问题,提出了一种基于局部时空域模型的核密度前景提取算法,该算法在前期背景训练阶段通过K均值聚类算法将图像序列分类为关键帧作为新训练样本集进行核密度估计,选取核密度估计最大的像素值作为背景点,在后期背景更新阶段,构建一种局部时空域模型,在时间域上利用历史帧和当前帧背景匹配度自动调整时间窗口,即通过协方差建立前景和背景的匹配模型,若匹配度大,减慢背景更新速度,在空间域上使用颜色和纹理进行实时更新背景,消除部分阴影问题,即若视频帧与背景参考模型所对应纹理相似,则该点大概率属于背景。针对高空视频细节模糊等问题,提出了一种基于卡尔曼滤波和显著区域检测的行人识别算法,根据显著区域在空间上的聚集特性采用显著区域分割对前景进行提取,使用卡尔曼滤波先标记出候选区域再选择候选人。康玉柱[7]分别从倾斜和竖直拍摄两种情况入手,设计信号交叉口行人流量检测系统,采用ViBe背景建模提取运动目标前景对运动目标进行检测,ViBe背景建模原理是利用像素点在空间位置上的联系,取像素邻近区域内的像素作为背景参考点,比较新图像的像素与背景参考点的关系,从而对前景和背景进行判断。魏琳[8]在运动目标检测方面提出了一种基于梯度阈值和特征抑制的光流法,该方法结合LK光流法和HS光流法的特征,对光流约束方程进行改进,解决了光流基本约束方程的亮度恒常假设在全图像区域内不能被全部满足的问题,在梯度较大的像素点采用亮度约束,而梯度较小的像素点采用全局平滑约束,并辅助以特征抑制,对局部动态背景和噪声进行了有效地抑制。Zivkovic[10]等人对混合高斯模型的背景建模方法进行改进,提出了一个用于不断更新混合高斯模型参数以及同时为每个像素选择适当高斯分量数量的回归方程,同时提出了一种简单的非参数自适应密度估计方法,大大提高了原有的混合高斯模型进行背景建模的效率与速度。混合高斯模型的背景构建是指通过多个高斯模型对一个像素点的像素分布进行描述。其基本原理是依据一定的视频序列进行训练,当被认定是背景的后验概率与被认定是前景的后验概率的比值大于1时,该像素被认定是背景,通过不断更新训练集并重新估算密度来适应背景的不断变化。关于高斯分量数量的选择,提出了一种在线聚类的算法,入侵的前景目标会被一些小权重的高斯分量表示,因此,我们可以用前一定权重占比的高斯模型分量来近似背景模型。焦会英[11]针对人群出现遮挡、重叠与合并等复杂情景,提出利用行人头部轮廓特征进行行人检测,通过创建一个灰度判决器,判断每个由GHT类圆检测出的圆形轮廓是否为真实的头部轮廓,并将每个真实头部区域出现的多个头部轮廓检测结果通过聚类合并为一个头部真实轮廓。
将运动物体检测出后还需要对其进行分类以区分行人和非机动车。李娟[1]选取了速度等运动特征和宽度、高度、面积、目标长宽比和形状复杂度等形状特征,并通过BP神经网络对运动目标进行分类。Navneet Dalal和Bill Triggs[2]提出将方向梯度直方图(HOG)应用于行人检测,对HOG特征的提取进行了简要的介绍,并将HOG检测的结果与Haar小波、PCA-SIFT等方法进行比较,得出HOG检测结果较优。他们认为局部目标的外表和形状可以被局部梯度或边缘方向的分布很好的描述。其主要步骤是先将图像分为小的空间单元(“细胞”),对每个单元计算梯度方向直方图,为了更好地适应照明和阴影的变换,需要对直方图进行归一化,即通过选择更大的空间“块”,对块中的细胞单元进行归一化。将检测单元中所有块的HOG描述子混合起来形成最终特征向量,然后用SVM分类器进行人体检测。最后,他们还就颜色空间、梯度算子、块大小、细胞单元大小、快移动步长、归一化方法等参数的变化对检测性能产生的影响进行研究,得出结论,精细尺度不需要平滑微分,较多的梯度方向直方图分割单元,尺寸适度的、归一化的、重叠的描述子块会让检测性能达到最优。王兴宝[6] 在前景目标分类问题上,采用形状特征进行分类,由于目标轮廓、面积和周长等形状特征会随拍摄的高度和角度的变化而变化,所以选用占空比、长宽比、面积周长比和惯性主轴方向四个特征再使用贝叶斯决策进行分类。
对于采用统计学习直接进行运动目标识别的方法,王兴宝[6]在行人检测问题上,提出了一种融合多种特征的目标检测算法,对HOG特征、LBP纹理特征以及SIFT特征赋予各自权重进行融合。康玉柱[7]对于行人识别问题,在倾斜拍摄情况下,采用SVM分类器根据行人的HOG特征对行人进行识别,在竖直拍摄情况下选择对人头进行检测,具体方法为依据人头样本的LBP和HOG特征,采用AdaBoost分类器进行识别。焦会英[11]对于行人较稀疏的斜拍场景,提出融合卷积神经网络和视频运动信息的检测方法,先通过混合高斯模型提取前景,将前景连通区域标定为行人,再通过卷积神经网络标定目标行人,最后采用非极大值抑制方法融合两种方法的识别结果。
运动目标被检测后,会带有部分阴影,对接下来的跟踪与计数造成干扰。阴影检测是视频检测过程中的一大难点,不同的阴影检测思路产生了不同的作用效果。李娟[1]在阴影检测方面提出通过基于阴影特征的方法进行阴影检测,即在HSV颜色空间中,阴影像素点与背景像素点相比,色度变换不大,饱和度较小,而亮度变换较大。而通过此方法去除的阴影会导致部分前景像素中与阴影相似或更暗的区域被识别为阴影去除,因此采用形态学方法前景目标进行重构。陈嵘[3]提出一种基于颜色特征、归一化向量距离、亮度比值相融合的阴影去除方法。基于颜色特征的阴影去除是利用在背景区域被阴影覆盖后像素强度减小但颜色组成不变的原理,即在RGB颜色空间下,阴影区域与背景区域相比,R,G,B颜色分量所占的比例相同但数值变小。基于归一化向量距离的阴影特征是指一种基于辐射照度的向量距离归一化方法,即给出了一个与背景和前景灰度以及区域平均灰度相关的NVD特征。与阴影相比,前景物体像素的NVD值较小,因此当NVD值大于区域内的期望值时,像素被认定成背景。通过前两种阴影去除的方法,有部分前景像素被误认为成阴影,所以通过作者提出了采用亮度方法来确定误检区域,即阴影亮度与背景亮度的比值小于一个阈值时,认定为前景物体。张涵[9]等人在RGB三个颜色通道上提取相邻帧之间像素点的亮度、对比度和结构特征,融合这3类特征运动目标区域内的相似程度生成相似度度量,并依据最小均方误差准则设计目标函数,通过最优化方法求解最佳的像素点分割阈值,检测并消除运动侦测目标中的阴影像素点。Prati[4]等人对阴影去除的几种方法进行了总结与对比,他将阴影去除方法分为两个大类,分别是基于一个开关决定过程的确定性方法和基于概率函数的统计方法,每个大类下又分为两个小类,将统计方法又分为了有参数和无参数的方法,将确定性方法又分为了是否基于模型知识的两种方法。论文主要介绍和比较了前三种方法。非参数的统计方法主要机理是阴影与背景有相同的色度,但亮度小于背景。有参数的统计方法主要原理是使背景类、前景类和阴影类的后验概率最大化。确定性非模型方法在HSV颜色空间上利用了阴影区域相较背景色度变化不明显但饱和度下降较大的原理,具体模型如下:
SP(x,y)=
将运动目标进行检测提取后,需要对其进行跟踪,以获取目标运动轨迹,提取相关运动信息。康玉柱[7]采用卡尔曼滤波方法对行人进行跟踪,通过不断对运动目标在下一帧位置进行预测和修正,获取交叉口内行人的运动轨迹信息。焦会英[11]采用了KSP算法对运动目标进行跟踪,KSP算法是一个基于数理统计的跟踪算法,其原理为根据当前检测结果不断推断具有最大后验概率的最优路径。以上几种算法可分类为生成式跟踪算法,通过对运动目标进行预测匹配,除了生成式跟踪算法外,判别式跟踪算法也取得了不错的成效。刘延飞[12]等人针对KCF跟踪算法受光照变化、遮挡影响易出现目标丢失的问题,提出引入异常值检测方法作为目标丢失预警机制,同时,对丢失目标实行重检测定位算法重新找回跟踪目标。具体方法是对每帧的峰值进行检测,发现异常峰值(峰值消减明显),则判定目标丢失或即将丢失,预警机制启动,停止目标模板更新,通过目标丢失重检测定位算法,在全图像中搜寻峰值最高的区域以重定位搜索目标。
视频检测的最后一步便是对交通运行参数进行提取,其中关键一步便是将运动物体在图像中的坐标和在真实世界中的坐标相匹配。沈涛[5]将视频图像和实际坐标的映射关系应用到具体的交通场景中,得到实际的交通参数,包括行人流量、轨迹、速度、加速度等。其思路是将道路平面看成是一个平面,即世界坐标下的纵坐标不变,将转换方程的参数化简,通过在像平面找到对应已知世界坐标的4个点即可求解出转换方程的未知系数。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。