大规模场景的实时三维重建与分割文献综述

 2022-09-23 20:33:13

{title}{title}

文献综述(或调研报告):

本课题的相关工作主要有两个分支:1. 三维几何建模;2. 三维语义分割。下面将分别陈述两个方面。

三维几何建模方法按实现原理不同,大致可以分为两个大类:

  1. 基于Structure from motion(Sfm)的方法

基于Sfm的方法输入一组同一场景的不同视角的图片,估计出场景的三维模型。其原理是:通过找到这些图片中的对应特征点,计算出拍摄这些图片的相机参数和位姿,从而通过几何关系计算出每个点在空间中的位置,生成三维模型。

和双目视觉类似,如果已知相机的参数、相机的位姿和图像的对应点,我们就能通过对积几何(Epipolar geometry)来计算得到这些对应点在三维空间中的位置。Sfm的核心在于,它只需要找到图像中的对应点,从大量输入图像中计算得到相机参数、相机位姿这些数据。因此,这些图像可以是非结构化的(拍摄位置不连续)、用完全不同的相机拍摄的、在不同的光照条件下拍摄的。所以,Sfm技术经常被用于低成本的三维重建。

一个典型的Sfm应用项目是“Reconstructing Rome”,作者从互联网上抓取了15万张古罗马遗迹的照片,使用Sfm方法合成了城市的三维模型[1]。

另一个项目“Casual 3D Photography”将Sfm与移动设备和全景VR结合,通过用手机随意拍摄的一组图片就能重建出360°的全景三维场景模型[2]。该项目先用Sfm生成了一个粗略的场景三维模型,然后用multi-view stereo(MVS)进一步提升重建模型的密度,得到稠密点云。

总体来说,Sfm的优势在于户外超大规模的场景重建,不需要固定的拍摄顺序和拍摄角度,对相机的要求也比较低,只需要RGB图片就能完成重建工作。它的缺点在于计算时间较长,计算量也较大。此外,由于特征点提取数量的限制,Sfm生成的三维模型通常是稀疏的(Sparse),如果需要得到更加密集的点云,还需要使用其他方法做后续的处理。

  1. 基于SLAM的方法

SLAM全称为同时定位与建图。它是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动[3]。SLAM通常有以下几个模块:视觉里程计,负责从输入的图像序列中计算出相机位置的变化,得到相机的位姿;优化模块,由于视觉里程计不可避免地存在累计误差,优化过程就是将当前状态和之前所有的状态联系起来,减少误差的累计;建图模块,利用相机的位姿,将拍摄的图像整合成三维模型。

SLAM在视觉里程计上使用了与Sfm类似的技术,如特征点匹配。在获取深度方面,基于视觉的SLAM也大量使用了双目视觉或MVS技术。但SLAM与Sfm的不同在于,SLAM虽然也是输入一系列图片帧,但是这些帧一定是按照一定的时间顺序排列的,帧与帧之间相机只发生了较小的运动。它们的另一个本质区别在于:Sfm是离线计算的,而SLAM在每一帧都在线优化相机的位姿同时更新重建出来的三维模型。本课题注重实时建图,因此我们将重点放在SLAM上。

根据传感器和数据来源的不同,SLAM还可以分为单目视觉SLAM,双目视觉SLAM和RGB-D SLAM。前两者使用的都是普通相机,通过双目或多视角双目(MVS)技术来获得深度。而RGB-D SLAM使用RGBD相机作为深度传感器。RGBD相机是一类同时生成RGB图像和与之对齐的密集深度图(dense depth map)的一类传感器。常见的有Kinect、Intel RealSense等。这类相机按不同的获取深度的原理,通常分为结构光相机、Time-of-flight(ToF)相机、激光雷达等。这类相机依赖激光技术,通过研究物体反射激光的时间或者投射的激光图案在物体上的变化来计算物体的深度。相比于被动技术(如双目视觉),这些RGBD相机的优势在于可以提供更精确的深度图,并且在缺乏纹理的物体上一样能得到较好的深度图。而它的缺点在于局限在室内使用,并且分辨率相对较低。

由于RGBD相机近年来渐渐普及,人们进行了很多关于RGBD实时三维重建的研究,并取得了不错的结果。其中,KinectFusion[4]首先提出了一个Kinect RGBD相机三维重建的框架。人们后来在此基础上不断创新,提出了BundleFusion[5],CHISEL[6]等新的框架,在重建规模、计算性能、全局一致性等等维度上作出了很大的改进。ORB-SLAM2 [9]是现在通用性最强的开源SLAM框架,支持单目SLAM、双目SLAM和RGBD相机,同时可以达到CPU上实时运行的性能。FlashFusion[7]在CHISEL和FastGO[8]的基础上继续优化计算性能,实现了在CPU上的实时RGBD SLAM, 并且具有很好的全局一致性。

三维语义分割主要分为以下几种方法:

  1. Primitive based(基于基元的方法)

该方法假定目标物体是由一系列基元组成的,如长方体、圆柱体、球等基本的几何形体。最常用的假设就是所谓的盒子假设,即房间是由六个平面组成的长方体。

Zhang等人[10]的工作就充分利用了提取平面的方法,一定程度上消除了传感器噪声,同时减少了漂移误差,从而建模效果更好。Huang等人[11]的工作主要集中在生成平整的、纹理质量较高的三维模型。它们也是充分利用了平面信息来补充遮挡区域,来提高模型几何质量。

  1. 基于模型的方法

在基于模型的方法中,我们使用一个较大的数据集对模型进行训练,让模型自己学习物体的结构特征,而不再需要人们的先验知识。由于现在有越来越多的大规模三维数据集可以使用,并且卷积神经网络在图像语义分割领域获得了很大成功,因此基于模型的方法发展飞速。

相比于Primitive-based方法,基于模型的方法的最大好处在于:物体特征的提取不再需要手工完成,而是通过大量的样本学习得到,因此模型容量可以很大,允许识别很多复杂的、很难单纯用基元表示的物体。因此,基于深度学习模型的语义分割是语义建模的趋势。

Graham等人[12][14]的Submanifold Sparse Convolutional Networks对传统的语义网络做了一些性能的优化,使得实时计算成为可能。对应的三维语义分割模型准确率也在公共数据集ScanNet上取得了最好结果[13]。Paszke等人[15]的ENet是一个可以实时运行的二维卷积神经网络。Yi等人[16]在ShapeNet上对大量新的三维卷积神经网络框架做了测试,Submanifold Sparse Convolutional Networks也是表现最佳的网络。

参考文献:

[1] Agarwal S, Furukawa Y, Snavely N, et al. Reconstructing rome[J]. Computer, 2010, 43(6): 40-47.

[2] Hedman P, Alsisan S, Szeliski R, et al. Casual 3D photography[J]. ACM Transactions on Graphics (TOG), 2017, 36(6): 234.

[3] 高翔, 张涛, 刘毅, 等. 视觉SLAM十四讲:从理论到实践[M]. 北京: 电子工业出版社, 2017.

[4] Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]//2011 IEEE International Symposium on Mixed and Augmented Reality. IEEE, 2011: 127-136.

[5] Dai A, Nieszlig;ner M, Zollhouml;fer M, et al. Bundlefusion: Real-time globally consistent 3d reconstruction using on-the-fly surface reintegration[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 76a.

[6] Klingensmith M, Dryanovski I, Srinivasa S, et al. Chisel: Real Time Large Scale 3D Reconstruction Onboard a Mobile Device using Spatially Hashed Signed Distance Fields[C]//Robotics: science and systems. 2015, 4: 1.

[7] Han L, Fang L. FlashFusion: Real-time Globally Consistent Dense 3D Reconstruction using CPU Computing[C]. RSS, 2018.

[8] Han L, Xu L, Bobkov D, et al. Real-Time Global Registration for Globally Consistent RGB-D SLAM[J]. IEEE Transactions on Robotics, 2019.

[9] Mur-Artal R, Tardoacute;s J D. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262.

[10] Zhang Y, Xu W, Tong Y, et al. Online structure analysis for real-time indoor scene reconstruction[J]. ACM Transactions on Graphics (TOG), 2015, 34(5): 159.

[11] Huang J, Dai A, Guibas L J, et al. 3Dlite: towards commodity 3D scanning for content creation[J]. ACM Trans. Graph., 2017, 36(6): 203:1-203:14.

[12] Graham B, van der Maaten L. Submanifold sparse convolutional networks[J]. arXiv preprint arXiv:1706.01307, 2017.

[13] Dai A, Chang A X, Savva M, et al. Scannet: Richly-annotated 3d reconstructions of indoor scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5828-5839.

[14] Graham B, Engelcke M, van der Maaten L. 3d semantic segmentation with submanifold sparse convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 9224-9232.

[15] Paszke A, Chaurasia A, Kim S, et al. Enet: A deep neural network architecture for real-time semantic segmentation[J]. arXiv preprint arXiv:1606.02147, 2016.

[16] Yi L, Shao L, Savva M, et al. Large-scale 3d shape reconstruction and segmentation from shapenet core55[J]. arXiv preprint arXiv:1710.06104, 2017.

资料编号:[179769]

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。