B. 几何任务
1)深度估计:它涉及到在一个像素水平上估计到一个物体(或任何平面)的距离,如图14所示。计算相对于照相机平面的距离仍然是非常具有挑战性的。目前,大部分的工作是在纠正的KITTI [109]序列,其中桶失真被去除。对于针孔相机,深度定义为到相机平面的垂直距离,即z。前运动结构(SfM)接近[110],[111],通过参数化网络的不偶预测到非投影操作来估计逆深度。这种参数化不适用于鱼眼相机,因为它们经历了巨大的畸变,从而获得了与针孔相机的外极线相比的角差异。为了应用与针孔相同的方法,我们需要修正鱼眼图像,这将导致第三-F节所述的视场损失。然而,同样适用于针孔投影模型相机的多视图几何[112]原理也适用于鱼眼图像。通过从不同的角度观察场景,并建立它们之间的对应关系,可以估计出潜在的几何结构。值得注意的是,当使用SfM方法时,考虑CNN输出范数比角距离差,因为它将使视图合成操作的角距离难以参数化。此外,对于大于180◦的视场,z的值可以(接近于)零或负,这也会导致数值问题,因为模型通常通过z计算有一些直接或间接的划分。相反,估计径向距离是有用的,即范数√x2+y2+z2而不是z。范数总是正的和非零的(除了x,y,z = 0),并允许一个更稳定的数值实现。
在激光雷达距离测量上,如KITTI,深度预测模型可以以有监督的方式学习。Ravi Kumar等人[113]采用了类似的方法,证明了利用激光雷达地面真相训练鱼眼图像来预测距离地图的能力。尽管如此,激光雷达的数据是非常稀疏和昂贵的建立良好的口径。为了克服这个问题,距离网[114]专注于解决最具挑战性的几何之一
问题,即利用基于图像的重建技术对原始的鱼眼相机进行距离估计,这是一个艰巨的任务,因为二维图像到三维表面之间的映射是一个缺乏约束的问题。深度估计也是一个不确定的问题,因为每个像素有几个局部错误的深度,这也可以复制新的观点。[16]介绍了一种通用的端到端自监督训练框架,用于估计不同相机模型的原始失真图像上的单眼深度图。作者展示了框架在原始KITTI和森林景观数据集上的工作结果。
“同步距离网络”(SynDistNet)[115] 学习了语义感知几何表示,这种表示能够在自监督学习的运动恢复结构(SfM)情境下消除光度模糊性。它们纳入了一种广义的鲁棒损失函数 [116],该函数在显著提升性能的同时,消除了对光度损失进行超参数调整的必要性。它们采用了一种语义掩蔽方法,以减少因动态物体违反静态世界假设而产生的伪影。与先前针对鱼眼图像的方法 [16]、[114] 相比,“同步距离网络” 大幅降低了均方根误差(RMSE),降幅达 25%。当前大多数深度估计方法依赖单个相机,无法无缝推广到多个鱼眼相机上。此外,该模型必须在具有不同相机几何结构的多种不同尺寸的汽车产品线中实施。即便在同一条汽车产品线内,由于制造公差,相机内参数也会有所不同。深度神经网络似乎确实对这些变化很敏感,对每个相机实例进行训练和测试几乎是不可能的。因此,“奇异值分解距离网络”(SVDistNet)[117] 提出了一种创新的相机几何自适应多尺度卷积,它将相机参数作为条件输入,使网络能够推广到之前未知的鱼眼相机上。
视觉里程计:刘等人 [118] 描述了一种用于鱼眼立体相机的传统直接视觉里程计技术。该技术可同时进行相机运动估计和半稠密重建。该流程中有两个线程:一个用于跟踪,另一个用于建图。他们在跟踪线程中使用半稠密直接图像对齐来估计相机位姿。为规避极曲线问题,采用平面扫描立体算法进行立体匹配并初始化深度。崔等人 [119] 展示了一种使用鱼眼相机的大规模、实时稠密几何建图技术。相机位姿是从全球导航卫星系统 / 惯性导航系统(GNSS/INS)获取的,但他们也提出可以从视觉惯性里程计(VIO)框架中获取。深度图融合会使用通过这些途径获取的相机位姿。亨等人 [120] 描述了一种用于鱼眼立体相机的半直接视觉里程计算法。在跟踪线程中,他们在估计相机位姿的同时跟踪有朝向的图像块;在建图线程中,他们会估计每个待跟踪新图像块的坐标和表面法线。表面法线估计使我们能够从不同视角跟踪图像块。他们在该技术中不采用描述符或强描述符匹配来检测图像块对应关系,而是采用基于光流一致性的方法来寻找图像块对应关系。近来,已经出现了许多针对鱼眼相机的视觉里程计方法,包括 [121] 和 [122]。此外,格珀特(Geppert)等人 [121] 使用了一个多相机视觉惯性里程计框架,将视觉惯性定位技术扩展到大规模环境中,从而形成了一个能够进行精确且无漂移位姿估计的系统。拉维・库马尔(Ravi Kumar)等人 [123] 将卷积神经网络(CNNs)应用于视觉里程计任务,该任务在单目距离估计框架中充当辅助任务。
运动分割:它被定义为在一对图像序列中识别诸如车辆和行人等独立运动物体(像素),并将它们与静态背景区分开来的任务,如图 14 所示。它被用作一种不依赖外观、利用运动线索来检测任意运动物体(如稀有动物,例如袋鼠或驼鹿)的方法。它最初在 “运动分割网络”(MODNet)[124] 中针对自动驾驶进行了探索。近来,实例级运动分割在 “实例运动分割”(InstanceMotSeg)[125] 中被定义并进行了探索。“鱼眼运动分割网络”(FisheyeMODNet)[126] 将其扩展到未经校正的鱼眼相机上。当时并没有明确的运动补偿,但将其作为未来工作提及了。马里奥蒂(Mariotti)等人 [79] 基于车辆里程计 [127],采用经典方法来完成这一任务。他们对光流进行了球面坐标变换,并调整了正高度、深度和极线约束,使其适用于这种设置。他们还提出了反向平行约束,以消除车辆与本车平行移动时通常会出现的运动视差模糊性。
C. 时间相关任务
尽管像深度和运动这类几何任务可以使用多帧图像进行训练和推理,但输出结果仅针对单帧图像进行定义。我们将输出结果基于多帧图像定义的任务称为时间相关任务。这类任务通常需要对多帧连续图像进行标注。
跟踪:目标跟踪是常见的时间相关任务,需要在多帧图像中对目标进行关联。在 [128] 中针对环视相机对运动物体的检测和跟踪进行了探索,他们采用了一种经典的基于光流的跟踪方法。“广视角行人检测与跟踪头顶监控数据集”(WEPDTOF)[129] 是近期发布的一个数据集,用于在头顶监控场景下的鱼眼相机上进行行人检测和跟踪。尽管它并非汽车领域的数据集,但它涵盖了在鱼眼相机上开发跟踪系统所面临的必要挑战。轨迹预测与跟踪密切相关,在轨迹预测任务中,必须对感兴趣目标在下一组图像帧中的位置进行预测。在自动驾驶的情况下,这项任务尤其会在三维鸟瞰视角空间中进行。“基于圆柱校正的鱼眼前置相机车辆轨迹预测”(PLOP)算法 [130] 探索了在对鱼眼前置相机图像应用圆柱校正后进行车辆轨迹预测的方法。
重识别:重识别(Re-ID)是对不同相机所检测到的物体进行关联的任务,它也可以包括跨相机随时间变化的关联。吴等人 [131] 提议在环视相机上进行车辆重识别,并强调了两个重大挑战:首先,由于鱼眼畸变、遮挡、截断以及其他因素,在单相机视角下,很难从之前的图像帧中检测到同一辆车。其次,从多相机视角来看,同一辆车的外观会因所用相机的不同而发生极大变化。他们提出了一种新的质量评估机制,以抵消跟踪框漂移和目标一致性的影响。他们采用了一种基于注意力机制的重识别网络,并将其与一种空间约束方法相结合,以提升不同相机的性能。
赵等人 [132] 提出了一种行人重识别算法。它包含一个单相机检测与跟踪模块以及一个应用于多相机视图的双相机重识别模块。检测模块利用 “YOLOv3”[133] 在单相机视角视频中识别行人。跟踪模型通过将 “OSnet”[134] 与 “DeepSORT”[135] 相结合,对行人进行跟踪并为每个已识别的行人分配一个身份标识。这两个模型都通过迁移学习流程进行了适配,以适用于鱼眼图像。
同时定位与地图构建(SLAM):特征对应包括关键点检测、描述以及匹配,它是同时定位与地图构建(SLAM)系统中的首要步骤。“鱼眼超点”(FisheyeSuperPoint)[136] 为鱼眼图像引入了一种独特的训练和评估方法。作为起点,他们采用了 “超点”(SuperPoint)[137],这是一种自监督的关键点探测器和描述符,已经产生了当前最先进的单应性预测结果。他们提出了一个鱼眼适配框架,用于在无畸变的鱼眼图像上进行训练;通过鱼眼扭曲操作在鱼眼图像上进行自监督训练。鱼眼图像经过中间投影到单位球面这一阶段后,被转换为一幅新的畸变图像,相机的虚拟位姿可以在 6 自由度上进行改变。特里帕蒂(Tripathi)等人 [138] 利用 “ORB SLAM” 流程,探索了使用环视鱼眼相机进行重定位的问题。其目标是对诸如公寓小区这样的私人区域进行地图绘制,并依据该地图进行重定位,以辅助自动泊车。他们在原始鱼眼图像上进行特征检测,并分析了不同特征对应算法在原始鱼眼相机上的对比情况。
D. 多任务模型
多任务学习(MTL)是通过从多任务监督信号中学习共同的共享表示来进行的。自从深度学习出现以来,许多密集预测任务(即生成像素级预测的任务)在性能方面都有了显著提升。通常情况下,这些任务是逐个学习的,每个任务都需要训练其自身的神经网络。然而,近来的多任务学习方法 [149][150] 通过利用学习到的共享表示联合处理多个任务,在性能、计算复杂度以及内存占用方面都展现出了颇具前景的成果。
对于鱼眼相机,西斯图(Sistu)等人 [151] 提出了一个用于学习目标检测和语义分割的联合多任务学习模型。其主要目标是在低功耗的片上嵌入式系统上实现实时性能,对这两项任务使用相同的编码器。他们利用一个由两个解码器共享的类似 ResNet10 的简单编码器构建了一个高效的架构。目标检测使用 YOLO v2 解码器,而语义分割则使用全卷积网络(FCN8)解码器。梁(Leang)等人探索了鱼眼相机上两项任务设置的不同任务加权方法 [152]。“鱼眼多网”(FisheyeMultiNet)[153] 从基于相机的深度学习算法角度讨论了自动泊车系统的设计与实现。在低功耗嵌入式系统上,“鱼眼多网” 是一个实时的多任务深度学习网络,它能够识别泊车所需的所有物体。其配置是一个以 15 帧 / 秒运行的四相机系统,可执行三项任务:目标检测、语义分割以及污渍检测。
最后,在 “全向检测”(OmniDet)[123] 中提出了仅使用相机对环境近场感知进行整体实时场景理解的方法。他们构建了一个近场感知系统,该系统构成了一个如图 14 所示的 L3 级自动驾驶技术栈。借助这个框架,我们可以通过一个在嵌入式系统上以 60 帧 / 秒运行、包含六项任务的单一深度学习模型,联合对几何、语义、运动、定位以及污渍情况进行理解和推理。受拉希德(Rashed)等人 [154] 所证明的深度和运动等几何任务能够辅助语义分割这一观点的启发,实现了跨任务的协同交叉关联。相机校准被转换为逐像素张量并输入到模型中,以便模型能够适应各种相机内参数。索布(Sobh)等人 [155] 研究了在使用 “全向检测” 的多任务设置中对抗性攻击的影响,这对于安全关键型应用来说非常重要。这些测试针对有目标和无目标的情况处理了白盒攻击和黑盒攻击,还研究了在攻击一项任务时使用简单防御策略以及分析其对其他任务影响的情况。
来源:智驾社
作者:小明师兄