图3.道路标记检测的示例
图4:停车位标志识别示例
2.3.2.深度学习
在过去的5年里,计算机视觉技术迅速发展,以深度学习,特别是卷积神经网络(CNN)是其核心。cnn已经大幅提高了目标检测的准确性,从而提高了对自动驾驶的感知能力。它还通过语义分割实现了密集的像素分类,这在之前是不可行的。此外,cnn在几何视觉算法如光流、移动目标检测、运动结构、重新定位、污染检测[61]和联合多任务模型等方面取得了最先进的结果。CNN的快速进展使得硬件制造商包括了一个定制的硬件,以提供超过每秒10个Tera操作的高吞吐量(TOPS)。此外,下一代硬件将有密集的光流和立体声硬件加速器,以实现对移动和静态物体的通用检测。
语义图像分割在深度学习方面取得了巨大的进展。语义分割的目标是将图像分割成有意义的部分。它已被用于机器人技术、医疗应用、增强现实和最显著的自动驾驶。图5展示了在自动驾驶设置中的语义分割输出的一个示例。所开发的工作主要有三个子类别。第一个使用补丁式训练来产生最终的分类。第二个子类主要关注像素级分类的端到端学习。它始于在中开发完全卷积网络的工作。最后,在中的工作主要集中在多尺度语义分割上。
图 5. 典型汽车场景的语义分割
如前文所述,几何计算机视觉任务是自动驾驶(AD)系统的重要组成部分。具体而言,我们指的是多视图几何算法,它能从多幅图像中估算相对运动和深度。自动驾驶的视觉感知深受这些几何应用(如光流 ]、运动恢复结构 、视觉里程计、同时定位与地图构建(SLAM))精度的影响。几十年来,计算机视觉领域一直在深入研究使用经典方法来实现这些算法。然而,基于深度学习的方法在这些算法中开始崭露头角。深度学习在目标检测和分割方面发挥了重要作用,并且已成为自动驾驶的一种成熟解决方案。近来,仅通过使用卷积神经网络(CNN)模型而不结合几何结构,深度学习就已成为诸如光流和深度估算等特定任务的前沿方法。也有人尝试将 CNN 用于视觉 SLAM、视觉里程计和校准。运动估计涵盖了密集光流估计和运动物体分割。图 6 展示了一种用于计算密集光流的几何深度学习算法。深度估计是自动驾驶中的一项关键算法,用于相对于车辆对汽车周围识别出的物体进行定位,我们会研究有监督、无监督或半监督的方法。原则上,CNN 学习算法应该能够学习对算法关键性能指标(KPI)而言最优的必要变换。然而在实践中,有大量的经验证据表明,纳入已知的变换作为归纳偏置能提升性能。
图 6. 用于计算密集光流的几何深度学习算法示意图
2.4. 讨论计算机视觉在车辆自动化中起着非常重要的作用,它为车辆提供大量环境信息,以便车辆做出至关重要的辅助决策,更重要的是做出关乎安全的关键决策。显然,对于基于传统方法和基于深度学习的功能而言,图像本身作为这些功能唯一的原始传感器输入,对于达到更高自动化水平所要求的鲁棒性、可用性和准确性至关重要。迈向更高车辆自动化水平的趋势正推动着所有计算机视觉功能的性能要求提升。无论是基于传统方法还是基于深度学习的计算机视觉功能,其像素级处理阶段都依赖于图像输入的保真度。无论采用何种方法从图像中提取特征级数据,无论是传统的特征提取还是编解码器神经网络中的编码器,只有当所提供的图像能准确呈现所拍摄的场景时,提取出的诸如点、边缘、角点、斑点或纹理等特征才是可靠的。如前文所述,图像生成的这种准确性可能与人类观察者所感知的视觉质量不一致。计算机视觉理想的图像表示形式是,能为所有场景结构(几何结构、纹理、颜色、反射率等)提供充足、一致且可重复的对比度,且不受光照、温度、环境条件以及场景结构的影响,然而,由于存在大量无法测量、难以建模或在当今成像硬件上无法准确重现的系统及场景变量,这一目标无法实现。一些在像素层面影响特征提取的重要图像特性包括图像压缩、模糊 / 锐化、对比度、噪声、色彩压缩,本研究对其中部分特性进行了探究。虽然这些图像特性并非完全由图像信号处理器(ISP)控制,但它却对这些特性在生成图像中的存在情况、权重以及影响有着重大影响。尽管近期有研究探讨了其中部分图像特性对计算机视觉性能的影响 ,也有其他研究提出了针对移动应用进行图像信号处理器调优或适配的可能性 ,但针对汽车应用的影响及相关问题的研究却寥寥无几(如果有的话)。
来源:智驾社