在典型的高级驾驶辅助系统(ADAS)或使用环视高视场角摄像头的自动驾驶应用中,单个图像信号处理器(ISP)会同时用于人类视觉(HV)和计算机视觉(CV)功能。所生成原始图像的信号处理主要是由环视系统的人类视觉质量驱动的。在计算机视觉或深度学习应用开发完成后对图像信号处理器(ISP)流水线进行调优,很可能会对算法性能产生不利影响,因为算法性能并非优化循环的一部分。例如,所有算法都可能会受到因调整而导致的信噪比下降的影响。几何视觉算法本身对图像信号处理器(ISP)的预处理变化较为敏感,因为像特征提取这类像素级操作通常依赖于固定的、静态调优的核尺寸和参数以及固定的显著度阈值。对于深度学习算法而言,只要其模型是通过大量不同的训练样本进行训练的,它们就会更具鲁棒性。例如,在文献 [84] 中,作者观察到不同深度神经网络架构在模糊和噪声条件下性能会下降,而对对比度和 JPEG 压缩则具有一定的抗性。随着为辅助自动驾驶而推动视觉感知改进以及集成图像信号处理器(ISP)的片上系统(SoC)的推出,现在已经可以实现用于人类视觉和计算机视觉的双图像信号处理器(ISP)流水线了。如前文所述,原始图像由图像传感器生成。为了能被设备查看,原始数据必须经过图像信号处理器(ISP)处理(见图 7)。
图 7. 流水线概述。影响计算机视觉(CV)性能的关键图像信号处理器(ISP)模块已用粗体标记。
3.1. 总体方法与测试设置
3.1.1. 测试设置本文收集并拓展了作者先前在出版物 [11,86] 中呈现的研究结果。它主要聚焦于从像素级处理角度获得的有关锐化和对比度方面的结果,并展示了对一个行人检测(PD)算法流水线关键性能指标(KPI)影响的初步结果,该流水线先通过 AdaBoost 算法生成候选对象,随后利用一个小型的基于卷积神经网络(CNN)的方法对候选对象进行验证。锐化和对比度是典型的图像信号处理器(ISP)处理模块,相较于其他参数,它们更多地受主观经验驱动,而非基于应用的客观适配性。由于目前针对计算机视觉的图像信号处理器(ISP)调优是一个被忽视的主题,所以没有附带视觉关键性能指标(KPI)的原始图像数据集可用。本研究中使用的数据是通过安装在汽车上的鱼眼摄像头在内部进行记录的。视频 / 图像是在街道上的驾驶场景或停车状况下录制的,其中包含行人、汽车、交通及道路标志、标线等物体。需要注意的是,这些鱼眼图像并非原始图像,因此在测试前已经应用了基本的图像信号处理器(ISP)处理。由于缺乏图像信号处理器(ISP)处理前的图像,我们只能进行最基本的代理测试来 “模拟” 图像信号处理器(ISP)的某些模块(锐化和对比度)。未来,我们将通过对图像信号处理器(ISP)进行调优,使用原始图像重新运行这些测试。像素级研究针对以下方面对原始图像和处理后的图像进行了比较:边缘检测(使用索贝尔滤波器)[87]、二值化及闭运算(形态学操作)[88]。通过查找 100 个最显著匹配点(依据其距离)上的内点,对特征提取的影响进行了研究。利用随机抽样一致性算法(RANSAC)计算两幅图像之间的单应性矩阵。该研究分别考察了图像信号处理器(ISP)对每个特征提取器的影响。这项像素级研究是在 100 多幅图像上进行的。在计算机视觉中,特征是图像中显著的部分(点、斑点、边缘等),它能减少待处理的数据量,聚焦于图像的相关部分,可能在时间维度上具有鲁棒性,并会由计算机视觉算法流水线的下一阶段做进一步处理。本研究中使用的特征描述符 / 检测器对均匀缩放、方向及光照具有不变性 [47]:尺度不变特征变换(SIFT)[34]、加速稳健特征(SURF)[89]、定向 FAST 和旋转 BRIEF(ORB)[90] 以及加速鲁棒特征(AKAZE)[91,92]。总共在 6 帧图像(第 n 帧…… 第 n + 5 帧)中提取特征,并在第 n 帧与序列中后续各帧(第 n + 1 帧到第 n + 5 帧)之间进行特征匹配(见图 8)。之所以选择前面提到的这些算法(边缘检测、二值化、闭运算以及特征描述符 / 检测器),是因为它们在计算机视觉和深度学习算法中被广泛使用。
对于关键性能指标(KPI)影响的分析,我们使用了一个包含 20 个视频的样本集进行测试。在所有视频上都运行了一个典型的行人检测(PD)算法。该算法依据光照水平、姿态、对比度等因素,可检测出 8 米范围内的行人,并在检测到的行人周围绘制边界框。用于量化影响的指标是行业内常用的一个关键性能指标(KPI)。我们的关键性能指标(KPI)度量标准是标注的边界框与检测到的边界框之间的交并比(IOU)。交并比(IOU)越大,表明准确率越高,当交并比(IOU)高于针对特定物体实例设定的阈值时,则判定为真阳性。
图 8. 基于定向 FAST 和旋转 BRIEF(ORB)的特征匹配示意图
来源:智驾社