SGDet3D：基于4D雷达和相机的语义和几何信息融合的3D目标检测方法_汽车技术_

编者按：自动驾驶环境感知中，4D毫米波雷达因其全天候可靠性和成本优势，正成为激光雷达的重要替代方案。本期推荐的SGDet3D方法通过创新性的双分支融合架构，解决了雷达与相机信息融合中的关键挑战。该方法设计的几何深度补全和语义雷达PillarNet两个核心模块，实现了跨模态信息的深度互补。特别是其提出的感知交叉注意力机制，有效增强多模态特征提取的准确性。在公开数据集的结果表明，SGDet3D在复杂场景下展现出优异的检测性能，为自动驾驶环境感知系统的发展提供了新的研究思路，期待未来在此基础上能够发展出更高效、更可靠的环境感知解决方案。

本文译自：

《SGDet3D: Semantics and Geometry Fusion for 3D Object Detection Using 4D Radar and Camera》

文章来源：

IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 10, NO.1, JANUARY 2025

作者：

Xiaokai Bai1, Zhu Yu1, Lianqing Zheng2, Xiaohan Zhang1, Zili Zhou1, Xue Zhang1, Fang Wang3, Jie Bai3, and Huiliang Shen1

作者单位：

1Zhejiang University，2 Tongji University, 3 Hangzhou City University

原文链接：

https://ieeexplore.ieee.org/abstract/document/10783046

摘要：4D毫米波雷达作为自动驾驶的新兴传感器在近年来受到广泛关注。然而，现有的4D雷达和相机融合模型往往未能充分利用各模态内的互补信息，且缺乏深层的跨模态交互。为解决这些问题，我们提出了一种新颖的4D雷达和相机融合方法SGDet3D，用于3D目标检测。具体而言，我们首先引入了一个双分支融合模块，该模块采用几何深度补全和语义雷达PillarNet，以全面利用每个模态内的几何和语义信息。然后，我们引入了一个面向对象的注意力模块，该模块采用位置感知的交叉注意力机制，通过查询并关注鸟瞰图(BEV)中感兴趣的图像特征，促进模态间的深度交互。我们在TJ4DRadSet和View-of-Delft(VoD)数据集上验证了SGDet3D的性能。实验结果表明，SGDet3D能有效融合4D雷达数据和相机图像，并达到了最先进的性能水平。

关键词：相机，目标检测，雷达，传感器融合

Ⅰ引言

对周围环境的准确感知对自动驾驶至关重要[1]，[2]，其中3D目标检测是最重要的任务之一。当前的3D目标检测模型[3]通常依靠激光雷达数据获取精确的几何信息，并依靠相机获取丰富的语义信息。然而，激光雷达成本高昂且在恶劣天气条件下效果不佳[4]。作为一种经济且可靠的替代方案，4D毫米波雷达具有远距离探测、速度测量和全天候可靠性等优势[5]。此外，4D雷达还包含高程信息，与已经能提供目标距离、方位角和多普勒速度测量的3D雷达相比，能提供更高分辨率的点云，这使其在自动驾驶感知领域变得越来越具有吸引力。

尽管4D雷达硬件技术不断进步，但雷达点云的噪声和稀疏特性仍然限制了其性能[8]，这突显了雷达-相机融合的必要性。近期在跨模态融合方面的进展提高了3D目标检测的性能。这些方法要么显式地进行视角转换，要么隐式地利用注意力机制来聚合图像特征。

在显式方法中，BEVFusion[3]通过采用LSS范式[9]将图像特征展开到鸟瞰图(BEV)视角，开创了激光雷达-相机融合的先河。RCFusion[6]采用正射特征变换(OFT)[10]在预定义的3D网格中采样图像特征，实现了显著的4D雷达和相机融合效果（见图1(a)）。LXL[7]通过引入单目深度估计来支持视角转换，并参考CRN[11]通过占用预测来利用雷达空间信息，进一步改进了RCFusion（见图1(b)）。然而，这些方法没有充分利用各模态内的几何和语义信息来最优化地辅助另一分支。具体来说，它们既没有深入探索雷达数据中的几何信息来改进深度估计，也没有充分利用图像中的语义信息来实现更有效的多模态交互。

相比之下，隐式方法使用交叉注意力机制来聚合透视图图像特征。这些方法利用强大的注意力机制来识别和融合相关的语义信息。尽管像FUTR3D[12]和CRAFT[13]这样的方法采用稀疏查询进行多模态信息融合，但由于它们没有构建完整的BEV表示，因此无法实现对周围场景的完整感知。此外，查询与感兴趣标记之间的相关性相对较弱，阻碍了深层的跨模态交互。

为解决上述问题，本研究提出了一种使用4D雷达和相机的深度语义-几何融合方法用于3D目标检测（见图1(c)）。我们的方法引入了两个模块，以充分利用各模态内的互补信息并实现深层的跨模态交互。

具体而言，我们首先引入了一个双分支融合模块，通过全面利用雷达丰富的几何信息来增强图像分支，并利用图像丰富的语义信息来增强雷达分支，以实现更准确的语义-几何信息融合。然后，我们引入了一个面向对象的注意力模块，通过允许跨模态BEV查询关注感兴趣的图像标记，有效增强了特征提取，从而实现模态间的深度交互。在TJ4DRadSet[14]和View-of-Delft(VoD)[15]数据集上的实验结果表明，SGDet3D优于其他4D雷达和相机融合模型。我们的贡献可总结如下：

我们提出了一种新颖的4D雷达和相机融合方法SGDet3D，通过充分利用两种传感器的互补信息并有效进行跨模态交互来实现3D目标检测。在公开数据集上的实验表明，我们的方法达到了最先进的性能水平。
我们设计了一个双分支融合模块，包括几何深度补全(GDC)和语义雷达PillarNet(SRP)，以全面利用每个模态内的几何和语义信息。
我们设计了一个面向对象的注意力模块，采用位置感知的交叉注意力(LACA)机制，增强特征提取并实现模态间的深度交互。

图1. 4D雷达和相机融合流程的比较。(a) RCFusion[6]在鸟瞰图(BEV)空间中融合多模态雷达和图像特征。(b) LXL[7]通过引入图像深度信息并利用雷达几何信息来辅助视角转换(VT)，从而改进了RCFusion。(c) 我们的SGDet3D充分利用了各模态内的互补信息，并通过新颖的注意力机制有效实现了深层的跨模态交互。虚线表示跨模态信息的利用。图(c)中的红色虚线突出显示了LXL与我们的SGDet3D之间的差异。

Ⅱ相关工作

A. 激光雷达和雷达3D目标检测

激光雷达处理开创了点云应用先河，在3D目标检测和分割等任务中表现出良好的适应性。根据网络处理过程中点云的表示方式，基于激光雷达的3D目标检测方法可分为基于点的[16]、基于柱体的[17]和基于体素的[18]方法。尽管这些方法很有效，但激光雷达传感器成本高昂，且在恶劣天气条件下性能可能会下降。相比之下，雷达在这些条件下提供了更好的鲁棒性，且更具成本效益[4]，使其成为自动感知任务的重要替代方案。由于雷达点云的稀疏和噪声特性，基于雷达的3D目标检测方法主要使用柱状特征[19]。RPFA-Net[20]通过基于自注意力的层改进了传统的柱状特征提取，以更好地捕获上下文信息，而RadarPillarNet[6]则分别编码空间、速度和雷达截面特征，以实现更好的检测精度。SMURF[21]通过在骨干网络中添加核密度估计特征进一步提升了性能。然而，雷达点云的噪声和稀疏特性限制了其性能，这突显了雷达-相机融合的必要性。

B. 雷达-相机融合的3D目标检测

基于是否使用注意力机制来聚合图像特征，多模态3D目标检测大致可分为显式和隐式两种方法。显式方法采用LSS[9]或OFT[10]将图像特征转换到3D空间。BEVFusion[3]开创了在BEV空间中融合跨模态信息的先河，但在构建BEV特征之前并未充分利用模态特定的特征。RCFusion[6]集成了OFT来提升图像特征，但它无法区分投影射线上均等存在的图像特征。虽然LXL[7]进一步利用深度预测来区分图像特征，但未能有效利用雷达深度图来改进深度估计。CRN[11]采用LSS并利用雷达占用率来辅助图像视角转换，在BEV空间中有效利用了各模态内的互补信息。然而，它未能使用注意力机制直接聚合透视图像特征，这阻碍了语义增强。

与显式方法不同，隐式方法使用交叉注意力来聚合图像语义。BEVFormer[22]开创性地使用注意力机制从环视图像中提取信息。CRAFT[13]采用空间上下文融合转换器通过雷达测量来细化图像建议，而FUTR3D[12]使用注意力直接融合多个传感器的特征用于3D目标检测。然而，这些方法常常遇到查询难以找到对应标记的问题，这主要是由于3D到2D投影中的深度不一致等问题。尽管[23]和[24]缓解了深度维度上的不一致性，但查询与感兴趣图像标记在像素域中的相关性仍然较弱，这仍然阻碍了模态间深度交互的性能。

Ⅲ 方法

A. 概述

图2展示了我们SGDet3D的架构，它由四个模块组成，包括特征提取模块、双分支融合模块、面向对象的注意力模块和目标检测模块。

特征提取模块从原始数据中提取信息。图像编码器由ResNet50主干网络和特征金字塔网络组成。我们用表示提取的2D图像特征，其中表示通道数，表示特征分辨率。雷达编码器使用来自[6]的RadarPillarNet对4D雷达点云进行编码。它生成雷达鸟瞰图特征，表示为，其中表示鸟瞰图空间分辨率。在后续模块中，我们保持透视图和鸟瞰图的特征维度分别与和保持一致。

在双分支融合模块中，我们首先设计了几何深度补全(GDC)模块，通过深度补全提高深度图的准确性，以充分利用雷达数据中的几何信息来增强图像分支。然后，我们开发了语义雷达PillarNet(SRP)，通过在雷达坐标系下准确定位3D空间中的图像特征，为雷达分支整合语义信息。

在面向对象的注意力模块中，我们采用位置感知交叉注意力(LACA)机制，在3D特征空间中显式定位目标，并在注意力机制中实现BEV查询与感兴趣图像标记之间的深度跨模态交互。对于目标检测模块，我们采用与PointPillars[17]相同的检测头。

图2. 我们的SGDet3D神经网络架构。(a) 特征提取模块提取雷达和图像特征。(b) 双分支融合模块充分利用丰富的雷达几何信息来增强图像分支，利用丰富的图像语义信息来增强雷达分支，最终将特征提升到统一的BEV空间。(c) 面向对象的注意力模块使用交叉注意力机制，通过与感兴趣的图像标记进行深度交互，进一步增强跨模态BEV查询的特征化。(d) 目标检测头。虚线表示跨模态信息的深度利用。

B. 双分支融合模块

通过我们精心设计的图像分支几何深度补全(GDC)和雷达分支语义雷达PillarNet(SRP)，我们充分利用了各模态内的互补信息，最终获得了一个全面的雷达-相机鸟瞰图(RC-BEV)特征。图像特征首先通过上下文网络处理，生成上下文特征和透视图前景分割掩码。然后，和雷达深度被输入到GDC中。

图像分支的GDC：如图3(a)所示，GDC使用邻域交叉注意力[27]实现特征交互，获得离散深度概率。这里，表示预定义的离散化深度数量。与BEVDepth[28]和CGFormer[29]类似，我们使用预测深度和真实激光雷达深度之间的Kullback-Leibler散度损失表示为，来监督深度估计。受[30]启发，我们通过将损失与中指示的前景概率相乘来自适应地关注前景区域，从而产生深度损失。

其中和分别表示深度预测值和来自激光雷达的深度标签，表示聚焦权重。对于前景掩码的生成，我们使用二元交叉熵损失进行监督，可以表示为：

其中和分别是来自Detectron2[31]的处理结果和真实2D边界框掩码。随后，我们参照[9]对和的外积进行体素池化，以生成具有几何感知的图像鸟瞰图特征。

雷达分支的SRP：4D雷达数据缺乏语义信息阻碍了其目标检测能力。OFT[10]可以集成图像特征来辅助雷达分支，但它无法区分投影射线上均等存在的图像特征。这个限制导致语义信息使用不当。受[7]，[23]启发，我们设计了如图3(b)所示的SRP模块，以全面利用几何和语义信息。

具体来说，SRP在雷达坐标系下生成一组预定义的体素，以及位于其中心的虚拟点。这里，是高度维度上的体素数量，。对于第个点，我们使用外参和内参将其投影到透视图中，以获得像素索引和离散深度区间索引。我们使用检索上下文特征并获得相应的图像特征。检索到的特征随后用于装饰，得到。第个点的装饰特征表示为。

我们注意到，上述处理可能导致单个特征对应投影射线上的多个3D点。为了建立正确的上下文-点映射关系，我们使用从我们的GDC中检索改进的深度预测，产生从像素发出的射线上的概率分布。因此，通过在中索引，可以获得第个点对应上下文的正确映射概率。通过表示概率，我们通过重新加权来定位3D空间中的。

因此，我们有效地利用GDC的精确深度来准确定位3D空间中的丰富语义信息。然后，我们将整合这些图像特征来辅助雷达分支。我们首先将从点的形式重塑为规则张量，以便应用我们的柱状压缩模块和后续卷积。柱状压缩模块由多层感知器组成，旨在减少高度维度并生成具有丰富语义的鸟瞰图特征。然后从鸟瞰图特征和雷达鸟瞰图中获得具有语义感知的雷达鸟瞰图特征，表示为：

其中conv和concat分别表示卷积和串联操作，MLP表示多层感知器。

图3. 我们的GDC和SRP模块示意图。(a) GDC利用雷达数据中的几何信息来改进深度估计[25]，[26]。(b) SRP利用来自GDC的深度信息，在3D空间中准确定位丰富的语义信息，以整合语义信息。

C. 面向对象的注意力模块

在我们的面向对象的注意力模块中（见图4），我们创建了一个判别性的标记空间，加强了BEV查询与感兴趣图像标记之间的相关性，从而促进深层的跨模态交互。

面向对象的3D特征空间创建：为了加强BEV查询与感兴趣图像标记之间的相关性，我们利用分割掩码和估计深度来在3D特征空间中显式定位目标。如图4(a)所示，我们使用深度概率进行深度定位，使用前景掩码进行像素定位。我们首先通过和之间的外积来扩展的维度，以在深度维度上定位目标对象，生成。然后我们对和进行点积运算，其中是通过在深度维度上扩展获得的，以在像素域中定位目标对象。上述面向对象的3D特征计算可以表示为：

位置感知交叉注意力：如图4(b)所示，LACA旨在通过利用中的判别信息来获得增强的BEV特征。与应用于纯视觉任务的[23]不同，我们从跨模态RC-BEV初始化查询，该RC-BEV是通过[6]中的融合模块将和融合而成。然后我们参照[22]将BEV平面上的每个查询提升为一个柱体，并从柱体中采样3D参考点。随后，LACA将预定义的3D锚点作为3D查询，将3D特征图扩展为3D键和值，并通过将这些点投影到特征空间来在3D像素坐标系中执行可变形注意力。具体来说，对于位于的3D查询，我们通过3D可变形交叉注意力机制获得优化后的查询。

其中表示从总共个点中采样的点的索引，表示相机投影函数，用于获取3D像素空间中的参考点，是可学习的注意力权重，表示投影权重。表示相对于参考点的预测偏移量，表示用于在3D特征空间中采样特征的三线性插值。与[24]中的单目深度估计相比，我们的GDC整合了雷达深度进行深度补全，使得在目标内部沿深度维度的注意力聚合更加有效。此外，引入掩码通过区分像素域中的语义进一步增强了特征表示。因此，我们获得了用于检测头的增强RC-BEV特征。

图4. 我们的面向对象注意力模块示意图。我们首先利用分割掩码和估计深度，通过像素定位和深度定位在面向对象的3D特征空间中显式定位目标，如左侧虚线所示。然后，我们采用位置感知交叉注意力(LACA)来辅助将感兴趣的语义信息聚合到增强的RC-BEV特征中。

D. 损失函数

除了[6]中的检测损失之外，我们还使用深度损失和透视图前景分割损失来监督我们的模型。总损失表示为：

其中超参数和分别用于平衡深度损失和分割损失。在本研究中，我们设置。

Ⅳ 实验

A. 实现细节

数据集：VoD[15]和TJ4DRadSet[14]数据集包含同步的图像、激光雷达数据和4D雷达数据，以及汽车、行人和骑自行车者的3D标注。VoD数据集分为5139帧训练数据和1296帧验证数据。TJ4DRadSet包含7757帧，额外包含卡车的标注，覆盖各种驾驶场景，我们将数据集分为5717帧训练数据和2040帧测试数据。

评估指标：对于VoD数据集，根据官方建议，我们使用两个指标：整个标注区域的3D AP（表示为）和驾驶走廊的3D AP（表示为）。对于，所有标注都用于评估，不考虑距离。对于，我们只考虑相机坐标系中特定区域内的标注。在AP计算中，骑自行车者和行人的交并比(IoU)阈值设为0.25，汽车设为0.5。IoU阈值用于确定正负样本。对于TJ4DRadset数据集，对雷达源70米范围内的目标评估3D AP（表示为）和BEV AP（表示为），IoU阈值与VoD数据集一致，额外的卡车类别IoU阈值为0.5。

网络设置：对于VoD数据集，体素边界在、、轴分别限制在(0, 51.2)米、(-25.6, 25.6)米和(-3, 2.76)米。对于TJ4DRadSet数据集，体素边界在、、轴分别限制在(0, 69.12)米、(-39.68, 39.68)米和(-4, 2)米。此外，每个体素是边长为0.16米的立方体。VoD的图像尺寸处理为896×1408，TJ4DRadSet处理为480×640，离散化深度区间数量VoD设为56，TJ4DRadSet设为72。两个数据集的锚框大小与[6]中保持一致。由于TJ4DRadSet未发布激光雷达数据，我们使用雷达深度图作为深度标签。

训练细节：我们基于MMDetection3D框架实现模型。模型在4个NVIDIA GeForce RTX 4090 GPU上训练，每个GPU的批量大小为2。我们的训练过程分为两个阶段。首先，我们分别训练用于深度估计的图像分支和用于3D目标检测的雷达分支。图像分支继承了按照[6]在COCO和KITTI数据集上预训练的模型权重，而雷达分支权重从头开始训练。其次，我们使用上述流程继承的权重训练我们的SGDet3D方法。在融合训练期间，我们使用AdamW优化器，初始学习率为1e-4，总共训练12个周期。

B. 3D目标检测结果

VoD数据集结果：表I展示了VoD数据集[15]验证集上的3D目标检测结果。骑自行车者类别的检测性能在所有模型中保持一致良好。这可能是因为数据集中大多数骑自行车者都在运动，使雷达能够测量这些目标的径向多普勒速度，这对纯雷达和多模态方法都有益。因此，雷达对运动物体表现出更高的敏感度，即使在单模态设置下也能获得稳健的检测结果。此外，和之间的差异表明雷达对较近物体表现出更优的检测性能，因为这些物体提供了更高密度的检测点。

此外，整体实验结果表明我们的方法在几乎所有指标上都优于其他方法。与最新的LXL[7]相比，我们取得了更好的结果，达到59.43%，达到76.60%。特别是对于汽车类别，我们的SGDet3D在两个主要指标上大幅超越LXL。这种改进可归因于汽车上较多的雷达点，这提供了更多投影到图像上的参考点，允许更精确的深度估计和更丰富的语义信息捕获。骑自行车者类别略差的性能可能是由于图像特征融合后偶尔与行人发生错误分类，这可能是因为自行车融入背景而骑车者被误认为行人。在推理速度方面，我们的SGDet3D达到9.2 FPS，与其他方法相比，在没有专门的代码优化的情况下提供了准实时检测和更优的性能。VoD数据集的可视化结果展示在图5的第一行。

TJ4DRadSet数据集结果：与VoD相比，TJ4DRadSet由于包含复杂场景（如夜间环境、桥下区域和相机失焦情况）而带来更大挑战。TJ4DRadSet增加了卡车类别，且该类别中目标尺寸变化很大，进一步增加了检测难度。尽管存在这些挑战，SGDet3D在两个主要指标和上显著优于其他方法。如表II所示，与表现第二好的方法LXL[7]相比，SGDet3D表现出巨大改进，达到42.10%，达到47.45%。与VoD上观察到的结果一致，我们的方法在大尺寸类别（即汽车和卡车）上显示出最显著的改进。此外，ImVoxelNet[33]的检测结果表明，尽管相机提供了丰富的语义信息，但缺乏深度信息导致性能欠佳。这些结果证明了我们的SGDet3D在融合4D雷达和相机信息进行3D目标检测方面的有效性，即使在具有挑战性的光照条件下也是如此。TJ4DRadSet数据集的可视化结果展示在图5的第二行。

表I SGDet3D在VOD[15]验证集上最先进方法的比较

表II SGDet3D在TJ4DRADSET[14]测试集上最先进方法的比较

图5. VoD验证集（第一行）和TJ4DRadSet测试集（第二行）的一些可视化结果。每张图对应一帧包含图像和雷达点（灰色）的数据，红色三角形标记自车位置。橙色和黄色框分别表示透视图和鸟瞰图中的真实标注。绿色和蓝色框表示SGDet3D的预测边界框，左下角显示BEV特征图可视化。图(a)、(b)和(c)分别展示了SGDet3D在VoD数据集上对汽车、骑自行车者和行人的检测性能。图(d)、(e)和(f)展示了SGDet3D在TJ4DRadSet复杂环境（如低光照夜间条件和失焦场景）中的鲁棒性。建议放大查看细节。

C. 消融研究

所有消融实验都在VoD验证集上进行，仅使用一半的训练周期。总体消融结果总结在表III中。观察发现，SRP通过充分利用图像中丰富的语义信息来辅助雷达分支，提高了和。GDC通过充分利用雷达数据中的几何信息和透视图前景分割掩码进行自适应深度估计，进一步提升了两个指标的性能。最后，我们设计的LACA有效促进了感兴趣图像语义的聚合，实现更深层的跨模态交互，带来性能提升。此外，我们分析了深度标签的影响。表IV显示使用额外的激光雷达数据获得了最佳性能。同时也可以观察到，仅使用雷达数据进行深度估计监督的性能也超过了LXL[7]（见表I），证明了我们模型的优越性。

LACA的有效性：我们通过探索像素定位和深度定位机制来研究LACA的效果。如表V所示，像素定位始终有助于聚合感兴趣的语义信息。然而，使用深度估计在3D特征空间的深度维度上定位目标的深度定位，可能会由于单目深度预测结果不佳而影响检测性能。通过比较设置3和设置4，我们观察到引入雷达数据的几何信息来增强深度估计在和上带来了显著的性能提升。这表明只有与GDC结合，我们的LACA才能最大化其在深度维度上的信息聚合效果，验证了GDC的重要性。最终，通过结合两种定位，我们创建了一个判别性的标记空间，加强了BEV查询与感兴趣图像标记之间的相关性，导致两个指标的性能提升。

SRP的有效性：我们从两个方面评估SRP。首先，我们研究SRP是否利用丰富的上下文特征来装饰虚拟点，从而辅助雷达分支。其次，我们评估SRP是否通过重新加权特征来准确定位3D空间中的丰富语义。如表VI所示，装饰操作通过整合语义有效地辅助了雷达分支，导致两个指标的性能提升。此外，SRP通过使用重新加权操作正确区分投影射线上均等存在的图像特征，进一步提高了驾驶走廊内的检测性能（用表示），这对精确融合至关重要。在整个标注区域的mAP（用表示）上改进有限可能是由于远距离区域的深度估计困难。

GDC的有效性：我们在完整的SGDet3D网络中对(1)式中的聚焦权重进行消融研究。如表VII所示，随着增加，真实边界框内的深度损失降低，这可能是由于对前景区域施加了更强的惩罚。然而，由于对其他区域的关注相对较弱，总损失先减少后增加。检测性能遵循相同的趋势，这表明在前景区域和整体场景之间找到平衡对实现最佳检测性能至关重要。在实验中，我们根据表VII的发现设置。

表III 在VOD数据集上对SGDet3D各组件的消融研究

表IV 用于监督深度预测的深度标签的消融研究

表V 在VOD数据集上对LACA的消融研究

表VI 在VOD数据集上对SRP的消融研究

表VII VOD数据集上GDC中焦点权重的消融研究

Ⅴ 结论

在本研究中，我们提出了一种用于3D目标检测的4D雷达和相机融合方法SGDet3D。我们的方法充分利用了各模态内的语义-几何信息，并促进了深层的跨模态交互。在相关数据集上的实验结果表明，SGDet3D能有效融合4D雷达数据和相机图像，并达到了最先进的性能水平。

局限性：尽管SGDet3D很有效，但其推理速度有限，且缺乏时序信息。未来的工作将聚焦于这些问题，并探索多视图图像以提高感知准确性和鲁棒性。

参考文献

来源：同济智能汽车研究所