分享好友 资讯首页 频道列表

自动驾驶中基于深度学习的雷达与视觉融合用于三维物体检测综述

2025-04-11 10:25

编者按:在自动驾驶不断迈向高阶智能的进程中,4D雷达以其全天候感知能力日益成为关键传感器。本文提出的MAFF-Net,针对4D雷达点云稀疏、噪声大、几何信息不足等难题,创新性地引入稀疏柱体注意力、聚类查询交叉注意力及柱面去噪辅助模块,构建多辅助特征融合网络,实现高精度、实时性的3D目标检测。大量实验证明,MAFF-Net在多个主流数据集上均超越现有方法,甚至优于16线激光雷达,展示出强大的泛化能力与应用潜力。该成果为推动雷达主导的智能感知系统发展提供了坚实支撑。

本文译自:

《MAFF-Net: Enhancing 3D Object Detection with 4D Radar via Multi-Assist Feature Fusion》

文章来源:


IEEE Robotics and Automation Letters, vol. 10, no. 5, pp. 4284-4291, May 2025.


作者:

X. Bi, C. Weng, P. Tong, B. Fan and A. Eichberge

作者单位:

同济大学

原文链接:

https://ieeexplore.ieee.org/document/10923711


摘要:感知系统对于自动驾驶汽车的安全运行至关重要,尤其是在三维物体检测方面。尽管基于激光雷达的方法会受到恶劣天气条件的限制,但 4D 雷达具有全天候工作的潜力。然而,4D 雷达在点云中存在极端稀疏、噪声大以及几何信息有限等挑战。为了解决这些问题,我们提出了 MAFF-Net,这是一种专门用于仅使用单个 4D 雷达进行三维物体检测的新型多辅助特征融合网络。我们引入了稀疏柱状注意力(SPA)模块,以减轻稀疏性的影响,同时确保足够的感受野。此外,我们设计了簇查询交叉注意力(CQCA)模块,在交叉注意力融合过程中使用基于速度的聚类特征作为查询。这有助于网络丰富潜在物体的特征表示,同时减少由角度分辨率和多径效应引起的测量误差。此外,我们开发了圆柱去噪辅助(CDA)模块以减少噪声干扰,提高三维边界框预测的准确性。在 VoD 和 TJ4DRadSet 数据集上进行的实验表明,MAFF-Net 达到了最先进的性能,优于 16 层激光雷达系统,并且运行速度超过每秒 17.9 帧,使其适用于自动驾驶汽车中的实时检测。

关键词:目标检测,自动驾驶导航,4D 雷达,点云,深度学习方法

Ⅰ 简介

目前,自动驾驶汽车作为一种能够提升驾驶安全性和效率的变革性交通工具已崭露头角[1]。为了成功避开障碍物并预防交通事故,作为自动驾驶感知系统核心模块的三维物体检测技术因能提供全面的场景理解而得到了迅速发展[2]。然而,在极端天气条件下,涉及自动驾驶汽车的交通事故仍在不断增多。这些条件凸显了3D物体检测有效性方面持续存在的挑战[3]。光学传感器,如激光雷达和摄像头,在恶劣天气条件下特别容易受到影响,导致检测性能显著下降。在此背景下,利用电磁波工作的雷达在自动驾驶汽车感知系统中越来越受到关注,这得益于其成本效益高、全天候可操作性强以及精确测速的能力。特别是随着高分辨率4D雷达传感器的出现,雷达已成为在恶劣天气条件下实现可靠3D物体检测的有前景的解决方案。

4D雷达数据格式大致可分为4D张量[4]和点云[5]、[6]。由于点云格式具有紧凑的表示形式和高效的处理能力,它们已成为自动驾驶汽车中实时3D物体检测的首选。此外,4D雷达点云数据与激光雷达的相似性使得原本为激光雷达开发的深度学习方法可以直接应用于4D雷达[7]、[8]。然而,如图1所示,4D雷达点云比激光雷达点云稀疏得多,在相同视场内,点的数量仅为激光雷达的约1%,并且存在大量噪声,主要是由于斑点噪声和多径反射[9]。因此,直接将基于激光雷达的3D物体检测方法应用于4D雷达数据通常效果不佳。尽管最近的方法,如SMURF[10]、RadarPillars[11]和MUFASA[12]提出了有前景的方法来缩小这一差距,但它们的检测性能仍不尽如人意。

为应对这些挑战,我们深入研究了4D雷达点云数据的特征,并提出了一种多辅助特征融合网络(MAFFNet),这是一种专门针对4D雷达数据的3D物体检测网络。MAFF-Net旨在高效且准确地检测稀疏且有噪声的4D雷达点云中的3D物体。我们的贡献可总结如下:

我们提出了一种稀疏柱注意力(SPA)模块,该模块通过将稀疏柱与嵌入特征进行交互来提取全局特征,在保证足够感受野的同时,保持了效率和实时性能。

我们设计了一种集群查询交叉注意力(CQCA)模块,该模块利用由空间和速度信息聚类形成的特征图作为交叉注意力融合中的查询,从而提高了目标检测性能并减轻了噪声影响。

我们引入了一个圆柱形去噪辅助(CDA)模块,该模块通过结合圆柱形约束和提议的位置信息有效地聚合特征,进一步减少了噪声干扰。

实验结果表明,我们的MAFF-Net超过了现有的最先进的4D雷达3D物体检测方法,展现出强大的泛化能力,并满足了自动驾驶汽车的实时检测要求。

图片

图1:来自代尔夫特视图(VoD)数据集的4D雷达和激光雷达点云的比较[5]。第一列显示场景图像,第二列显示激光雷达点,第三列展示单扫描4D雷达点


Ⅱ 相关作品


A.基于摄像头的三维物体检测

在近期的研究中,基于相机的三维物体检测得到了广泛的研究。特别是“提升、投影、射击”(LSS)[13]框架的引入,将多视角信息统一到鸟瞰图(BEV)中,显著提升了基于相机的三维物体检测性能。此外,受DETR[14]和可变形DETR[15]的启发,基于Transformer的方法也逐渐崭露头角[16]。这些方法通常采用Swin Transformer [17]作为特征提取的骨干网络,利用注意力[18]机制实现有效的全局特征交互,从而提高检测性能。特别是最近引入的RoPE-2D[19]进一步增强了特征提取过程中的位置信息建模。基于这些见解,我们将这些技术应用于点云的BEV特征图,以实现有效的全局特征交互并扩大感受野,从而提高检测精度。然而,由于深度估计的不确定性,基于相机图像的三维物体检测性能仍然有限[20]。

B.利用激光雷达的三维物体检测

由于在深度估计方面的准确性,基于激光雷达的三维物体检测方法已在自动驾驶汽车感知任务中得到广泛应用。这些方法主要可以分为三种:基于点的方法[21]、基于体素的方法[8]、[22]以及点-体素混合方法[23]。基于体素的方法因其出色的实时性能而在工业界得到了广泛应用。然而,点-体素混合方法在精度和效率之间取得了更好的平衡,提供了一种更优的解决方案。尽管这些方法显著提升了基于激光雷达的三维物体检测性能,但在恶劣天气条件下的局限性仍然存在,这引发了人们对自动驾驶汽车系统整体安全性的担忧。

C.利用4D雷达的3D物体检测

雷达已成为自动驾驶汽车中不可或缺的传感器,因其成本低、探测距离远、能测量多普勒速度以及在恶劣天气下仍表现稳健而备受重视,支持诸如分割[24]、[25]、检测,尤其是三维物体检测等任务。四维雷达能提供更密集的点云和高度信息,使其作用不再仅仅是多模态三维物体检测框架中的辅助模式。

诸如TJ4DRadSet[6]和VoD[5]等自动驾驶汽车数据集极大地推动了基于4D雷达的3D物体检测的发展。这些数据集使用最初为激光雷达设计的3D物体检测网络(如SECOND[7]和PointPillars[8])设定了基准,证明了基于体素的方法在4D雷达上的有效性。然而,4D雷达点云比激光雷达点云更稀疏且更嘈杂,这使得准确捕捉物体几何形状尤为困难,并导致检测性能降低。为了弥补这一差距,研究人员正在探索各种方法来增强4D雷达特征。例如,SMURF[10]集成了一个核密度估计分支,通过减少测量误差来缓解稀疏性和噪声问题。RadarPillars[11]利用速度特征并引入PillarAttention来处理稀疏数据,从而提高检测性能。MUFASA[12]利用GeoSPA和DEMVA来捕捉每个雷达点云帧内的复杂局部和全局信息,从而提升特征提取性能。

此外,将4D雷达与其他传感器(如摄像头)集成对于3D物体检测至关重要。无论是通过鸟瞰图融合[20]、[26]还是多阶段深度融合[27],4D雷达分支的性能直接影响融合系统的有效性。特别是在其他传感器可能失效的恶劣天气条件下,4D雷达的性能对于保持系统的稳健性至关重要。需要进一步努力从4D雷达数据中分析和提取有意义的特征,以实现更准确的3D边界框预测。本研究旨在开发一种新颖的方法,优化从稀疏4D雷达点云中提取特征的过程,同时最大限度地减少噪声。


Ⅲ 所提出方法


如图2所示,所提出的MAFF-Net架构从单个4D雷达点云中预测3D边界框。MAFF-Net由三个部分组成:主分支、辅助分支和检测头。在主分支中,我们对使用基于柱的方法[8]从原始点云生成的BEV特征应用稀疏柱注意力(SPA),以确保全局交互和足够的感受野。辅助分支引入了聚类查询交叉注意力(CQCA),利用聚类特征辅助(CFA)生成用于交叉注意力融合(CAF)的BEV查询,这有助于减少噪声并识别潜在对象。我们还设计了圆柱去噪辅助(CDA),这是一种受圆柱约束启发的采样策略,利用提议的位置信息过滤噪声和背景点。最后,融合的BEV特征与关键点位置处的聚类点云特征聚合,多任务检测头预测3D边界框。

图片

图2:所提出的用于三维物体检测的MAFF-Net总体框架

A.稀疏柱体注意力(SPA)

由柱状特征编码生成的二维伪图像(即柱状BEV特征)的稀疏特性导致有效特征数量有限。尽管多级下采样能够改善全局信息整合以提升目标检测效果,但其存在丢失小目标细节的风险。为此,提出稀疏柱状注意力(SPA)模块(图3),该模块利用柱状特征的局部稀疏性,并融合旋转位置编码(RoPE)以增强空间感知能力。

具体而言,首先通过统一体素尺寸的柱状变换,将稀疏且不规则的点云转换为结构化柱状BEV特征。非空柱体基于几何关系扩展特征后,聚合为局部二维张量。为增强空间感知并支持数据增强,将RoPE嵌入BEV特征图的二维空间域中。RoPE通过可学习的缩放因子沿通道维度编码位置信息,其公式如下:

图片

其中表示信道数的一半,表示信道索引,其范围为

然后,在鸟瞰图特征图的空间域内生成标准化的二维网格坐标。我们对特征图的每个坐标应用旋转编码,沿通道维度C将特征进行分割分为两部分,分别记作。由此得出的RoPE公式如下:

图片图片

图3:SPA模块的结构

为了提高计算效率,采用一个稀疏掩码来捕捉非空特征。这些非空特征是通过将RoPE加到柱状BEV特征的展平结果上,再应用稀疏掩码获得的。这种方法降低了提取BEV特征图的计算复杂度,从降低到了

随后,应用标准的自注意力机制来学习关键、查询和值,因为自注意力机制能够有效地捕捉长程依赖关系,从而丰富特征表示。最后,通过稀疏掩码索引和重塑来恢复柱状BEV特征

B.聚类查询交叉注意力(CQCA)

为解决4D雷达点云中的噪声和异常值问题,我们设计了聚类查询交叉注意力(CQCA)模块,如图4所示,用于过滤干扰点并帮助网络学习有效的物体位置。该模块包括聚类特征辅助(CFA)和交叉注意力融合(CAF)。

图片

图4:CQCA模块的图示说明

在关键特征提取CFA中,我们首先从原始雷达点云中提取三个关键特征()用于目标检测:,其中表示目标的绝对径向速度。选择这些特征的原因在于其能够有效聚类目标并去除噪声点。相较于雷达散射截面积RCS的不稳定性,在聚类任务中更具实用性。由于雷达点云通常聚集在目标周围,我们设计了一种基于增长的聚类算法GCA,其原理类似于DBSCAN,通过鸟瞰图BEV平面坐标对点云进行聚类。GCA的核心改进在于引入对聚类点进行过滤,因为同一聚类内的点通常具有一致的速度。在DBSCAN中,参数Eps定义搜索半径,MinPts指定形成聚类所需的最小点数,而本方法基于4D雷达的角分辨率与点云密度动态调整这些参数。此外,我们抑制大型聚类以消除建筑物或围栏等静态物体产生的冗余点云。

最终,GCA的输出结合了各聚类的点数、类别标签及三个关键特征,生成新点云,其中五个维度分别对应聚类规模、类别标签及特征。该表征随后被投影至尺寸为的BEV地图中,经过二维卷积层Conv2D、批量归一化BN及ReLU激活函数CBR的多级处理后,生成与柱状BEV特征张量尺寸一致的聚类BEV特征。上述CFA流程可通过以下公式表示:

图片

其中Cat表示连接操作。

在交叉注意力融合(CAF)模块中,受ICAFusion启发,通过CAF机制融合柱状BEV特征与聚类BEV特征。其中,聚类BEV特征通过噪声抑制与目标区域增强,生成扁平化特征向量作为注意力查询;而柱状BEV特征对应的扁平化特征向量则作为关键与值。通过标准注意力机制,模型学习可训练权重(训练初始值设为1),引导网络聚焦于关键特征区域。随后,将融合后的特征向量重构为BEV特征图,并引入压缩激励层(SE)强化对融合特征的通道注意力。最终,将SE层处理后的特征图与聚类BEV特征拼接(Cat),经CBR模块处理得到融合BEV特征。该过程可形式化表示为下述方程:

图片

其中是中间计算向量。

最后,在对融合的BEV特征进行处理后,采用二维骨干网络和区域建议网络(RPN)生成三维建议。具体来说,与PointPillars中使用的RPN类似,利用多尺度特征融合模块和2D检测头来生成高质量的3D建议。

C.柱面去噪辅助(CDA)

考虑到交通场景的多样性,将整个场景采样为关键点以优化融合后的鸟瞰图特征。然而,由于斑点和多径反射,4D雷达检测到许多噪声点,这些点对于特征表示和目标检测几乎没有实际意义。因此,提出一种圆柱形去噪辅助(CDA)模块,它在采样空间施加圆柱形约束,从而在3D物体周围生成关键点,有效提升了特征表示的质量。

在CDA模块中,我们输入聚类点云的3D坐标以及3D体义,其中表示3D中心坐标,而分别代表3D体义的长度、宽度和高度。接下来,如图5(a)所示,我们将坐标转换到每个3D提议的中心,并使用圆柱体拟合3D物体的空间,具体如下:

图片

其中分别表示圆柱体的半径和高度,而表示提议的最大扩展比例的超数。

由于圆柱形的三维空间区域包含了三维提议,因此我们可以直接从聚类点云中选择圆柱体内的所有点作为关键点,使用如下简单的条件公式:

图片

其中。如图5(b)所示,我们利用圆柱体从聚类后的点云中获取了一定数量的去噪关键点。然而,为了实现满足固定总数的均匀采样,我们从原始点中采样剩余的个关键点。剩余的关键点通过最远点采样算法进行采样。在图5(c)中,我们展示了球形去噪辅助(SDA)的范围更大,但可能包含不相关的点,这可能会妨碍有效的去噪。消融研究证实了这一点,突显了该方法的优越性。

通过排除噪声点,CDA策略能获取更多属于3D物体的关键点。通过点柱集抽象,在关键点位置聚合来自聚类点云和融合的BEV特征的信息,然后沿通道维度连接这些特征以生成柱点特征。这种特征结合了基于体素和基于点的方法的优势,能够实现高质量的3D物体检测。最后,我们将基于RPN的3D提议与通过RoI网格池化操作获得的柱点特征一起输入到检测头中。

图片

图5:不同去噪策略下的关键点采样示意图:(a)去噪前的关键点;(b)CDA去噪后关键点;(c)SDA去噪后关键点

D.检测头

在CDA模块之后,采用ROIHead来进行精确的3D边界框预测。这些预测包括诸如方向角、三维尺寸(宽度、长度和高度)、中心点以及置信度得分等关键要素。MAFF-Net旨在基于这些预测的3D边界框生成分类得分。检测头由两个主要部分组成:分类损失  和回归损失  。为了平衡网络内正负样本的分布,我们在检测器的损失计算中应用了焦点损失的一种变体。回归损失  则通过平滑  损失来计算。最后,我们MAFF-Net的整体损失函数可以定义为:

图片


Ⅳ 实验与分析


A.数据集和评估指标

我们使用流行的VoD[5]和TJ4DRadSet[6]数据集评估了我们方法的性能,这两个数据集均提供点云格式的4D雷达数据。

VoD[5]数据集提供了三种类型的4D雷达点云:单扫描、三扫描和五扫描。我们使用五扫描数据来检测三类对象:汽车、行人和骑自行车的人。按照VoD评估脚本,我们分析了整个标注区域和驾驶走廊。整个标注区域涵盖了相机视场内50米范围内所有标注的对象,而驾驶走廊仅关注与车辆行驶路径相关的目标。评估指标包括每类对象的3D平均精度()、平均3DAP()和平均BEVAP()。交并比(IoU)阈值分别为:汽车0.5,行人和骑自行车的人0.25。

TJ4DRadSet[6]数据集为开放高速公路场景中较远距离的物体提供了3D边界框标注。其评估指标与VoD数据集类似,但允许根据传感器距离指定评估区域。我们重点关注雷达70米范围内的物体,对于汽车和卡车,交并比(IoU)阈值设为0.5,对于行人和骑自行车者设为0.25。

B.实验设置

我们使用基于PyTorch的开源3D检测工具箱OpenPCDet[37]构建了我们的MAFF-Net模型。

超参数设置:对于VoD数据集,4D雷达点云的范围为[0,51.2]米、[-25.6,25.6]米和[-3,2]米,而TJ4DRadSet数据集的范围为[0,69.12]米、[-39.68,39.68]米和[-4,2]米。在这两个数据集中,每个柱体覆盖0.16平方米,每个柱体最多支持16个点。

在我们的MAFF-Net模型中,所有模块的C和E均设为64。对于CDA,VoD数据集的最大扩展半径为2米,TJ4DRadSet数据集为2.5米。在CQCA中,Eps和MinPts根据雷达性能进行调整。对于VoD数据集,Eps为0.4米,MinPts为10个点;而对于TJ4DRadSet数据集,Eps为2米,MinPts为4个点。BEV特征图的分辨率由4D雷达点云的稀疏特性决定,以平衡物体大小和精度。对于VoD数据集,其设置为320×320,而对于TJ4DRadSet数据集,则为496×432。

此外,在CQCA中由RPN生成的3D提议中,我们以正负提议1:1的比例随机抽取了128个提议。在CDA中,采样的关键点总数设为1024。

训练详情:我们在一台配备Intel Corei9-13900K处理器、64GB内存和NVIDIA RTX4090 24GB显卡的Ubuntu22.04服务器上使用PyTorch1.10.1框架实现了该模型。训练过程历经60个周期,批量大小为4,采用Adam优化器,学习率为0.01,并使用余弦退火学习率衰减策略。推理速度的测量是在批量大小为1、单个NVIDIA RTX 4090 显卡以及FP16精度下进行的。

我们采用了数据增强方法,包括随机轴翻转(50%的概率)、全局缩放(0.95至1.05)以及随机轴旋转(±0.7854π弧度)。

C.与最新技术水平的比较

视频点播结果。在表1中,我们在视频点播验证集上将MAFF-Net与现有方法进行了比较。MAFF-Net超过了当前的最先进方法,确立了新的基准。MAFF-Net在整个标注区域的指标分别提高了3.62%和1.60%。在驾驶走廊中,这些指标的提升分别为2.00%和1.93%。值得注意的是,MAFF-Net在检测行人等小物体方面表现出色,平均精度(AP)至少提高了4.64%。这些结果表明MAFFNet能够从稀疏点云中提取物体特征并提高检测精度。此外,结果还表明PV-RCNN(V)优于PV-RCNN(PP),这表明基于Pillar的骨干网络比基于Voxel的骨干网络在从4D雷达点云中提取特征方面更有效。为了进一步说明MAFF-Net的突破性性能及其对自动驾驶的潜在意义,我们将其与基于LiDAR的3D物体检测方法进行了比较。如表3所示,我们采用PointPillars作为LiDAR方法的基准,因为它构成了我们方法的基础。在实验中,我们对来自VoD数据集的64层LiDAR数据进行了下采样。

表1:在VoD[5]验证集上与最先进的方法的比较

图片

PV-RCNN(V)和PV-RCNN(PP)分别使用SECOND[7]和PointPillars[8]作为骨干网络。‡符号表示基线模型,而⋆表示从参考来源得出的推理速度。最佳值以粗体显示。

表2:在TJ4DRadSet[6]测试集上与最先进的方法进行的比较

图片

PV-RCNN(V)和PV-RCNN(PP)分别使用SECOND[7]和PointPillars[8]作为骨干网络。‡符号表示基线模型,而⋆表示从参考来源得出的推理速度。最佳值以粗体显示。

表3:4D雷达与LiDAR在VoD[5]验证集上的结果对比

图片

表示模态,表示激光雷达,表示4D雷达,Spe表示规格。输入点数指的是在相同视场内从激光雷达和4D雷达输入到模型中的点的数量。

将其分别缩减为32层、16层和8层版本进行评估。结果表明,即使输入点更少,MAFF-Net仍能使4D雷达在检测精度上优于16层激光雷达。因此,随着4D雷达技术的进步,它有可能成为自动驾驶汽车中3D物体检测的主要传感器。

TJ4DRadSet结果:为了进一步验证MAFF-Net的有效性和泛化能力,我们在TJ4DRadSet数据集上训练了该模型,测试集上的结果见表2。实验结果表明,MAFF-Net的比最先进的方法高出2.39%。对于,MAFFNet达到41.59%,创造了新的最先进性能。

最后,为了评估MAFF-Net在自动驾驶中实时目标检测的潜力,我们在VoD和TJ4DRadSet数据集上对其推理速度进行了评估。结果表明,MAFF-Net实现了最低17.9帧每秒(FPS)的推理速度,超过了4D雷达数据采集率(约15FPS)。此外,由于10FPS的帧率通常足以满足实时应用的需求[36],这些结果证实了MAFF-Net满足实时目标检测的要求。

D.消融研究

为了验证MAFF-Net中每个模块的有效性,我们在VoD验证集和TJ4DRadSet测试集上进行了消融实验,专门分析了SPA、CQCA和CDA模块的贡献。

MAFF-Net在PV-RCNN[23]的基础上,通过整合第二部分所述的几个关键模块得以构建。以PV-RCNN(PP)作为基准模型,表4显示,每个模块都显著提升了整个标注区域和驾驶走廊的网络性能,尤其是在指标上,各类别的表现均有提升。值得注意的是,SPA和CQCA模块极大地提高了对行人和骑车人等小物体的检测能力。这些结果表明,SPA和CQCA模块能够有效地抑制噪声,并从稀疏点云中提取关键特征。将PV-RCNN中的最远点采样模块替换为所提出的CDA模块,可进一步提升性能,这表明CDA在抑制噪声和从4D雷达点云中选择关键点方面具有更出色的能力,从而提高了3D边界框预测的准确性。此外,对这三个模块的不同组合进行分析,发现它们之间存在协同作用,从而实现了整体性能的平衡和提升。

表4:在VoD[5]验证集和TJ4DRadSet[6]测试集上进行的消融研究,以PV-RCNN(PP)[23]作为基线

图片图片

图6:在VoD验证集(第一行)和TJ4DRadSet测试集(第二行)上的可视化结果。每行展示一个数据帧,包含图像和雷达点(灰色点),彩色轴表示自动驾驶车辆的位置。绿色框表示真实值,红色框表示预测值。(a)显示图像;(b)展示PointPillars结果;(c)展示PV-RCNN(PP)基线结果;(d)展示在基线基础上添加SPA模块的结果;(e)展示在基线基础上添加CQCA模块的结果;(f)展示MAFF-Net(我们的方法)的结果

表5:以PointPillars[8]为基准在VoD[5]验证集上的消融研究

图片

表6:在VoD[5]验证集上进行的去噪策略实验,以PV-RCNN(PP)[23]作为基准

图片

为了进一步验证SPA和CQCA模块的有效性,我们以Point-Pillars[8]为基准进行了消融实验。表5表明,这两个模块均提升了检测性能,这与PV-RCNN(PP)实验的结果一致。

为了评估圆柱形关键点采样相对于球形关键点采样在4D雷达数据中的优势,我们对CDA和SDA方法进行了比较。如表6所示,CDA在整体性能上优于SDA。

图6展示了MAFF-Net在VoD和TJ4DRadSet数据集上的可视化示例结果定性结果表明,MAFF-Net在各种场景下对物体的3D边界框预测精度上优于PointPillars和PV-RCNN(PP)。具体而言,SPA模块通过全局特征交互增强了对被遮挡物体的检测,而CQCA模块则提高了物体定位精度并减少了误报。

总体而言,实验结果证实了MAFF-Net中每个模块的有效性,并突显了噪声抑制、全局特征提取以及关键点选择对于基于4D雷达点云的3D物体检测的重要性。


Ⅴ 结论

在这项工作中,我们提出了MAFF-Net,这是一种新颖的基于4D雷达的3D物体检测器,旨在应对稀疏、嘈杂且语义有限的雷达点云所带来的挑战。MAFF-Net通过利用空间和几何约束有效地抑制噪声并提取有意义的特征。在VoD和TJ4DRadSet数据集上的实验结果表明,MAFFNet达到了最先进的性能,超过了16层的激光雷达方法,同时保持了实时推理速度。未来的研究将整合相机图像数据以增强雷达特征,从而实现更准确和高效的3D物体检测。


参考文献


图片图片

来源:同济智能汽车研究所

评论 0
同类信息