自动驾驶中基于深度学习的雷达与视觉融合用于三维物体检测的综述_汽车技术_

编者按：清华大学Mars Lab团队提出SLAM-Former，首次将完整SLAM系统集成于单一Transformer中。该模型通过前端实时跟踪建图与后端全局优化交替协同，有效解决传统方法中累积误差与全局不一致的问题。实验显示，其在TUM、7-Scenes等多个基准上取得领先的追踪与重建精度，为视觉SLAM的统一神经网络架构提供了新方向。

本文译自：

《SLAM-Former: Putting SLAM into One Transformer》

文章来源：

arXiv preprint arXiv:2509.16909 (2025).

作者：

Yuan, Yijun, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

作者单位：

清华大学

原文链接：

https://arxiv.org/abs/2509.16909

摘要：我们提出了 SLAM-Former，这是一种将完整的 SLAM 功能集成到单个 Transformer 中的新型神经方法。与传统的 SLAM 系统类似，SLAM-Former 同样包含前端和后端，二者协同工作。前端实时处理连续的单目图像，以实现增量式建图和定位，而后端则进行全局优化，以确保几何一致性。这种交替执行的方式使得前端和后端能够相互促进，从而提升整体系统性能。全面的实验结果表明，SLAM-Former 的性能优于或可与最先进的稠密 SLAM 方法相媲美。

关键词：传感器融合，雷达，摄像头，物体检测，计算机视觉，摄像头雷达融合，雷达-视觉，自动驾驶，综述，调查

Ⅰ 简介

在机器人感知领域，同时定位与建图（SLAM）具有重要意义。它使机器人能够在未知环境中构建地图的同时追踪自身位置。这种能力对于机器人在各种环境中自主导航和执行任务至关重要。早期的 SLAM 算法主要侧重于使用稀疏点进行定位和建图，例如 ORB-SLAM 和 LSD-SLAM。这些方法高效且稳健，但可能无法提供周围环境的详细信息。相比之下，密集建图技术旨在创建更详细且连续的环境表示，主要依赖于激光雷达和 RGB-D。随着光流和多视角深度估计技术的迅速发展，近期的研究仅通过图像输入就实现了高质量的密集单目 SLAM。这些方法利用神经网络和计算机视觉算法的能力，从单个相机中估计深度和运动，从而无需额外传感器即可创建密集地图。尤其值得注意的是，利用几何基础模型的趋势。这些模型展现了数据驱动的 3D 结构预测的巨大潜力。其流式变体通过精心设计，进一步提升了性能。

通过老化注意力键值缓存（KV 缓存），使模型能够处理增量视觉输入。我们注意到，诸如 MASt3R-SLAM 和 VGGT-SLAM 这类使用几何基础模型作为重建模块的 SLAM 方法存在全局一致性问题，因为它们依赖于局部子地图的对齐。另一方面，像 StreamVGGT 和 Stream3R 这样的流式方法处理增量输入时不会重新映射过去的数据，这可能会导致过去数据与新输入数据之间出现显著的不匹配。

在这项工作中，我们提出了一种在单一统一的 Transformer 架构中实现的视觉同步定位与建图（SLAM）框架，命名为 SLAM-Former。SLAM-Former 在同一个 Transformer 中包含前端和后端，二者协同工作。前端对连续的 RGB 图像进行实时处理，用于关键帧选择以及增量式地图和位姿更新。前端的增量输出会定期由后端以较低的频率进行全局地图和位姿的优化。

在这一交替过程中，前端和后端相互促进。每次后端运行后，都会将转换器的 KV 缓存更新到前端以进行进一步的增量操作。作为回报，前端提供初始结果和顺序，帮助后端进行优化。为了使单个转换器具备所有 SLAM 功能，我们为 SLAM-Former 提出了三种训练模式。

与传统的 SLAM 管道相比，后者需要额外的回环检测模块来闭合其位姿图，而 SLAM-Former 的后端通过全注意力机制实现了这一功能，相当于在密集因子图上进行回环检测。与现有的校准和未校准的先进方法相比，SLAM-Former 在广泛使用的密集单目 SLAM 基准测试中实现了显著更优的重建效果和最先进的跟踪性能。

图 1.SLAM-Former 是用于 SLAM 的统一 Transformer。传统的 SLAM 采用多模型流水线来处理前端和后端任务。相比之下，SLAM-Former 将完整的 SLAM 功能整合到一个 Transformer 中，实现了连贯的姿态估计和密集的地图构建。

Ⅱ 相关工作

A. 密集型RGB SLAM

近年来，基于单目相机的稠密 SLAM 研究取得了显著进展，这得益于深度学习技术的应用。由于没有深度传感器，稠密的 RGB SLAM 需要将整个几何序列和相机作为一个整体进行优化。

早期的研究工作侧重于降低深度估计的计算成本。例如，CodeSLAM 和 DeepFactors 通过优化深度潜在变量作为替代方案。借鉴 MVSNet 的优势，Tandem 依赖于外部模型，但打破了协同优化的结构。相反，DROIDSLAM 和 Scene-Factory 将深度光流模型整合到流程中，并通过速度密集的束调整协同优化两者。另一方面，基于 NeRF 和高斯点阵的方法已成为重塑密集 SLAM 的趋势。NeRF-SLAM 方法和 GS-SLAM 方法以高度逼真的新视图合成目标为整体优化场景。然而，这些基于渲染的 SLAM 方法通常耗时较长，无法满足重建需求，且对模糊和噪声高度敏感，这极大地限制了它们在实际生活中的应用。

随着诸如 DUSt3R 和 VGGT 等近期基础几何技术的出现，研究人员获得了新的灵感。MASt3R-SLAM 利用先进的成对模型 MASt3R 进行高质量的免校准匹配和几何构建，在传统的 SLAM 流程中展现了最先进的性能。另一方面，VGGT-SLAM 将子地图输入到 VGGT 中，并使用新颖的 SL(4) 流形将它们连接起来，首次对基础几何中的几何失真进行了建模。然而，这些方法依赖于成对或子地图级别的几何优化，这常常导致帧之间的冲突结构。MASt3R-SLAM 试图通过 TSDF 融合来解决这个问题，但这种方法只能修复小的不匹配。同时，VGGT-SLAM 无法解决这个问题，因为它仅在前端和末端节点之间建立了子地图的连接。

这激励我们开发一种前端后端结合的同步定位与建图（SLAM）结构，以妥善且清晰地解决这一问题。

B. 前馈三维重建

近年来，DUSt3R引领了一种直接利用可扩展训练数据回归3D结构的趋势。然而，在处理图像对时，DUSt3R对于较大场景需要进行全局优化，这降低了推理效率。为解决这一局限性，已有多项研究提出相应方案。Fast3R、VGGT和Pi3均在单次前向传播中处理多视角图像，避免了耗时的后处理全局优化。这三种模型均为基于Transformer的多视角点云估计模型。Fast3R强调了能够高效处理数千张图像的能力，而VGGT则表明，通过采用简单的架构结合3D多任务学习和可扩展训练数据，能够取得最先进的成果。Pi3进一步引入了置换等变设计，消除了对固定参考视图的依赖，增强了对输入顺序的鲁棒性和可扩展性。

除了前馈多视图方法之外，近期的前馈流式方法实现了在线3D重建。Spann3R通过维护和与空间记忆进行交互将Dust3R扩展到流式处理。CUT3R引入了基于转换器的持久状态标记。

在线重建的反复更新。LONG3R 采用 3D 空时记忆和由粗到细的流水线来处理长序列流式重建。StreamVGGT 和 Stream3R 进一步引入因果注意力机制，借鉴现代语言模型，以实现实时流式重建。

然而，现有的流式方法仅专注于增量更新，而不重新审视过去的估计值，这会导致漂移和全局一致性受限。为了解决这个问题，我们提出了 SLAM-Former，这是一种统一的神经 SLAM 管道，它将前端和后端相结合，以实现高效的增量更新和周期性的全局优化。

Ⅲ SLAM-Former

本节介绍我们提出的 SLAM-Former。首先描述其底层的 Transformer 架构，然后分别详细阐述其在 SLAM 前端和后端的作用。接着介绍一种联合训练策略，将这些任务统一在一个模型中，最后介绍推理流程。

A. Transformer架构

SLAM-Former 基于单个 Transformer 模型构建，其中 Transformer 主干能够聚合帧内和帧间信息，而特定任务的头部则用于解码场景几何和相机姿态。为清晰起见，我们假设图像特征已预先编码，输入的是一组图像补丁标记，其中添加了注册标记。与 Pi3 类似的设计一样，我们在所有帧中使用共享的注册标记，从而无需指定参考帧。主干包含层，每层都配备了帧内和帧间注意力机制，以共同捕获局部图像上下文和时间对应关系。

SLAM-Former 将用于增量帧处理的前端和用于全局地图及姿态优化的后端集成在一个共享的 Transformer 主干网络中。

B. 前端

我们在图 2 中展示了前端处理过程。当新一帧图像到达时，前端首先判断其是否应作为新的关键帧。如果是，则系统继续进行跟踪和建图。

图 2.SLAM-Former 的工作流程。前端检测关键帧并执行增量位姿和地图更新，而后端执行全局位姿和地图更新。共享的地图标记内存和 KV 缓存更新机制确保前端和后端相互促进，这一过程由蓝色箭头标记。

形式上，给定一个图像序列，前端将每一帧映射为一组地图标记：

其中表示先前关键帧的 KV 缓存，存储了在帧间注意力层。关键帧索引为，其基数为，以及帧的生成映射标记，这些标记作为场景的隐式神经表示。在此过程中生成的新 KV 缓存也将扩展到以备后用。

关键帧检测。生成地图标记后，前端使用姿态头估计相机姿态。

如果某一帧相对于最新关键帧的相对姿态,超过了某个阈值，则将其标记为新的关键帧。

在实际操作中，对于关键帧检测，我们不依赖 KV 缓存；而是直接将应用于帧对，这提高了效率，并且无需指定参考帧。

前端跟踪与映射。如果确认了新的关键帧，将使用完整的 KV 缓存重新计算，并更新标记映射：

前端仅依赖于过去的帧，因此具有因果性，适合在线跟踪。然而，这种因果关系不可避免地会导致误差累积和局部不一致。为了缓解这一问题，我们引入了一个后端模块来进行全局优化。

C. 后端

后端负责对地图标记进行优化以确保全局一致性。如图 2 所示，传统的 SLAM 管道通常依靠闭环检测和图优化来实现这一目的。相比之下，我们的方法采用了一个基于 Transformer 的后端，它能够一次性直接优化所有地图标记：

这种设计的有效性在于内部的全注意力机制，它在所有地图标记之间建立了密集的连接。这种全局感受野使后端能够校正累积的偏差，并在重建的场景中强制执行结构一致性。

缓存共享。为了继承后端优化带来的好处，前端会复用来自后端的共享键值缓存：

通过这种方式，后续帧会根据优化后的全局结构进行跟踪和映射，从而降低长序列中误差累积的风险。

D. 训练策略

训练策略旨在使单个Transformer能够同时处理前端和后端的SLAM功能。我们对SLAM进行联合训练，在单次迭代中跨越三种模式，每种模式对应不同的输入输出关系。

图 3.SLAM-Former 的三种训练模式。和分别代表一帧图像的图像块标记和地图标记。在每种模式下，要么输入标记，要么输入标记，或者同时输入两者。输入到包含层帧注意力和各种帧间注意力的变压器骨干网络中。最后，通过头部回归姿态和点图。

训练前端。前端使用因果注意力掩码进行训练。在推理时，它会复用先前帧的KV缓存，从而实现高效、端到端的单次学习。

然而，纯因果注意力机制本质上将第一帧指定为参考帧。当对两个或多个帧进行联合操作时，我们采用没有单个帧定义坐标的设计，从而消除了对固定参考视图的依赖。因此，我们对前两帧应用全注意力机制，而对所有后续帧仍使用因果注意力机制。通过这种设计，在推理过程中，关键帧检测是通过将最后一个关键帧和传入帧一起处理进行的。对于跟踪和映射，前两个关键帧被联合处理以确定全局坐标。

通过前后端协作训练前端。为了连接前后端操作，我们训练模型采用混合注意力机制，以同时处理后端和缓存共享功能。具体而言，后端使用全注意力机制细化地图标记，而前端在与后端相同的前向传播中处理新图像，使用因果注意力，这等同于基于后端优化的KV缓存进行条件处理。

训练后端。后端对来自不同运行或KV缓存状态的地图标记进行优化。在此模式下始终应用全注意力机制，使模型能够解决漂移问题并确保全局一致性。

联合训练。在所有模式下，生成的标记都隐式地表示几何形状和相机姿态。特定任务的头部预测点图、置信度和相机姿态。

与预测全局几何结构的 VGGT 不同，SLAM-Former 为每一帧生成局部点图，从而避免了定义特定世界坐标系的需求。整体损失结合了深度、点图和相机监督：

对于深度损失，预测深度与真实深度进行监督，权重为置信度，其中表示逐元素乘法，表示空间梯度，为尺度因子。

对于点图损失，类似于深度损失，但定义在与第一帧对齐的变换局部点图上：，损失设计为。

对于相机损失，相对位姿一致性通过缩放的 Huber 损失进行监督：，其中表示缩放平移，表示 Huber 范数。

这三种模式在单次迭代中按顺序执行，且共享权重。最终的训练目标为上述损失的加权组合。

E. 执行管道

执行流水线将前端和后端集成起来以执行在线SLAM推理。

前端处理。每个传入的帧首先传递给关键帧检测器。如果被识别为关键帧，则会进行进一步处理。前两个关键帧会联合处理以进行初始化，生成地图标记和KV缓存，并将其存储。对于第个关键帧（），前端利用缓存的标记生成及其缓存，并将其添加到存储中。

后端优化。每经过个关键帧后，后端就会被触发。累积的地图标记会被优化，生成的键值缓存用于更新前T个前端缓存。

Ⅳ 实验

我们在多个任务上对SLAM-Former进行评估，包括相机跟踪和密集三维重建。随后，我们分析了前端-后端设计的影响，并评估了时间效率。

A. 实验设置

实现细节：SLAM-Former总共有36层同时具备帧注意力和全局注意力的Transformer层。我们使用Pi3预训练权重初始化SLAM-Former，并以32为批次大小训练10个周期（不包括冻结的图像编码器和相机头）。在训练过程中，我们采用AdamW优化器，学习率为1e-5，并使用余弦学习率调度器。在损失函数中，超参数设置为和。关于数据集：SLAM-Former在ARKitScenes、ScanNet、ScanNet++、HyperSim、Blended-MVS、MegaDepth和MVS-Synth上进行训练。在每次迭代中，单个SLAM-Former的所有三种模式都会被训练。整个训练过程在11小时内完成。

基线。我们在实验中使用的基线分为校准基线和未校准基线：已校准方法包括ORB-SLAM3、DeepV2D、DeepFactors、DPV-SLAM、DPV-SLAM++、GO-SLAM、DROID-SLAM、MASt3R-SLAM以及NICER-SLAM。未校准方法包括DROID-SLAM和MASt3R-SLAM、VGGT-SLAM、SLAM3R以及我们的方法SLAM-Former。此外，我们还使用我们的关键帧对相关方法CUT3R和StreamVGGT进行了测试。

B. 3D 跟踪评估

我们首先在TUM RGB-D、7-Scenes和Replica数据集上评估SLAM-Former的跟踪性能。我们计算了在已校准和未校准两种设置下各种方法的绝对轨迹误差的均方根误差。

在TUM RGB-D数据集的测试中，评估是在广泛使用的场景子集上进行的。结果总结在表1中。如图所示，在未校准设置下，我们的模型始终优于大多数基线模型。在涉及显著相机旋转和可能闭环的房间和地板等更复杂的序列中表现出色，表明我们的后端全局优化在减轻累积漂移方面特别有效。更重要的是，与校准基线相比，它显著降低了误差，达到了极具竞争力的水平。

表1.TUM RGB-D数据集上绝对轨迹误差的均方根误差（单位：米）。*符号表示基线是在未校准模式下从VGGT-SLAM论文中评估得出的，+符号表示基线是在我们的机器上测试得出的。

与TUM RGB-D轨迹的评估方式类似，我们在表2中展示了对7-Scenes数据集的评估结果。在未校准和校准两种设置下，我们的方法均优于大多数基线方法。在办公室、南瓜和厨房等更复杂的场景中，我们的模型与其余方法相比性能差距更为显著。总体而言，我们的方法优于所有基线方法。

表2.7-Scenes数据集上绝对轨迹误差的均方根误差（单位：米）。*符号表示基线是在未校准模式下从VGGT-SLAM论文中评估的，+符号表示基线是在我们的机器上测试的。

在Replica数据集上的轨迹评估。之前的跟踪实验是使用真实捕获的数据进行的，而Replica数据集是合成的。在未校准的情况下，我们的方法取得了显著的改进，与SLAM3R相比平均轨迹误差降低了约50%，并且优于所有基线，如表3所示。然而，我们的方法与NICER-SLAM处于同一水平，但仍落后于传统的SLAM方法DROID-SLAM。这是因为合成数据缺乏噪声和模糊，使得匹配足够准确，足以在光束平差中求解位姿。相比之下，在之前的实际数据测试中，DROID-SLAM的表现与我们的方法相当。

表3.Replica上的绝对轨迹误差的均方根误差（单位：米）。加号表示基线是在我们的机器上测试的。

C. 重建评估

我们在7-Scenes数据集上按照VGGT-SLAM的协议评估了SLAM-Former的重建性能，并在Replica数据集上按照相应协议进行了评估。

在7-Scenes数据集上的密集重建结果如表5所示。与其他最先进的密集SLAM方法相比，我们的方法展现出显著优势。在重建质量方面，我们的方法实现了0.017米的最高重建精度，而其他方法均在0.05米以上。在完整性和切比雪夫距离方面，我们的方法分别实现了0.037米和0.027米，仍比所有基线方法高出约50%。

表5.7-Scenes上的重建评估（单位：米）。表示每幅图像选取一个关键帧。

在我们的重建演示图4中，这种在所有主要重建指标上始终表现出色的情况也得到了体现。如图中前两行所示，基线方法在红色窗口区域内的帧之间存在表面不匹配的情况。相比之下，我们的SLAM-Former重建始终呈现出连贯且准确的结构。

图4.定性重建对比。请注意基线方法存在明显的结构错误，例如错位，而这些错误通过SLAM-Former的全局一致性优化得到了修正。

在Replica数据集上的密集重建结果列于表4中。我们的方法在所有基准测试中均在准确性和完整性方面表现最佳。具体而言，我们的2.09/1.56的准确度/完整性分别比第二好的结果至少高出1厘米。

表4.Replica数据集上的重建结果。星号表示NICER-SLAM报告的结果。短横线显示的是SLAM3R的结果。加号代表我们运行的结果。

我们还在图4的第三行展示了重建效果。在这里，StreamVGGT展示了房间内的多层表面，如红色窗口区域所突出显示的那样。更严重的是，VGGT-SLAM展示的层存在明显的尺度差异。而SLAM-Former则与真实情况高度吻合。由于测试时对点云的采样数量是固定的，基线方法生成的点云密度较低，这是由于层的不匹配造成的。

D. 前端与后端协作

为了探究SLAM-Former后端设计如何对整体系统性能做出贡献，我们进行了一系列消融实验。结果总结在表6中。这里，F、MB和EB分别表示我们架构的前端、中间后端和末端后端组件。所有评估均在TUM RGB-D基准上进行，使用绝对轨迹误差的均方根误差作为度量标准。

表6.在TUM RGB-D数据集上通过绝对轨迹误差的均方根误差评估模块协作情况。

结果表明，加入后端模块相较于仅使用前端，准确率显著提高，这证实了我们所提出的前端与后端相结合设计的有效性。

后端如何协助前端

尽管MB和EB的个体贡献在平均处理效应方面看似相当，且两者联合使用在整体指标上并未显示出显著提升，但需要强调的是，MB所发挥的作用远不止体现在最终的平均处理效应上。我们在一些数据集中最具挑战性的序列上展示了中间结果，包括Replica room1、ICLNUIM-ofkt1和TUM room，所有这些序列如图5所示为室内环境的内向外捕捉。最初，前端单独处理的结果误差相对较小，如红色窗口所示。然而，随着时间的推移，前端单独处理的重建结果变得严重失真。这种失真出现的原因在于前端单独处理会随着时间的推移累积误差，从而在后期导致较大的不准确。相比之下，我们的模型结合了后端处理，在整个过程中保持了一致性，有效地缓解了这些问题。

图5.有无后端辅助的定性重建对比。第一行显示了相应时间戳下仅前端的结果，而第二行则展示了有后端KV缓存辅助的结果。

后端如何从前端获益

上述测试表明，前端能够得益于后端的支持，从而实现性能的长期稳定。然而，后端如何从前端获益？这是否等同于仅仅将所有关键帧图像通过一次VGGT或Pi3处理？

为回答这个问题，我们使用ICL-NUIM场景中的ofkt0序列进行演示。如图6所示，左边的两张图展示了在将所有关键帧图像作为输入且不使用任何序列信息时VGGT和Pi3的结果。右边的图则是我们的结果。很明显，在没有我们前端提供的序列信息的情况下，VGGT和Pi3生成的重建结果杂乱无章。相比之下，我们的后端利用前端提供的隐含顺序实现了更连贯、更准确的重建。

图6 在ICL-NUIM数据集上对kt1进行的定性重建对比。从左至右依次展示了VGGT、Pi3和我们方法的结果。VGGT和Pi3均存在姿态漂移问题，导致几何不准确，而我们的方法则表现出一致且准确的重建效果。

E. 执行速度

我们还记录了该方法的时间成本，如表7所示。我们展示了在不同数据集上模块的执行时间。关键帧检测和前端平均运行时间不到100毫秒，而后端虽然较慢，但执行频率较低。整体速度大于10Hz，这表明我们的方法能够实时运行。

表7.数据集上的时间成本。TPE表示每次执行的时间，FPS表示每秒帧数。

Ⅴ 结论

在这项工作中，我们引入了SLAM-Former，将完整的SLAM功能集成到一个单一的Transformer中。通过交替进行增量前端处理和全局后端处理，SLAM-Former使前端和后端能够相互协作、相互增强，从而实现了整体性能的提升。结果表明，SLAM-Former在跟踪和重建方面均显著优于传统的基于几何基础的SLAM方法。此外，在使用真实世界数据进行测试时，它在跟踪性能方面达到了高度竞争水平，在重建方面则远远优于传统方法。

SLAM-Former仍存在一些局限性。首先，我们在后端使用了全注意力机制来替代传统SLAM中的回环检测与优化。然而，全注意力机制由于O(n²)的时间复杂度而带来了一些问题。我们认为，这一问题在未来的工作中可以通过SLAM的方法或通过Transformer技术如稀疏注意力和标记合并来解决。其次，SLAM-Former不支持本地前端模式；在推理过程中，所有先前的键值缓存都应输入到模型中。

参考文献

责编丨高炳钊

来源：同济智能汽车研究所