分享好友 资讯首页 频道列表

汽车智能性测评前沿:基于大模型安全测评

2025-04-29 08:20

中汽研汽车科技(上海)有限公司作为华东分中心的承载主体,积极投身于端到端技术、大模型技术等新兴技术领域的深度研究与大胆探索。精心布局端到端自动驾驶技术与大模型技术业务,广泛涵盖测试、咨询、产学研等多个维度,以创新引领行业发展潮流,为汽车产业的辉煌未来贡献力量。

当前,端到端自动驾驶技术正吸引着全球目光,并被众多企业和研究机构踊跃投入资源进行布局。中汽研汽车科技(上海)有限公司同样高度重视,并持续探索中。

01、自动驾驶测试迎来从传统到大模型的演变

传统测试是智能汽车研发过程中基于人工规则、固定场景和物理验证的安全评估体系,核心目标是确保车辆在预设条件下符合功能安全和法规要求。其测试方法包括硬件在环(HIL)测试、软件在环(SIL)测试和实车场地测试,如图1所示。在hil测试中,通过模拟器连接真实车辆控制器(如ECU),输入预设信号(如车速、温度)验证硬件响应,但无法完全模拟复杂环境动态。例如,测试刹车控制器时,模拟“湿滑路面”信号,但无法还原真实轮胎与地面的摩擦变化。另外,实车场地测试要求封闭的、固定的实验场地,这也大大增加了测试成本。最重要的是,在SIL测试中,其测试方法要求人工编写规则和测试用例,难以覆盖长尾场景,对后续的测试方法造成安全隐患。传统测试的落地教会了智能汽车怎么走路,但是要让它学会奔跑,就必须要革新。

图片

图1 测试分类

(来源https://www.cnblogs.com/klb561/p/18060785)

当前人工智能测试已经由机器学习、深度学习测试时期进入大模型测试时期,未来还将迈向通用人工智能(AGI)测试时期([1])。随着深度学习技术的发展,利用深度强化学习和深度神经网络实现拟人化驾驶的研究得到了关注。特斯拉是自动驾驶领域的领先企业之一,其全自动驾驶(FSD)系统不断优化神经网络,能够在复杂路况下实现更长距离的自主驾驶。作为纯视觉自动驾驶方案的先驱者,特斯拉的Autopilot系统以及后续的FSD系统,均采用纯视觉方案,依靠车辆上配备的多个摄像头来感知周围环境,通过深度学习算法实现自动驾驶功能。

图片

图2 特斯拉的FSD示意 (图像来自特斯拉官网)

02

大模型安全测评研究进展

大模型作为智能汽车的核心技术之一,其安全性直接涉及到汽车的安全驾驶和用户的隐私保护。DriveGPT4等多模态大模型(图3,来源https://arxiv.org/abs/2310.01412)在自动驾驶中的应用也受到了关注。大模型不仅可以自动生成长尾场景(如“暴雨+逆光+行人突然闯入”),而且可以通过多模态数据(视觉、雷达、控制指令)预判系统漏洞。这些模型能够理解和推理多模态数据,但在自动驾驶应用中仍需针对特定任务进行微调和优化([2])。

图片

图3 基于大模型的测试技术框架

(来源https://arxiv.org/abs/2310.01412)

从大模型安全检测方式来看,国内外开源大模型抵御特殊构造指令攻击方式能力不足,模型容易被误导,导致输出有害内容。 总体上,国内外开源大模型存在一定安全风险,内容安全防护能力较为薄弱,安全研究投入占比少([3])。一方面,大模型直接处理海量的交通数据和用户信息,如果存在安全漏洞,就可能导致数据泄露、恶意攻击等风险。另一方面,如果大模型在学习长尾问题上存在不足,就可能导致出现决策错误,造成严重的交通事故。因此,对大模型进行全面、深入的安全测评,是确保智能汽车安全可靠的关键环节。 

目前,智能驾驶基于大模型的安全测评方法和研究不断涌现。例如,多支柱法是一种综合性的自动驾驶汽车安全评估方法,由联合国世界车辆法规协调论坛(WP.29)自动驾驶验证方法非正式工作组提出。该方法结合了多种测试手段,包括:仿真测试、场地测试、道路测试、审核与评估和监测与报告。多支柱法通过灵活且技术中立的方式,全面评估自动驾驶系统在实际通行时面临的各类风险问题,特别是系统与交通参与者、环境交互、人机交互、系统失效等场景中的安全性能。单一测评方法无法实现全面的安全评测,而多支柱法结合了各种方法的优势,弥补了单一方法的不足,避免了重复和冗余测试,从而达到高效、全面和协同的目的。基于场景的“三支柱”安全测试评估方法是一种系统化的智能网联汽车安全测试方法([4]),主要包含三大支柱:模拟仿真测试、封闭场地测试和实际道路测试(图4)。

图片

图4 安全测试的“三支柱”示意

另外,学术界通过提高算法来改善大模型的不确定性。Cluster Entropy通过轨迹采样、聚类和熵计算来评估自动驾驶模型的不确定性。这种方法结合了多种驾驶行为的聚类,使得不确定性估计更具可解释性。例如,在复杂交叉路口,Cluster Entropy能够直观反映不同驾驶决策的不确定性,从而帮助优化自动驾驶系统的安全性([5])。并且在该文献中,作者提出了navsafe数据集,专门用于测试端到端驾驶方法的安全性和鲁棒性,结合了真实的事故数据,通过细粒度的评分机制量化自动驾驶模型的不同驾驶能力。工业界提出整车智能大模型应用研究。整车智能大模型不仅用于驾驶安全性,还涉及网联与通讯、个性化与定制化等多个方面。大模型能够实时监控车辆状态,提前发现潜在故障,确保行车安全。针对智能网联汽车的功能安全和预期功能安全,研究提出了系统化的测试与评估方法。这些方法包括模拟仿真测试、场地测试、实际道路测试、网络安全和数据安全测试等,旨在全面评估自动驾驶系统的安全性([6])。

大模型的工作机制基于数据驱动,数据集的好坏往往决定了大模型安全测评。数据集为大模型提供了丰富的测试场景,包括正常场景和边缘场景(corner cases),帮助评估模型在不同情况下的表现。例如,JADE数据集(图5)通过构建违规图像提示词,测试大模型在生成图像内容时的安全性,发现部分模型在特定提示词下会生成违规内容([7])。

图片

图5 大模型安全评测平台概览

而且通过设计包含安全风险的数据集,可以评估大模型在面对潜在威胁时的应对能力。例如,SecBench数据集([8])从多个维度(如知识记忆、逻辑推理等)对大模型的网络安全能力进行评测,帮助识别模型在安全方面的薄弱环节。数据集不仅用于评估,还可以作为反馈,帮助开发者了解模型的不足之处,从而进行针对性的优化。在自动驾驶领域,通过仿真测试数据集发现模型在特定场景下的不足,进而改进模型的决策算法。高质量的数据集能够帮助大模型学习到更广泛的模式和规则,从而提高其在未见过场景下的泛化能力。例如,自动驾驶数据集Acti通过标注真实的网络安全报告,帮助模型学习到网络安全威胁的特征,提升其在实际应用中的泛化能力([9])。

03

总结

随着科技的不断进步,汽车智能性测评将更加精细化和全面化。一方面,测评技术将不断融合多学科知识,如心理学、社会学等,以更全面地评估大模型在不同场景下的安全性和可靠性。另一方面,测评将更加注重用户体验和实际应用效果,通过模拟真实驾驶场景和用户交互,为智能汽车的大模型优化提供更有价值的参考。此外,随着国际和国内测试标准的不断完善,智能汽车的大模型安全测评也将更加规范化和标准化。

相关技术领域如有合作或交流意向,请联系

秦经理 电话18916273633     

电子邮箱 qinyangyang@catarc.ac.cn

图片

参考文献:

1. https://www.caict.ac.cn/kxyj/qwfb/ztbg/202407/P020240711534708580017.pdf

2. Xu Z, Zhang Y, Xie E, et al. DriveGPT4: Interpretable end-to-end autonomous driving via large language model. arXiv[J]. arXiv preprint arXiv:2310.01412, 2023.

3. Top开源大模型安全测评报告(2024)

4. https://tougao.ijournals.cn/ch/mobile/create_pdf.aspx?file_no=20230101&flag=1&journal_id=qcgcxb&year_id=2023

5. Sima C, Chitta K, Yu Z, et al. Centaur: Robust End-to-End Autonomous Driving with Test-Time Training[J]. arXiv preprint arXiv:2503.11650, 2025.

6. https://www.auto-testing.net/news/show-122121.html

7. https://secsys.fudan.edu.cn/b6/b9/c26973a636601/page.htm

8. https://secbench.org

9. https://github.com/amir-kazemi/aidovecl

来源:CATARC中汽科技上海

评论 0
同类信息