一、背景
在辅助驾驶中引入人工智能大模型时,黑盒特性与不可解释性对安全性的威胁尤为突出。大模型依赖海量数据训练出的复杂神经网络,其决策逻辑往往无法通过传统规则或简单特征归因进行拆解,导致工程师难以预判极端场景下的输出风险——例如在光线折射干扰摄像头成像时,模型可能错误识别车道线并触发危险转向,而研发团队却无法通过常规调试定位“误判链”的具体节点。这种“知其然不知其所以然”的特性,不仅使系统难以通过功能安全标准要求的失效模式分析(FMEA),还会在事故发生后因缺乏决策追溯证据,陷入责任认定的法律真空。
更严峻的是,不可解释性会掩盖数据偏差带来的系统性风险。训练数据中缺乏特殊群体(如穿戴异色防护服的工人)或罕见路况(如反光积水路面)的样本,大模型可能形成隐性歧视或决策盲区,而传统测试流程难以覆盖这些“长尾场景”。当此类缺陷在实际驾驶中被触发时,黑盒机制无法提供修正路径,导致风险累积。因此,突破大模型的可解释性瓶颈,建立“决策逻辑可溯源、风险边界可界定、异常输出可干预”的安全框架,是其从实验室走向量产车的关键前提,也是平衡技术创新与公共安全的核心命题。
如果还不够直观,还可做个实验看看AI模型的谬误和幻觉,比如在自己撰写某些需要学术参考文献时,让大语言模型为自己寻找参考文献,经常会发现大语言模型一本正经地“捏造”了许多并不存在的文献。这其实都是AI进行概率性联想带来的幻觉。这种幻觉在写作中顶多是乌龙事件,在辅助驾驶中则威胁生命财产安全。
图 车辆在显示自己行为的动机,并且在车头显示器显示出来,图片来自《Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions》
所以辅助驾驶的一个研究潮流,就是车上的AI要具有可解释性,便于事前审核和事后的回溯。而辅助驾驶的相关方众多,更使得可解释AI(fexplainable artificial intelligence,XAI)的重要性凸显。
图 辅助驾驶的利益相关方全图,来自《Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions》
这张标题为“Taxonomy of the stakeholders in autonomous driving”(自动驾驶利益相关者的分类)的图,展示了自动驾驶利益相关者的分类。
图中主要分为四个大类如下:
1、道路使用者(Road users)
车内乘客(In - vehicle passengers):自动驾驶车辆的乘坐人员,关注乘坐体验、安全性。
行人(Pedestrians):路上步行的人群,其安全受自动驾驶车辆影响,关心自动驾驶车辆能否准确识别并避让行人。
骑行者(Bikers):包括骑自行车、摩托车等的人员,需要自动驾驶车辆能够正确识别并保障其路权和安全。
具有不同功能和认知能力的用户(Users with different functional and cognitive capabilities):如残障人士、老年人等特殊群体,他们对自动驾驶车辆的易用性、安全性有特殊需求。
备用驾驶员(Backup drivers):在某些自动驾驶场景下,当系统出现问题时需接管车辆的人员,要确保能及时、安全地介入。也就是安全员
2、自动驾驶开发者(AVs developers)
人工智能研究人员(AI researchers):负责研发自动驾驶相关的人工智能算法,提升车辆的感知、决策能力。
软件开发者(Software developers):开发自动驾驶系统的软件,实现车辆的各种功能。
数据科学家(Data scientists):处理和分析自动驾驶所需的数据,用于训练和优化算法。
系统设计师(System designers):设计自动驾驶系统的整体架构,确保各组件协同工作。
车辆技术人员(Vehicle technicians):负责车辆硬件的维护和调试,保障自动驾驶系统的硬件正常运行。
3、监管者和保险商(Regulators and insurers)
监管实体(Regulatory entities):制定自动驾驶相关法规、标准,规范行业发展,保障公共安全。
系统审核员(System auditors):对自动驾驶系统进行审核评估,确保其符合相关标准和要求。
保险机构(Insurance agencies):开发适用于自动驾驶车辆的保险产品,评估风险并提供保险服务。
事故检查员(Accident inspectors):在自动驾驶车辆发生事故后,调查事故原因,确定责任归属。
4、管理人员(Executives)
执行官(Executive officers):企业高层管理人员,负责制定公司关于自动驾驶业务的战略决策。
区域主管(Regional directors):负责特定区域内自动驾驶业务的管理和运营。
董事会成员(Board members):参与公司重大决策,对自动驾驶项目的投资、发展方向等进行把控。
其他管理人员(Other managers):负责具体业务板块的管理工作,保障自动驾驶项目顺利推进 。
如果考虑到国内的监管需求,本文在以上四类关切人员的基础上再补充两类人员:
5、自动驾驶硬件制造商(Autonomous Driving Hardware Manufacturers)
可归类到 “AVs developers”(自动驾驶开发者)类别下。这一类人员 / 企业负责设计、生产和制造自动驾驶所需的硬件设备,具体包括:
传感器制造商:生产激光雷达(LiDAR)、摄像头(Camera)、毫米波雷达(Millimeter - wave Radar)等用于车辆环境感知的传感器,为自动驾驶系统提供外部环境信息输入。
芯片制造商:研发和制造具备强大算力的芯片,如英伟达(NVIDIA)的自动驾驶芯片,以支持自动驾驶系统复杂的算法运算和数据处理。
执行器制造商:制造用于控制车辆转向、制动、加速等动作的执行器,确保自动驾驶系统的指令能够准确作用于车辆。
6、国内自动驾驶监管机构(Domestic Autonomous Driving Regulatory Agencies)
可归类到 “Regulators and insurers”(监管者和保险商)类别下。国内主要的自动驾驶监管机构包括:
工业和信息化部(MIIT):负责研究制定自动驾驶产业发展规划、政策和标准,推动自动驾驶技术的产业化应用,同时对相关企业进行行业管理。
交通运输部:主要从交通运输行业管理角度,负责制定自动驾驶车辆在道路运输领域的相关管理政策,规范自动驾驶车辆在道路运输场景下的运营活动,保障运输安全和秩序。
公安部交通管理局:侧重于道路交通安全管理方面,制定自动驾驶车辆上路行驶的安全规范,处理自动驾驶车辆相关的交通事故,维护道路交通秩序。
如此多的关切方,自然把车辆上人工智能的可解释性推上风口浪尖。特别是现在辅助驾驶流行端到端E2E方案,从头到尾就是一个整体的大模型,而没有以前的感知决策规划分段式操作,出了问题都不知道是感知遗漏还是决策错误,还是规划路径不合理。所以端到端大模型的可解释性越发重要。
图 左侧模块化,右侧端到端,辅助驾驶的技术路线变化,也来自《Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions》
随着深度神经网络(通常以增强形式的卷积神经网络,即 CNNs)为智能车辆的视觉能力提供支持,理解卷积神经网络如何捕捉导致车辆特定行为的实时图像片段,是实现可视化解释的关键概念。在这方面,可解释的卷积神经网络架构已促使人们做出调整以生成可视化解释。
CNN 的可解释性方法,本质是把神经网络的 “黑箱” 判断,转化为人能看懂的直观信息(比如热力图、文字说明)。
CNN 实现可解释性的常用的 “翻译” 手段有 3 类:
1. 看模型关注哪里 —— 热力图法,也就是让 CNN “画出” 它在图片中重点看的区域,颜色越亮的地方,模型越关注。
常用技术两张图:
Grad-CAM:用梯度计算每个区域的重要性,生成热力图。
图 Grad-CAM示意图,说明视觉模型需要调整,因为热点不是图片主题那只狗,图片来自网络
显著性图(Saliency Map):计算每个像素对结果的影响,像素越亮,影响越大。
图 Saliency Map,有点类似于明暗图,图片来自网络
2. 看中间层学了什么 —— 特征可视化
原理:CNN 的每一层会学习不同层次的特征(比如第一层学边缘、第二层学眼睛、第三层学完整物体),把这些特征 “翻译” 成人类能看懂的图像。
常见做法用反卷积(Deconvolution)把中间层特征 “还原” 成图像,看它对应现实中的什么东西。
图 反卷积网络架构图,直观上就是图像还原,图片来自网络
3. 用规则或语言解释 —— 代理模型法
用一个简单易懂的模型(如决策树、规则集)模拟 CNN 的判断逻辑,然后用这个简单模型解释结果。
举例,CNN 判断 “这是猫”,代理模型可能总结出规则:
“如果图片中同时存在‘三角形耳朵’和‘竖直瞳孔’,且面积占比> 20%,则判断为猫。”
常用技术包括LIME(局部可解释模型无关解释):在 CNN 的预测结果附近,用简单模型拟合局部数据,生成人类可理解的规则。
图 LIME工作框图,它就像个裁判,图片来自网络
解释感知到的环境状态如何映射到行动,这一问题最近在自动驾驶领域也受到了关注。在这方面,可解释强化学习(XRL)领域是可解释人工智能(XAI)中一个相对较新且正在兴起的研究方向。
不同于视觉可解释主要是识别物体,XRL主要是“解释”车辆AI如何做出决策和解释。
强化学习(RL) 是让机器通过 “试错” 在复杂环境中学习决策的技术,比如机器人走路、游戏 AI 下棋。但传统强化学习就像一个 “黑盒子”—— 机器知道怎么做决策,但人类很难理解它为什么这么做(比如 AlphaGo 的走棋逻辑难以用人类语言解释)。
可解释强化学习(XRL) 就是要让这个 “黑盒子” 变得 “透明”,不经输出结果,还输出理由。
举个例子,假设用强化学习训练一辆自动驾驶汽车,它学会了 “遇到红灯停车”。传统 RL:车能正确停车,但人类不知道它是根据 “红灯像素位置” 还是 “周围车辆动作” 做出的决策,万一出错很难排查原因。
XRL不仅让车学会停车,还能解释 “因为摄像头检测到红灯(特征 A),且车速> 5km/h(特征 B),所以触发刹车动作”,甚至能回答 “如果红灯颜色变浅会怎样?” 等问题。
XRL 的核心思路是给机器的决策过程 “加注释”,常用方法包括:
1. 用人类能理解的形式表达决策逻辑
规则化:把机器学到的策略转化为 “如果… 那么…” 的规则。例子:训练扫地机器人时,将其避障策略转化为 “如果前方障碍物距离 < 20cm,且左侧无障碍物,那么向右转”。
决策树 / 流程图:用树形结构展示决策步骤,每个节点是一个条件(如 “电池电量是否 < 20%”),分支是对应的动作(如 “返回充电” 或 “继续清扫”)。
2. 突出关键影响因素(特征归因)
告诉人类:“在决策中,哪些环境信息最重要?”
可以用SHAP 值、LIME 等可解释性工具,量化每个特征对决策的贡献度
3. 模拟和对比实验(反事实解释)
回答 “如果环境变化会怎样?” 的问题,帮助人类理解决策的鲁棒性。比如自动驾驶汽车解释 “如果前方车辆突然刹车(假设场景),我会在 0.5 秒内启动 ABS 系统,因为当前车速 < 60km/h 且路面干燥”。
通过对比不同动作的后果(如 “选动作 A 会得分 + 10,选动作 B 会撞墙扣分”),说明最优选择的原因。
4. 结合自然语言或可视化
用文字或图表直接 “翻译” 机器的决策逻辑。例子:AI 下棋时,边落子边显示 “我认为这一步能控制中盘,因为能威胁对方 3 颗棋子,预计 5 步后胜率提升 20%”;
可视化热力图:在机器人视角图像上,用颜色深浅表示各个区域对决策的影响(如 “红色区域代表高危险,需优先规避”)。
由于决策树本质上具有可解释性,且更易于理解模型的预测结果,因此在辅助驾驶领域也对基于决策树的解释方法进行了研究。
决策树在辅助驾驶中的优势:
计算透明性:相比深度神经网络,决策树的层级分裂和特征选择过程可直接可视化,无需额外反向传播或复杂计算即可解释决策路径。
语义对齐:决策树的 “IF-THEN” 规则天然适配交通规则(如 “若行人距离 < 5 米,则刹车”),易于与人类驾驶逻辑对齐。
泛化与效率平衡:随机森林等集成方法在保持较高预测精度的同时,通过特征重要性排序(如 SHAP 值)简化解释复杂度,适合实时性要求高的驾驶场景。
基于决策树的解释方法通过结构化逻辑规则和特征关联分析,为自动驾驶的决策提供了人类可验证的语义解释,尤其适用于需要合规性验证(如交通法规遵循)或故障追溯的场景。尽管其表达能力可能不及深度神经网络,但在可解释性、计算效率和逻辑一致性方面具有不可替代的优势。
图 Apollo的决策树,图片来自网络
不过还是要说,决策树作为一种初级的机器学习模型,一般被认为泛化能力不足和容易过拟合。辅助驾驶中的决策树(包括随机深林),主要是作为机器学习到的规则的一种固化形式,而不是作为第一梯队的学习模型。
尽管自动驾驶控制AI模型的可解释性一直是研究的主要方向,但也有学者尝试通过逻辑推理验证自动驾驶汽车的安全性。在这方面,Corso 和 Kochenderfer [2] 提出了一种识别自动驾驶汽车可解释性故障的技术。他们使用信号时序逻辑(Signal Temporal Logic, STL)表达式描述自动驾驶汽车在无保护左转和行人横穿场景中的故障案例。为此,作者利用遗传编程优化 STL 表达式,以捕获导致车辆决策动作失败的干扰轨迹。实验结果表明,该方法能有效解释汽车的安全验证过程。
STL 的本质是人为设计的形式化工具,也可以理解为人工规则集。
STL 是计算机科学和控制理论领域的研究者人为设计的逻辑框架,用于精确刻画信号(如时间序列数据)在时间维度上的性质。其语法规则由逻辑运算符(如时态算子「总是」「最终」「直到」)和比较谓词(如 (>)、(leq))组成,例如,“在未来 0 到 5 秒内,速度始终不超过 60 公里 / 小时”。
尽管可解释辅助驾驶的初步研究和后续工作主要集中于上述各种 AI 技术的结合,但大型语言模型(LLMs)和视觉 - 语言模型(VLMs)最近已成为解释自动驾驶汽车决策和描述交通场景的新范式。
这种结合语言模型的AI可解释性,本质是用AI来解释AI。但大型语言模型(LLMs)和视觉 - 语言模型(VLMs)的语言模型部分在扮演解说员的角色。语言模型部分以视觉或者决策规划模型的输入和输出一起映射到语言模型的语义输入空间,然后然语言模型部分转化为人类语言做出解释,这和看图生文,或者看视频生文是一样的。
为什么说它们是 “新范式”?对比传统方法
传统可解释方法(如热力图、决策树)
LLMs/VLMs 方法
需要专业知识才能看懂(如热力图的颜色含义)
直接用自然语言,普通人都能理解
只能解释 “关注哪里”(如 Grad-CAM 高亮区域)
能解释 “为什么关注这里”+“背后的规则逻辑”
静态解释(事后生成报告)
动态实时解释(边开边说)
只能解释单一模态(如图像或数据)
多模态融合(图像 + 文字 + 规则 + 常识)
而且大语言模型的CoT推理链,会把一个大问题分解为一系列子问题来串行或者并行执行,这一系列的子问题进一步增强了大语言模型的可解释性。因为每一个子问题构成了整体问题的内部步骤,内部步骤远比一站式端到端更加具有可解释性。
更加具体的,CoT(Chain of Thought,思维链)推理链是大语言模型(LLMs)实现复杂推理的核心技术之一,其本质是让模型通过分步拆解问题、逐步推导逻辑来模拟人类的思维过程,从而提升回答的准确性和可解释性。通俗来说,就是让模型 “把思考过程说出来”,而不是直接给出答案。
比如下图,车辆观察周围环境,决定是否刹车,这是AEB的基本功能。它会同时观察多个目标的位置,方向,分类等等,每一个都是一个子问题“某目标是什么分类,什么方向,什么位置”,如果刹车行为发生,可以分辨出到底是哪一个子问题引起最终的刹车决策。
图 车辆观察周围环境,决定是否刹车,图片来自网络
虽然用AI来解释AI是一种高级做法,但由于做解说员的本身也是AI,本身也存在包括可解释性在内的各种问题。所以基于大语言模型或者视觉语言模型的解释也有如下挑战:
在感知层面,可解释AI将促使传感器融合技术进一步革新。通过多源数据(如摄像头、雷达、激光雷达)融合,不仅能更精准地识别道路目标,还能解释每个传感器数据对最终感知结果的贡献。比如,当系统检测到前方车辆,可清晰展示摄像头如何识别车辆外形,雷达怎样测算距离与速度,激光雷达又如何构建三维轮廓,各传感器数据如何协同得出结论,让研究人员和驾驶员理解感知过程,提升对辅助驾驶系统的校验和信任。
决策算法的可解释性优化也是关键方向。基于深度学习的决策模型将融入因果推理机制,不仅给出决策结果,还能阐述决策逻辑。例如在复杂路况下,系统决定减速避让,它能解释因前方车辆突然变道,依据交通规则和安全距离模型,为避免碰撞所以采取减速操作,让驾驶员知晓决策并非随机,而是遵循严谨逻辑,增强对系统决策的认可。进一步的,当驾驶员多次得到车辆AI的动机解释后,甚至能直观预测AI的动作。
此外,随着大语言模型和视觉 - 语言模型的发展,可解释AI将实现自然语言交互解释。在驾驶过程中,驾驶员若对辅助驾驶操作存疑,如“为什么刚刚建议我此时变道”,系统可通过模型结合实时路况,以自然语言清晰解答,如“当前车道前方拥堵,预测通行时间长,而相邻车道车辆少、车速快,综合评估此时变道能节省出行时间” ,极大提升人机交互体验与驾驶员对系统的理解。
随着国内对辅助驾驶监管的日趋严格,有可能国内先于国外把辅助驾驶AI的可解释性列入强制标准。以人类语言表述的AI动机解释,对于事前批准和事后审计都是必不可少的。如果车辆故障或者事故,一大堆人类无法理解的浮点数(AI模型的中间表达,而且无法复现)是无法作为证据的,只有AI可解释性带来的动机和证据链条才能有效回溯事件真相。